Лінгвістичні студії: Збірник наукових праць.

Ілля Данилюк — ЕЛЕКТРОННА БАЗА ДАНИХ ВИПАДКІВ ФОРМАЛЬНОГО СИНКРЕТИЗМУ: ЕТАПИ Й ПРИНИЦИПИ УКЛАДАННЯ

У статті розглядаються теоретичні засади, мета, методи й принципи укладання електронної бази
даних випадків формального синкретизму, що була частиною дисертаційного дослідження автора.
З’ясовуються кроки, що передували створенню бази в середовищі MS Access, конкретні приклади запитів,
фінальний вигляд бази даних і перспективи її використання.
Ключові слова: синкретизм, база даних, форма, запит.

Активна увага до проблем автоматизації обробки текстової інформації, яка пов’язана, насамперед, з
поступовим переходом від індустріального до інформаційного типу суспільства, поширенням потужних
електронних носіїв інформації, зумовлює актуальність нашого дослідження. Крім того, необхідно вказати на
дедалі серйозніше зацікавлення дослідників теоретичними і прикладними питаннями, пов’язаними із
функціонуванням мовних одиниць, що мають синкретичну природу, оскільки функціонування останніх
становить собою основну перешкоду формалізації й автоматизації обробки усного чи письмового мовлення.
Метою цієї статті є розкрити теоретичні засади, механізми, принципи, закладені в створену автором за
час навчання в аспірантурі електронну базу даних, яка на значному лексикографічному матеріалі демонструє
синкретичну природу кожної з майже 200 тис. оброблених лексем. Опрацювання такого обсягу даних стало
можливим за умови використання сучасних інформаційних технологій, зокрема, інструменту MS Access.
1. Теоретичні засади роботи
Насамперед, термін синкретизм у наукових дослідженнях використовується як мінімум у двох
значеннях: 1) збіг функціонально різних граматичних категорій і форм в одній формі, наприклад, відмінковий
синкретизм; 2) поєднання (синтез) диференційних структурних і семантичних ознак одиниць мови, що
протиставляються одна одній в системі мови і пов’язані явищами перехідності.
Причиною появи синкретичних явищ є два процеси: а) процес переходу явищ з класу А до класу В, що
супроводжується послабленням, а потім втратою ознаки А й одночасно появою і посиленням ознак В, у
результаті чого клас В поповнюється новими одиницями (типові приклади на ґрунті української мови –
субстантивація, ад’єктивація тощо); б) процес взаємодії, взаємовпливу явищ класів А і В, у результаті чого
з’являється особливий клас С (типові приклади на ґрунті української мови – поява таких форм, як інфінітив,
© Данилюк І.Г., 2008 ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 16

340
дієприкметник, дієприслівник). Очевидно, ці процеси близькі між собою і різниця між ними залежить від того,
визнавати або не визнавати як окремий клас С.
Вивченням перехідності як основної причини появи синкретизму свого часу займалися В.В.Бабайцева,
А.Я.Баудер, Л.В.Борте, Н.А.Каламова, Є.М.Сидоренко, Т.С.Тихомирова та ін. Це явище характеризується
універсальністю, бо функціонує на різних ярусах мовної системи. Виділяються перехідні процеси на фонетико-
фонологічному рівні (нейтралізація), на рівні морфеміки (встановлюються ядерні й синкретичні морфеми,
перехідні утворення, наприклад, -ти в інфінітиві – як суфікс і „застигле закінчення”), у сфері лексики (пор.
можливість градуйованого вираження міри якості для якісних прикметників: дуже молодий – порівняно
молодий – не молодий, не старий – порівняно старий – дуже старий), на морфологічному рівні (тут зона
синкретизму виникає внаслідок взаємодії частин мови: прикметники ↔ іменники, іменники ↔ прислівники
тощо, і лексико-граматичних розрядів: власна ↔ загальна назва іменниках, якісні ↔ відносні прикметники
тощо), на рівні синтаксису (синкретизм виникає у зв’язку із взаємодією простих і складних речень та їхніх
різновидів, членів речення).
Процеси перехідності і взаємодії між одиницями мови в історичній перспективі мали неоднакове
термінологічне позначення: транспозиція (Ш.Баллі), трансляція (Л.Теньєр), деривація (Є.Курилович,
О.С.Кубрякова), трансформація (В.М.Мігірін, М.Ф.Лукін), субституція (М.Ф.Лукін), конверсія, перехід однієї
частини мови в іншу тощо. Найчастіше використовується термін транспозиція (В.В.Шигуров, Ю.С.Степанов,
Л.В.Борте, М.Г.Меркулова, Р.М.Гайсина).
Розгляд синкретизму в широкому розумінні охоплює значний спектр явищ, що демонструють поєднання
різнорівневих мовних ознак і доступні для дослідження в опозиційних парах мовних одиниць. У зв’язку з цим
ми пропонуємо розмежовувати три рівні синкретизму відповідно до усталеної структури мовної системи:
формальний, функціональний і семантичний.
Одиниці першого з цих ярусів, які саме є предметом розгляду у статті, характеризуються спільністю
(збігом) формального вираження. Синкретизм у розумінні загальномовного явища включає лексичну і
граматичну омонімію як видові поняття. Слід уточнити, які саме одиниці виступають омонімічними у випадку
так званого відмінкового синкретизму – збігу у процесі розвитку мови різних відмінкових грамем в одній
формі. Звернемо увагу, що йдеться про омонімію флексії; однак якщо застосувати це тлумачення до проблеми
автоматизованого морфологічного аналізу, то є доведеним факт, що сама по собі флексія ніколи не виступає
достатнім діагностичним контекстом, тобто потрібно розглядати не тільки закінчення слова, а й послідовно
суфікс, корінь і навіть префікс, а також найближчий контекст, щоб з’ясувати, до якої частини мови належить
слово і які конкретні грамеми в ньому виражені. З огляду на це пропонується тлумачити відмінковий
синкретизм саме як омонімію словоформ, а не закінчень. Відповідно, одиницею цього рівня й основним
елементом автоматизованого опрацювання тексту є синкретична форма.
Функціональний та семантичний рівні, які не є предметом розгляду в цій статті й не представлені в базі
даних, детально аналізуються в [3].
Поряд з розмежуванням рівнів синкретизму в аспекті виділення частин мови й граматичних категорій
пропонуємо виокремлювати певні різновиди синкретизму. До них належать, зокрема:
1) внутрішньочастиномовний – об’єднує одиниці однієї частини мови й розподіляється на:
а) внутрішньокатегорійний: випадки, коли формальний, функціональний або семантичний рівні
синкретизму реалізуються в межах однакового набору грамем у словоформах. Наприклад, до цього різновиду
зараховуються вияви функціонально-семантичного синкретизму, що реалізується у вираженні грамем
словозмінних категорій відмінка і числа іменника однією формою: барлогу, барлога (Р.в. одн.), батьку,
батькові (Д.в. одн.);
б) міжкатегорійний: випадки, коли формальний, функціональний або семантичний рівні синкретизму
реалізуються в межах неоднакового набору грамем у словоформах. Зокрема, це вияви формально-семантичного
синкретизму, у яких задіяні категорії відмінка, числа і роду іменника: Кум, а за ним і кума вийдуть з намета,
обнімуться, білі, і — в Десну. А ми — в намет. В наметі за матрацом у кума лежать ковбаси
(М.Вінграновський);
2) міжчастиномовний – об’єднує одиниці різних частин мови й характеризується набуттям або втратою
синкретичними одиницями окремих граматичних категорій: Батько вчителював, а зараз директорує в
середній школі містечка (В.Яворівський); Вчитель і та (в ботах) жінка сіли на двоколку, вона взяла віжки, і
замурзаним коником, завбільшки з горобця, покотили на Забари (М.Вінграновський).
Отже, ми пропонуємо розглядами омонімію (збіг двох різних лексичних або граматичних значень в
одній формі) як різновид синкретичних явищ (дивіться про це детальніше в [5]).
Другим теоретичним аспектом, на який ми спиралися при створенні бази даних, є чотирикомпонента
система частин мови [4]. Подібна модель пропонувалася І.Р.Вихованцем [2], С.К.Шаумяном [8] та ін.
дослідниками. Ми пропонуємо виділяти:
І. Ядро системи частин мови, що охоплює базові семантико-граматичні класи слів, які характеризуються
повним спектром оригінальних частиномовних критеріїв і виразною психолінгвістичною частиномовною
природою. До ядра належать іменник і дієслово. Розділ IХ. Прикладна лінгвістика: напрями й аспекти дослідження

341
ІІ. Периферія, до якої належать класи слів, граматичні категорії яких або транспоновані (прикметник),
або значною мірою нівельовані (прислівник).
ІІІ. Зона субкатегорій, класів, основною ознакою яких є невиразність частиномовних характеристик і/або
входження до інших класів, наявність транспонованих граматичних категорій, невисока кількісна
репрезентативність. До таких належать субкатегорії числівника, семантико-функціональним стрижнем якої є
вказівка на кількість, і займенника, функціональним стрижнем якої є вказівка на особу, предмет або ознаку.
Вказані теоретичні засади (формальний аспект синкретизму мовних одиниць, чотирикомпонентна
система частин мови) зумовили як початкову структуру електронної бази даних (далі ЕБД), так і методи її
наповнення й аналізу.
2. Стратегія, мета й методи обробки ЕБД
Вихідним матеріалом для створення ЕБД був електронний словник серії «АБВ: Словники України». На
його основі побудовано чотири таблиці:
1) «Іменники». Список полів таблиці включає поля: а) «код» (унікальний номер кожної одиниці у всій
базі, тип поля числовий), б) окремі поля для всіх відмінкових і числових словоформ іменника
(причому в кожному полі може бути тільки одна словоформа, а наявність варіантів зумовила
створення окремих полів з іменами «Рв_одн_1», «Рв_одн_2»1 тощо; тип поля – текстовий, усього 35
полів), в) «рід» (текстове поле). До класу іменників включені всі одиниці, які мають подібну
парадигму (окремі займенники й числівники);
2) «Дієслова». Список полів таблиці включає поля: а) «код»; б) «вид» (текстове поле); в) окремі поля
для всіх словоформ на позначення грамем словозмінних категорій дієслова (усього 65 полів);
3) «Прикметники». Список полів таблиці включає поля: а) «код»; б) окремі поля для всіх відмінкових,
числових, родових словоформ прикметника (текстове поле; усього 47 полів). До класу прикметників
включені всі одиниці, які мають подібну парадигму (окремі займенники й числівники,
дієприкметники);
4) «Прислівники». Список полів таблиці включає поля: а) «код»; б) «слово» і «слово2» (текстові поля,
що містять одиницю і її варіант). До класу прислівників включені всі одиниці, які мають подібну
природу (окремі займенники й числівники, дієприслівники).
Наступним кроком було формування стратегії й мети обробки цих таблиць. Завданням було для кожної з
лексем отримати таку інформацію: яким є її статус із погляду 1) внутрішньочастиномовного
внутрішньокатегорійного синкретизму я(кі словоформи в межах лексеми збігаються);
2) внутрішньочастиномовного міжкатегорійного синкретизму (які словоформи однієї лексеми збігаються зі
словоформами іншої лексеми, що належить до тієї ж частини мови); 3) міжчастиномовного синкретизму (які
словоформи лексеми збігаються зі словоформами іншої лексеми, що належить до іншої частини мови). Було
створено додаткові поля2: а) у таблиці «Іменники» – «nton» (для першого завдання), «nto2n» (для другого
завдання), «ntov», «ntopk», «ntops» (для третього); б) в таблиці «Дієслова» – «vtov», «vto2v», «vton», «vtopk»,
«vtops»; в) у таблиці «Прикметники» – «pktopk», «pkto2pk», «pkton», «pktov», «pktops»; г) у таблиці
«Прислівники» – «pstops», «psto2ps», «pston», «pstov», «pstopk». Усі поля мають тип «поле MEMO», тобто
можуть містити текстові ланцюжки значної довжини. Передбачалося, що у відповідне поле для кожної лексеми
буде внесено запис, який визначатиме її синкретичний статус у кожному з аспектів. Для цих записів було
розроблено спеціальну систему символів.
Заповнення полів здійснювалося з використанням запитів, а саме запитів на оновлення. Наприклад,
об’єктом запиту для поля «nton» була таблиця «Іменники» та її копія. Алгоритм виконання пошуку такий:
1) оскільки пошук здійснюється в межах однієї лексеми, зв’язком відповідності були з’єднані поля «код»
(нагадаємо, у цьому полі міститься унікальний для кожної лексеми номер) в обох таблицях;
2) спершу шукалися лексеми, у яких усі словоформи ідентичні, тобто невідмінювані одиниці. Для цього
зв’язком відповідності були з’єднані поля «Нв_одн» у першій таблиці та всі поля у другій;
3) з метою відсіювання вже опрацьованих лексем було створене поле «done». Для неопрацьованих
лексем воно залишалося порожнім;
4) умова запиту мала такий вигляд:
Поле: nton done
Обновление: [іменники]![nton]=»spl1234567″ [іменники]![done]=»d»
Условие отбора: Is Null
Или:

Розшифрування цього конкретного запиту є таким: якщо в межах однієї лексеми збігаються словоформи
називного відмінка однини й усіх інших відмінків, то в поле «nton» записується код «spl1234567» («однина й

1 Кількісно поля представлені так: 1 поле – для Н.в. одн.; 2 поля – для Р.в., З.в., О.в., К.в. одн., Н.в., Д.в., З.в., М.в.,
К.в. мн.; 3 поля – для Р.в., О.в. мн; 4 поля – для Д.в. одн.; 6 полів – для М.в.одн.
2 В іменах цих полів використовувалася змішана символіка: n – іменник, v – дієслово, pk – прикметник, ps –
прислівник, to – вказівка напрямку «від – до». ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 16

342
множина для всіх семи відмінків»). Крім того, здійснюється перевірка, чи не була лексема вже опрацьована –
вибираються тільки ті, у яких поле «done» порожнє; після запиту в нього вноситься позначка «d»
(«оброблено»). У результаті виконання запиту знайдено 224 лексеми.
Далі крок за кроком за допомогою подібних запитів групуються всі лексеми – від випадків
максимального збігу словоформ. У результаті було виділено 101 групу.

Мал. 1. Вигляд вікна конструктора запиту в MS Access

Інакшим є алгоритм заповнення поля «nto2n», яке повинне містити інформацію про збіг словоформ
конкретної лексеми зі словоформами інших іменникових одиниць. Об’єктом запиту для цього поля є таблиця
«Іменники» та її копія. Оскільки пошук омонімічних словоформ повинен здійснюватися в межах різних лексем,
в умові запиту вказано, що значення полів «код» у двох таблицях має бути різним. Далі крок за кроком
здійснювався пошук: зв’язком відповідності послідовно з’єднувалися поля таблиць, починаючи з «Нв_одн» —
«Нв_одн». Умова запиту мала такий вигляд:
Поле: nto2n
Имя таблицы Іменники
Обновление: [іменники]![nton]=[іменники]![nton]+»s1s1I»
Условие отбора:
Или:
Розшифрування цього конкретного запиту є таким: якщо в межах однієї лексеми збігаються словоформи
називного відмінка однини, то до поля «nton» додається (при збереженні його попереднього наповнення) код
«s1s1І» (І у цьому випадку використовується для формального й візуального розмежування сусідніх кодів).
Поле: код
Имя таблицы Іменники
Обновление:
Условие отбора: Not Like [іменники_1]![код]
Или:
Розшифрування цього конкретного запиту є таким: значення полів «код» у двох таблицях має бути
різним, щоб зумовити пошук у різних лексемах. Розділ IХ. Прикладна лінгвістика: напрями й аспекти дослідження

343
Після виконання запиту для всіх полів зі словоформами (від «Нв_одн» до «Кв_мн_2») поле «nto2n» для
кожної лексеми набуває певного вигляду, наприклад:
«абазинець» – «s6s3Is6s6Ipl1s3Ipl1s6Ipl7s3Ipl7s6I»
Розшифрування: у лексемі «абазин» зі словоформами інших іменникових словоформ збігаються
словоформи М.в. одн. із Д.в.одн. (лексеми абазинець – абазинка); М.в. одн. з М.в. одн.; Н.в. мн. з Д.в. одн.; Н.в.
мн. з М.в. одн.; К.в. мн. з М.в. одн.; К.в. мн. з М.в. одн.
У результаті було виділено 1427 груп.
Нарешті, для заповнення полів «ntov», «ntopk», «ntops» були створені окремі запити, об’єктами яких
були таблиці «Іменники» і «Дієслова», «Прикметники» й «Прислівники» відповідно. Алгоритм пошуку
аналогічний до попереднього, за винятком того, що не перевірялося поле «код», оскільки лексеми в таблицях не
повторюються.
3. Перспективи використання ЕБД
Проблема автоматичного опрацювання тексту є достатньо розробленою як у теоретичному, так і
практичному аспекті (у вигляді дослідницьких або комерційних розробок), однак від того не менш актуальною.
Серед інших виділено два взаємопов’язані аспекти такого опрацювання: автоматичний морфологічний аналіз
словоформ та автоматичний морфологічний синтез. Основною метою першого є отримання вичерпної
морфологічної інформації про конкретну словоформу в тексті ї(ї початкову форму (лематизація),
приналежність до граматичного класу й підкласу), основною метою другого – генерація всіх можливих
словоформ для конкретної лексеми зі словника. Описано різні методи та алгоритми таких видів аналізу й
синтезу (див. про це в [6; 7]), створено чимало комерційних та експериментальних систем, які працюють як у
складі систем автоматичного перекладу (Proling Office 5), так і в складі пошукових систем (наприклад, Яndex-
Dict; www.comptek.ru/alta.html).
Створена нами ЕБД може бути використана, насамперед, для оптимізації алгоритмів морфологічного
синтезу на основі словника лексем. Прискорення виконання алгоритму може бути досягнуте за рахунок
урахування інформації про синкретизм окремих словоформ: на кожному кроці алгоритму генеруються не одна,
а відразу кілька омонімічних словоформ. Наприклад, парадигма прикметника абажурний включає 24 (з
урахуванням кличного – 28) словоформ; з них синкретичними є 11, тобто реально потребують генерування
тільки 13 (це майже вдвічі зменшує час, необхідний для створення всієї парадигми). І хоча останнім часом
вагомим аргументом проти використання ускладнених, але оптимізованих алгоритмів автоматичного
опрацювання текстів є значна потужність і великий обсяг пам’яті сучасних комп’ютерів (надзвичайно швидко
виконуються навіть громіздкі й надлишкові алгоритми), однак проблема економії часу й ресурсів залишається
актуальною для мобільних пристроїв, на яких у перспективі можуть використовуватися системи автоматичного
морфологічного синтезу.
Інший аспект використання створеної ЕБД якраз зорієнтований на системи з високою швидкодією та
великим обсягом оперативної пам’яті. Пропонуємо таку узагальнену послідовність автоматичного
морфологічного аналізу (наприклад, для систем автоматичного перекладу, перевірки правильності
розпізнавання мовлення тощо):
1. У пам’яті комп’ютера зберігається словник лексем, який за обсягом може наближатися до тезауруса. У
ньому, крім самої лексеми (початкової форми), зберігається інформація для генерації її парадигми (з
урахуванням синкретизму словоформ);
2. Комп’ютер генерує парадигму для кожної лексеми й зберігає їх в оперативній пам’яті (безумовно, її
обсяг повинен бути досить значним). Саме на цьому етапі економія часу, що досягається за рахунок
використання інформації про синкретизм словоформ, стає суттєвою;
3. У процесі автоматичного морфологічного аналізу тексту комп’ютер порівнює кожне машинне слово з
усіма словоформами, що зберігаються в оперативній пам’яті, й пропонує варіанти його аналізу.
Отже, у такій моделі присутні й аналіз, і синтез, що робить її універсальною для різних прикладних
завдань. Серед переваг такого методу можна виділити простоту пошуку, відсутність необхідності поділу
аналізованого машинного слова на (квазі)основу й (квазі)флексію, процедурний підхід, що робить обсяг
вихідної бази порівняно невеликим.
На основі створеної бази даних готується до друку словник.
Узагальнюючи все сказане, підсумуємо, що створенню електронної бази даних передує визначення мети
її створення, підготовка вихідного матеріалу, наступними етапами є розробка й реалізація методів його
опрацювання, і нарешті, аналіз отриманих результатів. ЕБД випадків формального синкретизму для вельми
репрезентативного пласту української лексики дозволяє виділити великі групи лексем, автоматичне
опрацювання яких (зокрема, автоматичний морфологічний аналіз і синтез) може бути оптимізоване за рахунок
використання «лаконічніших» алгоритмів.

Література
1. Бабайцева В.В. Явления переходности в грамматике русского языка. – М.: Дрофа, 2000. – 640 с.
2. Вихованець І.Р. Частини мови в семантико-граматичному аспекті. – К.: Наук. думка, 1988. – 256 с.
3. Данилюк І.Г. Еволюція поглядів на частиномовний синкретизм // Х международная конференция по
функциональной лингвистике «Функционирование русского и украинского языков в эпоху глобализации»:
Сб. науч. трудов. – Ялта: Доля, 2003. – С. 91-92
4. Данилюк І.Г. Проблема класифікації частин мови: досягнення і перспективи // Функціонально-
комунікативні аспекти граматики і тексту / Науковий вісник Херсонського державного університету:
Лінгвістика: Збірник наукових праць. Випуск І. – Херсон: Видавництво Херсонського держ. ун-ту, 2005. –
С. 70-77.
5. Данилюк І.Г. Типологія рівнів синкретизму і класифікація синкретичних одиниць у частиномовному
аспекті / Лінгвістичні студії: Зб. наук. праць. Випуск 14 / Укл.: Анатолій Загнітко (наук. ред.) та ін. – Донецьк:
ДонНУ, 2006. – С. 58-64.
6. Карпіловська Є.А. Вступ до комп’ютерної лінгвістики. – Донецьк: ТОВ «Юго-Восток, ЛТД», 2003. –
С. 123-133.
7. Марчук Ю.Н. Компьютерная лингвистика. – М.: АСТ: Востк-Запад, 2007. – С. 60-70.
8. Шаумян С.К., Соболева П.А. Основания порождающей грамматики русского языка: Введение в
генотипические структуры. – М., 1968.

Theoretical principles, purpose, methods and principles of building of electronic base of these cases of formal
syncretism are examined in the article, that was a part of author dissertation research. Steps which preceded the
creation of base in MS Access, concrete examples of queries, final type of database and prospect of its use are turned
out.
Keywords: syncretism, database, form, query.
Надійшла до редакції 4 вересня 2007 року.

Категорія: Лінгвістичні студії: Збірник наукових праць.

Літературне місто - Онлайн-бібліотека української літератури. Освітній онлайн-ресурс.