Лінгвістичні студії: Збірник наукових праць.

Ілля Данилюк – ВИКОРИСТАННЯ БУКВЕНОЇ МАСКИ ДЛЯ ЧАСТИНОМОВНОЇ ІДЕНТИФІКАЦІЇ СЛОВОФОРМ

У статті описано метод автоматичного визначення частиномовної приналежності довільної
словоформи на основі її буквеної маски, що може бути частиною системи автоматичного аналізу тексту або
інструментом автоматичного розмічування корпусу текстів. Пропонований підхід спирається на припущення,
що комбінація літер на позначення голосних і приголосних звуків може однозначно або з певним відсотком
ймовірності вказувати на граматичний клас словоформи.
Ключові слова: автоматичний морфологічний аналіз, словоформа, частина мови, буквена маска.

У процесі тривалого розвитку ІТ-сфери виокремилася специфічна галузі лінгвістичних інформаційних
технологій, що включає автоматичний синтез та аналіз природного мовлення, у тому числі текстів. У вже
усталеній схемі систем автоматизованого аналізу тексту [Карпіловська 2008: 127] вихідним є модуль
автоматичного морфологічного аналізу, призначення якого – визначити для кожного слова його граматичний
клас і підклас, іншими словами, частиномовну приналежність й основні граматичні категорії, що стане
підґрунтям аналізу подальших рівнів: синтаксичного, семантичного і т.д.
Поступово сформувалися кілька підходів, або методів виконання АМА, серед них: 1) словникові методи:
а) аналіз із словником основ і закінчень; б) аналіз зі словником словоформ; 2) безсловникові методи: а) аналіз
методом логічного множення; б) графемний аналіз, або аналіз з використанням таблиць квазіфлексій [Дарчук
2008: 30; Марчук 2000: 45]. Кожен з них має свої переваги та недоліки, сферу застосування й придатність для
використання з мовами різного типу, що не є предметом розгляду у цій статті. Натомість ми ставимо собі за
мету продемонструвати розробку окремого прийому в межах графемного методу АМА, що спиратиметься на
максимально формалізовані дані – буквену маску слова з одиниць тільки двох типів: літер на позначення
приголосних і літер на позначення голосних фонем. Також прагнутимемо реалізувати конкретні завдання:
1) описати попередні засади прийому АМА з використанням буквеної маски; 2) підготувати базу даних
словоформ української мови; 3) на основі побудованої бази створити таблицю буквених масок для виконання
одного із завдань АМА – визначення частини мови, до якої належить аналізована словоформа.
Наша робота спирається на припущення, що для частиномовної ідентифікації довільних словоформ в
аналізованому тексті з достатнім рівнем вірогідності (правильність має складати не менше 95%, що є
прийнятними для систем АМА іншими методами) можна використовувати їхню бінарну буквену маску. У цій
масці усі літери на позначення приголосних фонем будуть замінені знаком Х, а літери на позначення
голосних – знаком Y. Наприклад, словоформа «голосних» матиме маску XYXYXXYX.
До укладання списку квазіфлексій або, у нашому випадку, буквених масок існують два підходи: ручне
укладання з елементами автоматизації й повністю автоматичне з використанням процедури «навчання» на
корпусі текстів [Jurafsky 2009]. Ми обрали перший підхід, оскільки маємо в розпорядженні базу даних
українських лексем зі зразками відмінювання1 і не маємо розміченого корпусу українських текстів достатнього
обсягу. База даних існує у форматі MS Access, який і став інструментом дослідження.
Нарешті, для сучасних систем АМА досяжним є рівень, коли правильно визначається граматичний клас
чи підклас для 95% словоформ [Пак 2011]. Саме від цього відсоткового показника ми будемо відштовхуватися,
накладаючи обмеження чи обираючи допущення для різних аспектів роботи.
Першим кроком став аналіз лексичного складу БД (Таблиця 1), метою якого було з‟ясувати, одиниці яких
класів слід включити до подальшої побудови буквених масок, оскільки наперед легко передбачити, що,
наприклад, сполучники, прийменники чи частки, які у словнику кількісно поступаються іменникам і дієсловам,
не доцільно розпізнавати за буквеною маскою, а простіше задати в системі АМА списком.
Таблиця 1. Кількісний лексичний склад БД з погляду класу слова
Кількість
лексем
Номер
класу слова
Відсоток від
загальної
кількості
Клас слова
1 40 0,001%
%100,0 11 2

1
БД створена автором у 2005 році під час роботи над кандидатською дисертацією на основі відкритого на той час проекту
«Словники України» УМІФ НАН України.
© Данилюк І.Г., 2012 ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 25

206
2 12 0,001%
%410,0 73 1 2
яроп( кинвілсич %12 0,0 01 1 3 дковий)
54 4 0,036% займенник (іменникового типу)
78 9 0,052% числівник (кількісний)
85 5 0,056% займенник (прикметникового типу)
85 34 0,056%
%850,0 33 8 8
%770,0 63 6 11
%770,0 53 7 11
сирпєід %22 1,0 14 4 81 лівник
222 14 0,147%
%371,0 93 1 62
%832,0 23 9 53
д оволсєід %82 4,0 31 7 46 вовидове
1855 2 1,228%
%165,1 51 7 532
лсирп %01 9,3 13 5 095 івник
8504 7 5,631% дієприкметник
14935 6 9,890% дієслово недоконаного виду
18343 8 12,147% дієслово доконаного виду
31776 3 21,042% прикметник
64985 1 43,033% іменник
151013

Останні шість груп разом складають майже 96%, тому надалі предметом аналізу будуть такі класи слів:
іменник, прикметник, дієслово, дієприкметник, прислівник. З огляду на важливість займенника, числівника й
дієприслівника до переліку були включені відповідні класи.
Другим, але паралельним кроком була перевірка припущення, що доцільно аналізувати тільки
словоформи певної довжини, оскільки діагностична сила буквеної маски зростає зі збільшенням кількості літер
у слові. Результати представлено у Таблиці 2.
Таблиця 2. Кількісний лексичний склад БД з погляду довжини слова
Кількість
Довжина у
літерах
Відсоток від
загальної кількості
15 1 0,01%
126 2 0,08%
931 3 0,62%
2633 4 1,74%
6173 5 4,09%
9512 6 6,30%
13813 7 9,15%
18743 8 12,41%
20467 9 13,55%
20135 10 13,33%
17476 11 11,57%
13621 12 9,02%
9936 13 6,58% Розділ Х. ПРИКЛАДНА ЛІНГВІСТИКА: НАПРЯМИ Й АСПЕКТИ ДОСЛІДЖЕННЯ

207
6554 14 4,34%
4238 15 2,81%
2497 16 1,65%
1496 17 0,99%
916 18 0,61%
590 19 0,39%
381 20 0,25%
242 21 0,16%
181 22 0,12%
120 23 0,08%
76 24 0,05%
62 25 0,04%
36 26 0,02%
20 27 0,01%
9 28 0,01%
7 29 0,00%
6 30 0,00%
1 33 0,00%
151013

На підставі даних таблиці ми з‟ясували, що предметом подальшого аналізу мають стати слова, що
складаються з 3 і більше, але більше 15 літер, які разом складають понад 95%.
Нарешті, добір матеріалу завершився створенням додаткової БД словоформ, яка включає усі словоформи
для лексем класів іменник, прикметник, дієслово, дієприкметник, прислівник, числівник, займенник, довжина
яких складає від 3 до 15 літер включно. Кількісно це майже 2,5 млн. словоформ, дані щодо розподілу за
класами представлено у Таблиці 3.

Таблиця 3. Кількісний склад БД словоформ з погляду класу слова
К-сть Клас слова
683026 дієслово
743710 іменника
222134 дієприкметник
49388 дієприслівник
1608 займенник
782993 прикметник
4325 прислівник
837 числівник
2488021

Останнім кроком, що передував власне аналізу гіпотези про діагностичні можливості буквеної маски
слова, була побудова цих масок для усіх словоформ. З усіх варіантів побудови бінарної маски ми зупинилися на
напівфонематичному: літери а, о, у, е, і, и, я, ю, є, ї були закодовані Y, решта – X, апостроф – X, м‟який знак у
масці не представлено. Разом з тим, можемо припустити, що діагностична точність зросте, якщо апостроф і ь
враховувати як окремі символи, однак така маска перестане бути бінарною і не відповідатиме гіпотезі, яку ми
намагаємося перевірити.
Безпосередні результати дослідження випливають з аналізу сформованої БД словоформ, кожна з яких
отримала певну маску. Було встановлено, що 2,5 млн. словоформ вказаних вище класів мають 21829 різних
масок, причому 2411 масок охоплюють понад 95% словоформ. Кількісно це маски, кожна з яких зустрічається у
більш ніж 30 словоформ. Обсяг аналізованих даних, отже скоротився до 2411 одиниць і сформував окрему БД.
Її фрагмент, що демонструє найбільш частотні маски, представлено у Таблиці 4.
ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 25

208
Таблиця 4. Фрагмент БД масок словоформ
К-сть Маска Клас слова
13601 XYXYXXYXY Іменник
13742 XYXYXXYXY Прикметник
14246 XYXYXXYX Прикметник
14560 XYXYXYXY Дієслово
15014 XYXYXYX Іменник
15095 XYXYXYXYXY Дієслово
15340 XYXYXYXXY Іменник
18302 XYXYXYXY Іменник
18330 XYXYXXY Іменник
19992 XYXXYXY Іменник
21155 XYXYXY Іменник

Наприклад, бачимо, що найбільш частотною є маска XYXYXY, яка дозволяє ідентифікувати 21155
іменникових словоформ.
Для спростування чи підтвердження нашої робочої гіпотези про діагностичні можливості буквеної маски
ми побудували зведену таблицю, у якій для кожної маски вказано, словоформи якого класу можуть бути
представлені нею, фрагменти цієї таблиці у кількісному й відносному відсотковому представленні наведені у
Таблиці 5.
Таблиця 5. Фрагмент зведеної таблиці БД
а) кількісне представлення
Маска Дієсл. Імен. Дієприкм. Дієприсл. Займ. Прикм. Присл. Числ.
XXXY 60
XXXYX 266 147
XXXYXXXY 32 54
XXXYXXXYX 38 97
XXXYXXXYXY 43 76
XXXYXXXYXYX 31
XXXYXXY 654 469 42 65 282
XXXYXXYX 765 290 76 495
XXXYXXYXX 41 36
XXXYXXYXXY 274 324 118 108
XXXYXXYXXYX 34 84 189

б) відносне відсоткове представлення
Маска Дієсл. Імен. Дієприкм. Дієприсл. Займ. Прикм. Присл. Числ.
XXXY 100%
XXXYX 64% 36%
XXXYXXXY 37% 63%
XXXYXXXYX 28% 72%
XXXYXXXYXY 36% 64%
XXXYXXXYXYX 100%
XXXYXXY 43% 31% 3% 4% 19%
XXXYXXYX 47% 18% 5% 30%
XXXYXXYXX 53% 47%
XXXYXXYXXY 33% 39% 14% 13%
XXXYXXYXXYX 11% 27% 62%

Поверхово дані зведеної таблиці можна читати, наприклад, так: маска XXXY однозначно вказує, що
аналізована словоформа належить до класу дієслова; маска XXXYX – з імовірністю 64% вказує на дієслівний
клас словоформи і з імовірністю 36% – на іменниковий; маска XXXYXXYXXYX – з імовірністю 62% вказує на
прикметниковий клас словоформи, 27% – іменниковий, 11% – дієслівний і т.д.
Остаточні підсумки дослідження демонструє Таблиця 6, у якій знайдені маски представлено у
згрупованому кількісному вигляді на підставі того, які класи слів вони дозволяють ідентифікувати.

Розділ Х. ПРИКЛАДНА ЛІНГВІСТИКА: НАПРЯМИ Й АСПЕКТИ ДОСЛІДЖЕННЯ

209
Таблиця 6. Результати аналізу комбінацій
К-сть масок Клас слова
1 числ.
263 дієсл.
27 дієприкм.
173 імен.
725 прикм.
27 дієсл., дієприкм.
132 дієсл., імен.
25 дієсл., прикм.
20 дієсл., дієприсл.
10 дієприкм., прикм.
10 імен., дієприкм.
306 імен., прикм.
1 імен., дієприсл.
24 дієсл., дієприкм., прикм.
1 дієсл., дієприкм., дієприсл.
15 дієсл., імен., дієприкм.
141 дієсл., імен., прикм.
13 дієсл., імен., дієприсл.
1 дієсл., імен., займ.
3 дієсл., дієприсл., прикм.
33 імен., дієприкм., прикм.
13 імен., дієприсл., прикм.
279 дієсл., імен., дієприкм., прикм
1 дієсл., імен., дієприкм., дієприсл.
95 дієсл., імен., дієприсл., прикм.
1 дієсл., імен., займ., прикм.
1 дієсл., імен., дієприкм., прикм., числ.
1 дієсл., імен., дієприкм., прикм., присл.
35 дієсл., імен., дієприкм., дієприсл., прикм.
3 дієсл., імен., дієприкм., займ., прикм.
8 дієсл., імен., дієприсл., прикм., присл.
2 дієсл., імен., займ., прикм., присл.
15 дієсл., імен., дієприкм., дієприсл., прикм., присл.
4 дієсл., імен., дієприкм., займ., прикм., присл.
3 дієсл., імен., дієприкм., дієприсл., займ., прикм., присл.

Отже, можемо зробити низку висновків:
1) буквена маска словоформи загалом може діагностувати або частиномовну приналежність
словоформи. Наприклад, дані Таблиці 6 свідчать, що 1189 масок (а це 49% від загальної кількості) дозволяють
однозначно встановити клас словоформи. Загальний перелік масок із вказівкою класу слова, який вона
охоплює, що є основним результатом дослідження, можна завантажити зі сторінки
https://sites.google.com/site/plдієсл., onnukn1/home;
2) приблизно половина масок є омонімічними, тобто дозволяють встановити клас слова з певною
ймовірністю.
У перспективі запропонований прийом можна уточнити інструментом зняття омонімії результатів
автоматичного аналізу за допомогою переведення буквеної маски з бінарного вигляду у вигляд із розкритою
однією літерою, і така маска вже однозначно вказуватиме на один і тільки один клас. ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 25

210

Література
Дарчук 2008: Дарчук, Н.П. Комп‟ютерна лінгвістика : Автоматичне опрацювання тексту [Текст] /
Н. П. Дарчук. – К. : Видавничо-поліграфічний центр «Київський університет», 2008. – 351 с.
Карпіловська 2006: Карпіловська, Є.А. Вступ до прикладної лінгвістики : комп‟ютерна лінгвістика.
Підручник [Текст] / Є. А. Карпіловська. – Донецьк : ТОВ «Юго-Восток, Лтд», 2006. – 188 с.
Марчук 2000: Марчук, Ю.Н. Основы компьютерной лингвистики [Текст] / Ю. Н. Марчук. – М. :
Народный учитель, 2000. – 320 с.
Пак 2011: Пак, Александр. Определение части речи слов в русском тексте (POS-tagging) на Python 3
[Електронний ресурс]. – Режим доступу : http://habrahabr.ru/blogs/python/125988/ (10.08.2011). – Назва з екрана.
Jurafsky 2009: Jurafsky, D., Martin, J. H. Speech and Language Processing : An Introduction to Natural
Language Processing, Computational Linguistics, and Speech Recognition [Text]. – Prentice Hall, 2009. – 988 pр.

В статье описан метод автоматического определения частиречной принадлежности произвольной
словоформы на основе ее буквенной маски, которая может быть частью системы автоматического анализа
текста или инструментом автоматической разметки корпуса текстов. Предлагаемый подход опирается на
предположение, что комбинация букв для обозначения гласных и согласных звуков может однозначно или с
определенным процентом вероятности указывать на грамматический класс словоформы.
Ключевые слова: автоматический морфологический анализ, словоформа, часть речи, буквенная маска.

The paper describes a method of automatically part-of-speech determining for word-forms based on its
character mask that can be part of the automatic text processing tool or automatic laying out a of text corpora. The
proposed approach is based on the assumption that a combination of letters to indicate vowels and consonant sounds
can indicate the grammatical class of word-forms uniquely or with a certain percentage of probability.
Keywords: automatic morphological processing, word-forms, part of speech, character mask.
Надійшла до редакції 16 листопада 2011 року.

Літературне місто - Онлайн-бібліотека української літератури. Освітній онлайн-ресурс.