Лінгвістичні студії: Збірник наукових праць.

Наталія Чейлитко — МОДЕЛЮВАННЯ СИНТАКСИЧНОЇ СТРУКТУРИ УКРАЇНСЬКОГО РЕЧЕННЯ В ТЕРМІНАХ ОРІЄНТОВАНОГО ГРАФА

загрузка...

Стаття присвячена проблемі вибору теоретичної моделі, яка стане основою синтаксично маркованого
корпусу української мови. Розглянуто принципи моделювання синтаксичної структури речення в термінах
дерева залежностей; визначено недоліки вказаної моделі та запропоновано шляхи їх подолання.
Ключові слова: корпус, синтаксична структура речення, дерево залежностей, граф.
© Чейлитко Н.Г., 2010 Розділ IХ. ПРИКЛАДНА ЛІНГВІСТИКА: НАПРЯМИ Й АСПЕКТИ ДОСЛІДЖЕННЯ

289

Формування корпусу текстів будь-якої мови має починатися зі з’ясування тих дослідницьких та / або
навчальних завдань, які передбачається розв’язати на матеріалі створеного корпусу. Іншими словами,
призначення корпусу визначає особливості його будови. Із наукового погляду корпус будь-якої мови
необхідний насамперед для виявлення закономірностей функціонування мовних одиниць, що стає можливим
лише у результаті послідовного аналізу великої кількості мовленнєвого матеріалу. Для української мови такого
корпусу текстів досі не створено. Тому актуальними є ті наукові розвідки, які присвячені виробленню засад
укладання корпусу української мови і – головне – їх апробації на українському мовленнєвому матеріалі.
Відповідно, дослідникові потрібно визначити репрезентативну вибірку текстів, які стануть основою
майбутнього корпусу, оскільки цей фактор, а саме достатній обсяг вибірки, пропорційне представлення та
однорідність підвибірок, належна паспортизація текстів тощо, є обов’язковою умовою достовірності наукових
висновків, які будуть отримані в результаті дослідження певного мовного явища на матеріалі сформованого
корпусу.
Поставлені пошукові завдання зумовлюють вибір лінгвістичних моделей, за допомогою яких у корпусі
описуються мовні явища: фонетичні, морфологічні, синтаксичні, семантичні. Очевидно, модель, обрана
науковцем для характеристики елементів тексту, має бути максимально формалізованою, спроможною
пояснити всі можливі, навіть нетипові, мовленнєві прояви мовних одиниць. Тому корпус можна вважати
важливим засобом верифікації різноманітних теорій.
Мета цієї статті полягає у представленні моделі, вибраної для формального опису синтаксичної будови
мовленнєвих одиниць у складі корпусу української мови. Об’єкт дослідження становить синтаксична структура
українського речення, а предмет – її формальний опис. Новою є запропонована методика відображення у
корпусі української мови синтаксичної структури речення як орієнтованого графа.
У вітчизняній лінгвістиці склалася традиція представляти синтаксичну організацію речення за
допомогою орієнтованого дерева залежностей (ДЗ), вузли якого відповідають словоформам речення, а гілки
(ребра) марковані відповідно до типу синтаксичного зв’язку між словоформами. Таким чином, ДЗ відображає
структуру речення як набір бінарних зв’язків підпорядкування між словоформами. Причому словоформою
вважають послідовність буквених символів між двома пробілами (за іншою термінологією – це машинне слово
або текстоформа). Побудова ДЗ відповідає таким умовам:
1. Дерево повинно мати тільки одну вершину (рис. 1).
2. Кожній словоформі у реченні відповідає один вузол у ДЗ.
3. Ребро відповідає зв’язкові між двома словоформами. Напрям ребра – від словоформи, яка
підпорядковує («хазяїн»), до словоформи, яка підпорядковується («слуга»).
4. Усі ребра є орієнтованими, тобто напрям ребер дерева наперед визначений: від вершини до вузлів, які
розташовані в дереві рівнем нижче.
5. В один вузол може входити не більше одного ребра.
6. Дерево має бути зв’язним, тобто у дереві не може бути вузлів, не пов’язаних з іншими вузлами дерева.
7. У дереві не може бути циклів, тобто ребро не може входити у вузол, із якого воно виходить.
8. Вершиною дерева можуть виступати присудки простого двоскладного речення, головний член
односкладного речення, присудок головної частини складнопідрядного речення.
Така інтерпретація синтаксичної структури речення ґрунтується на лінгвістичній моделі «Смисл ↔
Текст» І. О. Мельчука [Мельчук 1974].

загрузка...

Вершина дерева
– вузол, який відповідає умовам
побудови дерева залежностей.
– вузол, який не відповідає
умовам побудови дерева залежностей.
*– ребро.

Рис. 1. Узагальнений вигляд дерева залежностей*
Досвід застосування дерева залежностей для корпусного представлення синтаксичної організації речення
демонструє глибоко анотований корпус російської мови [Апресян 2005], створений на матеріалі сучасної
російської прози, науково-популярних і суспільно-політичних статей та Інтернет-новин інформаційних агенцій
(близько 20 тис. речень). ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 21

290
Нами було організовано експериментальний корпус текстів українських Інтернет-новин (близько 3 тис.
речень), синтаксично розмічений у термінах дерева залежностей. На основі цього корпусу вдалося встановити
закономірності реалізації синтаксичних зв’язків словоформ в українському реченні [Чейлитко 2007; Чейлитко
2007; Чейлитко, Галкін 2008; Чейлитко 2009; Чейлитко 2009]. Набутий досвід засвідчив доцільність
репрезентації синтаксичної будови українського речення в термінах дерев залежностей і водночас указав на
певні недоліки такого представлення.
1. Вузлом у дереві позначається словоформа як машинне слово (послідовність буквених символів від
пробілу до пробілу), через що складові частини аналітичної лексеми розглядаються окремо
(ІринаМарківнаПопова). Щоб показати належність усіх складників до однієї лексеми, необхідно спеціально
маркувати ребра між вузлами, які відповідають цим частинам.
2. У дереві залежностей неможливо відобразити зв’язок між словоформою та словосполученням (єдиний
(зважений коментар)).
3. Вимога зв’язності дерева, тобто відсутності вузлів, в які не входило б жодного ребра, змушує
дослідника ігнорувати випадок, коли у реченні наявний еліпсис і, отже, має місце розрив синтаксичних зв’язків
(Єдиний зважений та об’єктивний коментар – [еліпсис] Ірини Марківни Попової). Для того, щоб уникнути
такого розриву, доводиться штучно запроваджувати нульовий вузол, який позначає невиражену словоформу, і
тим забезпечити зв’язність усіх вузлів дерева (рис. 2 А).
4. Позначення у дереві лише підрядного зв’язку між словоформою-хазяїном і словоформою-слугою за
допомогою орієнтованих вертикальних ребер не дає можливості адекватно показати сурядний –
горизонтальний – зв’язок між рівноправними, незалежними одна від одної словоформами (зважений–та–
об’єктивний коментар). Для відображення сурядного зв’язку між словоформами використовують спеціально
запроваджений уявний вузол: сурядні словоформи підпорядковуються у дереві уявному вузлові (на рис. 2 А від
уявного вузла залежать сурядні словоформи зважений, об’єктивний і сполучник сурядності та).
Єдиний
зважений
та
об‘єктивний
коментар

Ірини
Марківни
Попової.
А
Єдиний
зважений
та
об‘єктивний
коментар

Ірини Марківни Попової.
*
Нормальний вузол.
Зв‘язок з нульовим вузлом; Нульовий вузол;
Зв‘язок з уявним вузлом; Уявний вузол;
Б
Зв‘язок з нормальним вузлом;
Рис. 2. Дерево залежностей для речення з аналітичною лексемою, сурядністю та еліпсисом*. Структуру
речення представлено:
А – із залученням додаткових вузлів, Б – без залучення додаткових вузлів

5. Правило, за яким в один вузол входить два і більше ребер, унеможливлює відображення зв’язків із
дуплексивом – елементом речення, який підпорядковується двом членам речення (рис. 3: Серцем майдану
залишається сцена).
Серцем
майдану
залишається
сцена.
Серцем
майдану
залишається
сцена.
А Б

Рис. 3. Дерево залежностей для речення з дуплексивом. Подвійний зв’язок:
А – не відображено, Б – відображено

Окрім цього, така ситуація позбавляє можливості показати зв’язки двох і більше сурядних словоформ з
їхньою спільною залежною словоформою: виваженість і толерантність людей – словоформа людей одночасно
підпорядковується двом сурядним словоформам виваженість, толерантність; відповідно, у вузол, який
відповідає цій словоформі, мало б входити одразу два ребра (рис. 4). За спеціальною домовленістю спільний
залежний компонент може підпорядковуватися у дереві уявному вузлові, який, окрім того, підпорядковує собі
сурядні вузли (на рис. 4 А від уявного вузла залежить словоформа людей, а на рис. 5 А – словоформа учасники). Розділ IХ. ПРИКЛАДНА ЛІНГВІСТИКА: НАПРЯМИ Й АСПЕКТИ ДОСЛІДЖЕННЯ

291
Виваженість
і
толерантність
українських
людей
зроблять
свою
справу.
Виваженість
і
толерантність
українських
людей
зроблять
свою
справу.
А Б

Рис. 4. Представлення зв’язку між сурядними словоформами та їхньою спільною залежною
словоформою за допомогою уявного вузла (А) та без нього (Б)

6. Правило, за яким у дереві не може бути більше однієї вершини, спричиняє ситуацію, коли стає
неможливим, без запровадження штучного уявного вузла, показати сурядність двох присудків: учасники
відходять–і–скандують (рис. 5).
Таким чином, моделювання синтаксичної організації речення із застосуванням дерева залежностей
наражається на традиційні проблеми синтаксису, що ускладнює адекватне представлення цих синтаксичних
ситуацій.
Учасники
акції
відходять
і
скандують:
„Ганьба!‖.
А
Учасники
акції
відходять
і
скандують:
„Ганьба!‖.
Б

Рис. 5. Відображення сурядності присудків за допомогою уявного вузла (А)
та без нього (Б)

Уведення до дерева службових вузлів (нульового та уявного), і, відповідно, вироблення додаткових
правил (домовленостей) щодо побудови дерева, ускладнює як саму методику, так і структуру дерев, створених
на основі цієї методики. Так, зокрема, запровадження уявного та нульового вузлів може спричинити
збільшення рівнів у дереві: на рис. 2 А – висота дерева становить 4 рівні, а на рис. 2 Б – всього 2 рівні.
Зважаючи на те, що висота є однією із найважливіших характеристик дерева, на яку спираються у процесі
стилістичної діагностики текстів [Севбо 1981], штучне зростання цього параметра є украй небажаним.
– вузол, який відповідає умовам
побудови дерева залежностей.
– вузол, який не відповідає
умовам побудови дерева залежностей.
*– ребро.
Вершини графа

Рис. 6. Узагальнений вигляд графа для відображення синтаксичної структури речення*
На нашу думку, моделювання синтаксичної структури речення необхідно здійснювати за допомогою
більш загальної моделі – графа, по відношенню до якого орієнтоване дерево залежностей є його підвидом – рис.
6). Це дасть можливість:
— позначати горизонтальними ребрами сурядний зв’язок між словоформами;
— показувати подвійний синтаксичний зв’язок (дуплексив), запровадивши дозвіл на входження двох
ребер в один вузол;
— визначати дві або більше вершини графа, які вказуватимуть на наявність сурядних присудків у реченні. ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 21

292
Репрезентація структури речення у вигляді графа більшою мірою відповідає природі реального речення.
Окрім того, таке представлення значно спростить процедуру побудови графічної моделі речення, зробить її
більш відкритою до автоматичного обчислення її якісних та кількісних параметрів.

Література
Апресян 2004 : Апресян, Ю. Д. Синтаксически и семантически аннотированный корпус русского языка:
современное состояние и перспективы [Текст] / Ю. Д. Апресян, И. М. Богуславский, Б. Л. Иомдин и др. //
Национальный корпус русского языка: 2003–2005. – М. : Индрик, 2005. – С. 193-214. – Библиогр.: с. 213–214.
Мельчук 1974 : Мельчук, И. А. Опыт теории лингвистических моделей «Смысл-Текст» [Текст] /
И. А. Мельчук. – М. : Школа «Языки русской культуры», 1999. – 346 с. – (Язык, семиотика, культура). –
ISBN 5-7859-0078-5.
Севбо 1981 : Севбо, И. П. Графическое представление синтаксических структур и стилистическая
диагностика [Текст] / И. П. Севбо. – К. : Наукова думка, 1981. – 192 с.
Чейлитко 2007 : Чейлитко, Н. Антиномія лінійної та структурної організації речення : проблема
формального опису [Текст] / Н. Чейлитко // Актуальні проблеми української лінгвістики : теорія і практика. –
К. : ВПЦ «Київський університет», 2007. – Вип. 14. – С. 50–53. – Бібліогр.: с. 53.
Чейлитко 2007 : Чейлитко, Н. Зона синтаксичних зв’язків словоформи як конструктивна одиниця речення
[Текст] / Н. Чейлитко // Українське мовознавство : [міжвідомч. наук. зб.]. – К. : ВПЦ «Київський університет»,
2007. – Вип. 37. – С. 71–75. – Бібліогр.: с. 75.
Чейлитко, Галкін 2008 : Чейлитко, Н. Г., Галкін, А. В. Структурно-синтаксичне дослідження на основі
методу аналізу зон зв’язків словоформ [Текст] / Н. Г. Чейлитко, А. В. Галкін // Науковий вісник Волинського
національного університету імені Лесі Українки. – 2008. – № 2. – С. 229–235. – Бібліогр.: с. 235.
Чейлитко 2009 : Чейлитко Н. Г. Відображення синтаксичної та лексичної цілісності речення через зони
зв’язків словоформ [Текст] : автореф. дис. на здобуття наук. ступеня канд. філол. наук : спец. 10.02.01
«Українська мова» / Київський національний ун-т імені Тараса Шевченка. – К., 2009. – 20 с.
Чейлитко 2009 : Чейлитко, Н. Корпусне дослідження зон зв’язків словоформ в українському реченні
[Текст] / Н. Чейлитко // Лінгвістичні студії : [зб. наук. праць]. – Донецьк, Вид-во ДонНУ, 2009. – Вип. 18. –
С. 268–275. – Бібліогр.: с. 275.

Статья посвящена проблеме выбора теоретической модели, которая станет основой синтаксически
маркированного корпуса украинского языка. Рассмотрены принципы моделирования синтаксической
структуры предложения в терминах дерева зависимостей; определены недостатки указанной модели и
предложены пути их преодоления.
Ключевые слова: корпус, синтаксическая структура предложения, дерево зависимостей, граф.

The article is devoted to the problem of selecting a theoretical model for syntactically annotated corpora of the
Ukrainian language. Principles of modeling syntactical sentence structure in terms of dependency tree are showed.
The imperfections of the model are identified and ways to overcome them are proposed.
Keywords: corpora, syntactic structure of sentences, dependency tree, graph.

Надійшла до редакції 29 січня 2010 року.

загрузка...

Літературне місто - Онлайн-бібліотека української літератури. Освітній онлайн-ресурс.