Лінгвістичні студії: Збірник наукових праць.

Наталія Чейлитко – КОРПУСНЕ ДОСЛІДЖЕННЯ ЗОН ЗВ’ЯЗКІВ СЛОВОФОРМ В УКРАЇНСЬКОМУ РЕЧЕННІ

У статті висвітлюється методика аналізу синтаксичної структури речення на основі методу дерева
залежностей та аналізу зон зв’язків словоформ. Наводяться результати статистичного дослідження
реалізації зон зв’язків словоформ в українських публіцистичних текстах.
Ключові слова: синтаксична структура, дерево залежностей, синтаксичний зв’язок, зона синтаксичних
зв’язків словоформи, блок спаяності елементів речення.

© Чейлитко Н.Г, 2009 Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

269
«Необхідність розбудови корпусної лінгвістики – ознака нашого часу, завдяки їй спеціалісти одержать
усю необхідну лінгвістичну інформацію для подальшого її опрацювання у філологічних студіях» [Дарчук,
Сорокін 2006, с. 34]. Однією з проблем, яка постала перед сучасними україністами, є вироблення принципів
синтаксичного дослідження великих масивів текстів. Актуальність статті полягає в тому, що вона дає відповідь
на питання про можливий шлях організації корпусного дослідження зі структурного синтаксису. Будь-яке
ґрунтовне дослідження, яке передбачає аналіз великого за обсягом мовленнєвого матеріалу, потребує
ретельного планування, що спирається на проведенні серії тестових (експериментальних) розвідок, які
здійснюються на невеликих за обсягом вибірках. Тоді постає завдання виробити послідовну й несуперечливу
методику його проведення.
Метою цієї статті є опис запропонованої методики аналізу синтаксичної структури речення, яка
спирається на методологічний апарат граматики залежностей [Севбо 1981] та теорії зон синтаксичних зв’язків
[Закономерности 1982; Перебейнос 2002; Перебейнос 1985; Пещак 1979], а також висвітлення одержаних
результатів дослідження, проведеного на основі синтаксично маркованого корпусу текстів.
Матеріалом для проведення тестової розвідки стала сукупність текстів політичних Інтернет-новин
UNIAN за 11-12.2004. Обсяг вибірки становить близько 42 тис. слововживань (3217 речень). Кожній
словоформі присвоєна морфологічна інформація, отримана в результаті роботи автоматичного морфологічного
аналізатора: 1) код, який відображає частиномовну приналежність та парадигматичні характеристики
словоформи, 2) лему – словникову форму. Синтаксична структура речення репрезентується у вигляді
розміченого дерева залежностей (ДЗ) – орієнтованого графа, який складається з: 1) вузлів на позначення
мінімальних синтаксичних одиниць речення; 2) орієнтованих ребер (стрілок), які відповідають синтаксичним
зв’язкам між цими одиницями і завжди спрямовані від головної одиниці синтагми до підпорядкованої (рис. 1).

Рис. 1. Дерево залежностей речення

Таким чином, ДЗ представляє структуру речення як набір бінарних зв’язків підпорядкування між
елементами речення. Елементом речення (ЕР) називаємо послідовність буквених символів між двома
пробілами. Основними властивостями ДЗ є:
1. Дерево має тільки одну вершину.
2. Вершиною дерева може виступати присудок простого двоскладного речення, головний член
односкладного речення, присудок головної частини складнопідрядного речення. У випадку однорідних
присудків, коренем є уявний вузол, якому вони підпорядковуються.
3. Кожному елементу речення (ЕР) відповідає один вузол у ДЗ.
4. Одній словоформі може відповідати кілька вузлів у дереві в тому випадку, якщо вона є аналітичною і,
отже, складається з кількох ЕР (Олександр Мороз, незважаючи на).
5. Ребро відповідає зв’язкові між двома елементами речення. Напрям підпорядкування – від ЕР, який
підпорядковує (хазяїн), до ЕР, який підпорядковується (слуга).
6. Усі ребра є орієнтованими, тобто напрям ребер дерева наперед визначений: від вершини до вузлів, які
розташовані на рівень нижче.
7. В один вузол може входити не більше одного ребра.
8. Дерево має бути зв’язним.
9. У дереві не може бути циклів.
10. Експліцитно невираженому ЕР (явище еліпсису) відповідає у дереві спеціально запроваджений
нульовий вузол.
11. ЕР, які вступають у сурядний зв’язок, підпорядковуються уявному вузлові, який спеціально введено
для адекватного відображення зв’язку між сурядними ЕР.
Ребрам присвоюються спеціальні маркери, які вказують на характер зв’язку між ЕР (табл. 1).

Таблиця 1. Маркери на позначення типу зв’язку між ЕР
Група маркерів Маркери
Зв’язки в межах сегмента: простого речення,
відокремленого звороту, частини складного речення
тощо
координація
узгодження
прилягання
керування
апозитивний зв’язок (прикладковий) ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 18

270
Зв’язки в ускладненому реченні
(проводяться до опорного компонента сегмента)
відокремлена прикладка
уточнювальний член речення
вставні слова
дієприкметниковий зворот
дієприслівниковий зворот
порівняльний зворот
звертання
сурядний зв’язок між словоформами
Зв’язки між компонентами синтаксично неподільної
сполуки
призв’язковий компонент
соціативна сполука
елективна сполука
кількісна сполука
прийменниковий зв’язок (вхід)
прийменниковий зв’язок (вихід)
сполука з парними прийменниками
Зв’язки в складному реченні
(проводяться до опорного компонента частини
складного речення)
підрядний зв’язок між реченнями
релятивний зв’язок
пояснювальне речення
сурядний зв’язок між реченнями
безсполучниковий зв’язок
пряма мова
вставне речення
Міжфразовий зв’язок міжфразовий зв’язок
Зв’язки з неповнозначними словами вигук
фразова частка
підрядно-сполучниковий зв’язок
сурядно-сполучниковий зв’язок
Зв’язки між компонентами аналітичної
словоформи/лексеми
аналітична дієслівна форма
складений прийменник
складений сполучник сурядності
складений сполучник підрядності
складений числівник
складений вигук
лексичне зрощення
фразеологізм

Синтаксична інформація приписується в автоматизованому режимі. Для цього розроблено спеціальне
програмне забезпечення, яке є АРМ лінгвіста і призначене не лише для побудови ДЗ, але й для подальшого
аналітичного опрацювання, що уможливило різноманітні структурно-синтаксичні розвідки (рис. 2). Функціонал
програми передбачає автоматичне обчислення: 1) статистичної інформації щодо кожного з морфологічних
кодів та синтаксичних маркерів, які містяться в певній конкретній базі, укладеній на основі сукупності текстів
певної підмови; 2) параметрів аналізу ДЗ, запропонованих І.П. Севбо для різноманітних стилістичних
синтаксичних досліджень, зокрема: кількості вузлів у дереві, ширини гілкування від вершини дерева, висоти
дерева [Севбо 1981]; 3) синтаксичної інформації про характер синтаксичних зв’язків кожної словоформи з
вибірки. Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

271

Рис. 2. Інтерфейс програми автоматизованої побудови дерев залежностей

Наголосимо, що інформація про моделі реалізованих зв’язків словоформ є джерелом для укладання
словника сполучуваності словоформ, необхідного зокрема для адекватної роботи автоматичного синтаксичного
аналізатора, створення якого є одним з пріоритетних завдань сучасної української комп’ютерної лінгвістики.
Одним із способів вивчення реалізованої в мовленні сполучуваності слів є метод зон зв’язків словоформ
(ЗЗС), запроваджений В.І. Перебийніс. Під зоною зв’язків розуміють сукупність зв’язків певної словоформи в
реченні, сферу її синтаксичної дії. Своєрідність зони зв’язків визначається як мовними, так і мовленнєвими
синтаксичними процесами, задіяними в побудові речення як одиниці мовлення. Тому актуальним є вивчення
зон зв’язків словоформ у реальному реченні та виявлення основних факторів, які зумовлюють їхню специфіку.
ЗЗС представляється графічно – у вигляді відрізка, який поєднує проекції усіх ЕР, пов’язаних з даним ЕР.
Одержавши набір відрізків, які відображають усі зони зв’язків у реченні, можна обчислити силу спаяності
елементів речення. Під силою спаяності елементів речення розуміємо кількість зон, які припадають на інтервал
між двома сусідніми елементами речення (рис. 3). Для кожного конкретного речення можна визначити
найбільший, найменший та проміжні показники сили спаяності ЕР. Найбільший показник сили спаяності
називають піком найбільшої спаяності (зв’язності) в реченні.
Кілька послідовно розташованих показників з однаковим найбільшим значенням називають плато
спаяності. У реальному реченні може бути кілька піків та плато спаяності. Елементи речення, між якими сила
зв’язку максимальна, утворюють блок спаяності.
Нами було автоматизовано процедуру виявлення ЗЗС на основі розміченого дерева залежностей, що
запобігло неоднозначностям, які виникають під час визначення ЗЗС дослідником, а також значно пришвидшило
цей процес (рис. 4). Основою для розробки алгоритму стали правила побудови ЗЗС, подані В.І. Перебийніс
[2002, с. 147-148], а також нами запроваджено низку нових правил.
ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 18

272
12 Головпоштамту.
11 навпроти
10 реєстрації
9 наметі
7 у
6 знаходиться
5 містечка
4 учасників
3 розташування
2 про
123 6
4
4
4
4
2
5
5
6
5
3
3
Б
л
о
к

с
п
а
я
н
о
с
т
і
П
л
а
т
о

8 жовтому
1 Інформація
Сила спаяності
елементів речення
12
4
7
5
8
9
10
11
Пік спаяності
Зони зв’язків

Рис. 3. Піки, плато та блоки спаяності елементів речення∗

Наведемо основні параметри аналізу ЗЗС:
1. Модель ЗЗС, представлена в термінах лексико-граматичних класів, які відповідають послідовності ЕР,
що утворюють ЗЗС (наприклад, у реченні на рис. 4 словоформа протоколів має ЗЗС немає деяких протоколів з
суден і модель M PnAdj N Pr N, словоформа морських – ЗЗС морських суден та модель Adj N).
2. Кількість вузлів у моделі ЗЗС – кількість ЕР, які входять до складу ЗЗС (відповідно, для протоколів цей
показник дорівнюватиме 5, а для морських – 2).
3. Довжина ЗЗС в реченні – кількість ЕР, розташованих у межах певної ЗЗС (для протоколів це 7,
морських – 2).
4. Щільність ЗЗС – наявність або відсутність ЕР у межах певної ЗЗС, які не входять до її складу (так, ЗЗС
протоколів проходить через ЕР, які не входять до її складу). Щільність можна визначити шляхом віднімання
кількісного показника довжини моделі ЗЗС від кількісного показника довжини ЗЗС в реченні (для протоколів:
довжина ЗЗС у реченні – 7 ЕР, кількість вузлів у ЗЗС – 5 (опорний компонент зони та 4 пов’язані з ним ЕР),
7-5=2 – ЗЗС є нещільною, для морських: довжина ЗЗС у реченні – 2 ЕР, кількість вузлів у ЗЗС – 2 (опорний
компонент зони та один ЕР, пов’язаний з опорним), 2-2=0 – зона є щільною).
5. Позиція опорного ЕР в моделі ЗЗС. Опорним ЕР називаємо елемент, для якого визначається ЗЗС
(словоформа протоколів має другу позицію в зоні, морських – першу).
6. Позиція опорного ЕР в реченні (словоформа протоколів має одинадцяту позицію в реченні, морських –
тринадцяту).
7. Схема ЗЗС – співвідношення кількості елементів речення, яким підпорядковується опорний ЕР, з
елементами речення, які підпорядковуються йому. Йдеться про напрям зв’язку підпорядкування. Разом із тим у
схемі має бути відображено відомості про принципово інший тип зв’язку – сурядний. Автоматично визначаючи
характер зв’язку кожного ЕР на основі розміченого дерева залежностей, ми розрізняли зв’язки опорного ЕР з
тими ЕР, відповідні вузли яких розташовані в дереві: 1) вище – відповідають ЕР, які підпорядковують собі
опорний ЕР, 2) на одному рівні з ним – перебувають з ним у сурядному зв’язку, 3) нижче – підпорядковуються
йому. Для ЕР протоколів це співвідношення становить 1|0|3: 1) вище в дереві знаходиться ЕР немає, 2) на
одному рівні не виявлено жодного ЕР, 3) нижче в дереві знаходяться три ЕР – деяких, з, суден. Для ЕР морських
схемою буде співвідношення 1|0|0: 1) вище в дереві знаходиться ЕР суден, 2) на одному рівні немає ЕР,
3) нижче немає ЕР.
Очевидно, загальна кількість ЗЗС дорівнює кількості слововживань у вибірці, тобто кожна ЗЗС є
індивідуальною. Проте статистичний аналіз матеріалу засвідчив існування типових моделей ЗЗС, що
підтвердило статус ЗЗС як мінімальної текстової одиниці. Типовими вважалися ті моделі, абсолютна частота
яких перевищує 10 %.

* Примітка. На рисунку кожну зону зв’язків позначено числом, яке вказує на порядковий номер у реченні ЕР, для
якого визначена ця зона. Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

273

Рис. 4. Приклад обчислення ЗЗС

Аналіз співвідношення довжин ЗЗС різних частин мови показав, що серед зон зв’язків прикметника та
прислівника можна виділити одну типову довжину, яка значно переважає інші, причому для обох названих
класів слів такою довжиною є показник два. Натомість типові довжини зон зв’язків іменника та дієслова не
мають такого виразного домінування якоїсь однієї довжини. Це означає, що сфера синтаксичної дії цих класів
може значно варіюватися порівняно зі сферами дії прикметника та прислівника. Також встановлено, що
дієслово характеризується значно більшою варіативністю довжин зон, які мають високу частотність. Іншими
словами, для дієслова властиво мати довгі ЗЗС.
Вивчення характеру залежності між позицією опорного ЕР в ЗЗС і кількістю його зв’язків привело до
виявлення такої закономірності: чим далі вправо в зоні зв’язків опорний компонент цієї зони, тим більшою є
середня кількість його зв’язків.
Окрім того, на матеріалі сучасних українських публіцистичних текстів встановлено дію законів переваги
та простоти:
1) для кожного класу слів визначається велика кількість коротких/простих моделей ЗЗС, тоді як
складні/довгі моделі сукупно становлять невелику від загальної кількість моделей;
2) для певної позиції опорного іменника в зонах зв’язків, які мають однакову довжину, визначається
кілька типових моделей, які кількісно переважають решту моделей. Більше того, кожній моделі іменника, яка
передбачена певною його позицією, майже завжди відповідає одна типова схема.
Аналіз блоків спаяності ЕР за їх наповненням у термінах класів слів засвідчив існування в них типових
моделей.
У табл. 2 міститься інформація про фактичну кількість моделей блоків спаяності, згрупованих за
морфологічним вираженням ЕР, який лінійно розташований у блоці першим. Наведені дані вказують на те, що
типовими можна вважати моделі, в яких перший ЕР виражений іменником, дієсловом, прикметником та
прийменником.
Табл. 2. Кількість моделей блоків спаяності ЕР за першим елементом
Перший ЕР в блоці спаяності Фактична кількість %
Ab 1380,96
Adj 2488 17,3
Adv 7895,49
CC 5033,5
M 80,06
N 3659 25,45
Num 6804,73
P 6474,5
Pc 560,39
PnAdj 776 5,4 ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 18

274
PnAdjN 80 0,56
PnN 5733,98
PnPos 116 0,81
Pr 194913,55
SC 1521,06
V 164311,43
Vp 280,19
Усього 14285 100

У межах кожної такої окремої групи блоків спаяності виявлено типові моделі за морфологічним
вираженням обох ЕР. Так, для іменника типовими є моделі:
1) N+N, що становить 50,34 % серед усіх моделей з першим ЕР, вираженим іменником (пісні Руслани,
підтримання правопорядку, портрет Януковича);
2) N+Pr – 13,97 % (мітинг на, частина з, шанс на);
3) N+V – 12,52 % (ситуацію врятувала, президентом залишатиметься, хлопці розповідають, хлопців
побили).
Прикметник характеризується одним типовим блоком спаяності Adj+N, проте досить частотним – 88,63
% від загальної кількості моделей з першим ЕР, вираженим прикметником (конституційне право, поважних
професорів, політичний фарс).
Найпоширенішими моделями для дієслова є такі:
1) V+Pr – 31,99 % (звернувся до, знаходяться в, повідомив про);
2) V+N – 30,53% (вмикають пічки, вразили коментарі, вручити посвідчення, віддав дівчині, закликав
депутатів, меншає перехожих, обрала президентом, позують відеокамерам);
3) V+Adv – 8,65 % (пройшли елегантно, приходьте завтра, стоять ліворуч).
Зауважимо, що розглянуто лише блоки спаяності, тобто такі одиниці, які складаються з двох ЕР. Поза
увагою залишилися послідовності елементів речення, між якими визначалися піки спаяності, оскільки вони
автоматично були почленовані програмою на двокомпонентні сполуки, тобто на блоки спаяності.
Метод зон зв’язків словоформ уможливив виявлення деяких закономірностей реалізації синтаксичних
зв’язків у речення. Аналіз одержаних даних засвідчив, що особливості синтаксичної організації речення впливає
на показники сили спаяності ЕР у ньому. Найбільші показники сили спаяності припадають на такі синтаксичні
одиниці, як: частини складних або складених членів речення, компоненти сурядної конструкції. У тих
випадках, коли в реченні застосовуються мовленнєві механізми, які не передбачають нагнітання синтаксичного
зв’язку, наприклад еліпсис, – тоді сила спаяності не сягає великих показників.
У результаті статистичного аналізу розподілу синтаксичних зв’язків у реченнях довжиною 6-14 ЕР
виявлено таку закономірність: існує взаємозв’язок між позицією елемента в реченні та кількістю зв’язків цього
ЕР. У реченнях невеликої довжини (6-9 ЕР) наявний один центр/кластер, який характеризується найвищим
значенням середньої кількості зв’язків ЕР. Такий центр припадає завжди на другу половину речення. Із
збільшенням довжини речення яскраво простежується тенденція до кластеризації центрів ЕР, які
характеризуються найбільшими показниками середньої кількості синтаксичних зв’язків.
Кількісний аналіз розподілу різних показників сили спаяності в реченнях довжиною 6-14 ЕР засвідчив
існування в реченні кожної конкретної довжини позицій, які з великою ймовірністю передбачають високий
показник сили спаяності, бо саме на ці позиції припадають найбільші показники середньої сили спаяності.
Також існує чітка закономірність у ймовірнісному розподілі сил спаяності залежно від позиції в реченні: з
імовірністю 50 % сила спаяності між першим та другим ЕР дорівнюватиме двом. При цьому центральна
частина речення характеризується тим, що різні показники сили спаяності статистично вагомі й мають
приблизно однакову ймовірність. Тому середина речення завжди є тією ділянкою, в якій розподіл синтаксичних
зв’язків може значно варіюватися. Це підтверджується й тим фактом, що саме на середину речення припадають
найбільші значення дисперсії сили спаяності.
Вдалося встановити, що взаємозв’язок між довжиною речення та середнім значенням загальної кількості
зв’язків, наявних у ньому, виражається функцією у=3х-4, де у – середнє значення загальної кількості
синтаксичних зв’язків у реченні, х – довжина речення. Значне зростання кількості зв’язків із збільшенням
довжини речення свідчить про те, що для організації речення з більшою довжиною залучається більше зв’язків
між ЕР, причому не лише контактних – між сусідніми ЕР, але й дистантних.
Одержані результати дають можливість не лише констатувати велике значення синтаксичних зв’язків у
лінійній організації речення, але кількісно схарактеризувати ту роль, яку вони відіграють у процесі оформлення
речення як цілісної мовленнєвої одиниці. Статистичні закономірності, наведені в статті, можуть бути
використані для розв’язання низки практичних завдань, зокрема в процесі автоматичного опрацювання тексту.
Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

275
Література
Дарчук Н., Сорокін В. Корпус текстів як джерело для мовознавчих і літературознавчих досліджень //
Лексикографічний бюлетень: Зб. науков. праць. – К., 2006. – Вип. 13. – С. 34–37.
Закономерности структурной организации научно-реферативного текста / Гриднева Л.М., Грязнухина
Т.А., Дарчук Н.П. и др. / Отв. ред. В.И. Перебейнос. – К.: Наукова думка, 1982. – 322 с.
Перебейнос В.И. Еще раз о структуре предложения // Чествуя филолога: К семидесятилетию
Ф.А. Литвина. – Орел, 2002. – 146–156.
Перебейнос В.И. О единицах текста // Recueil linguistique de Bratislava. – Vol. VIII. – Bratislava: VEDA,
Editions de l’Academie Slovaque des Sciences, 1985. – P.146–150.
Пещак М.М. Стиль ділових документів XIV ст. – К.: Наукова думка, 1979. – 264 с.
Севбо И.П. Графическое представление синтаксических структур и стилистическая диагностика. – К.:
Наукова думка, 1981. – 192 с.

The article is devoted to procedure of syntactic sentence structure research based on dependency tree method
and word form’s connections analysis. Analytical set of data processing is represented. The statistic results of research
are given.
Keywords: syntactic structure, dependency tree, syntactic connection, a zone of word form’s syntactic
connections, cohesion unit of sentence elements.
Надійшла до редакції 25 жовтня 2008 року.

Літературне місто - Онлайн-бібліотека української літератури. Освітній онлайн-ресурс.