Лінгвістичні студії: Збірник наукових праць.

Ілля Данилюк — ТЕХНОЛОГІЯ АВТОМАТИЧНОГО ВИЗНАЧЕННЯ ТЕМАТИКИ ТЕКСТУ

У статті розглядаються питання, пов’язані з реалізацією одного із напрямів автоматичного аналізу
тексту, а саме механізм автоматичної рубрикації. Визначені мета, завдання і сфера застосування такого
механізму, детально описаний авторський алгоритм, розкриті перспективи його практичного впровадження.
Ключові слова: автоматичний семантичний аналіз, текст, рубрика, тема.

Однією з основних проблем комп’ютерної лінгвістики є автоматичний аналіз тексту. З часом були
розмежовані різні типи такого аналізу, зорієнтовані на текстові рівні – фонетичний, морфологічний [2; 4],
синтаксичний [5, с. 123]. Кожний із видів аналізу, хоча і являє собою окрему проблему, значною мірою
спирається на результати, отримані при опрацюванні нижчого текстового рівня. На вершині ієрархії рівнів
автоматичного опрацювання текстів знаходиться семантичний, або логіко-семантичний аналіз. Як стверджує
Ю.М.Марчук [6, с. 74], саме семантико-зорієнтований підхід лежить в основі більшості сучасних технологій
аналізу тексту. Описане в науковій літературі коло завдань, які можуть бути розв’язані за умови успішного
автоматичного семантичного аналізу, охоплює значний пласт проблем створення, розповсюдження та
використання інформації у суспільстві.
Метою статті є розкрити механізм автоматичного визначення тематики тексту (АВТТ) в ширшому
контексті автоматичного семантичного аналізу тексту (АСемАТ), що передбачає: а) висвітлення загальної
проблематики АСемАТ; б) опис принципового алгоритму АВТТ; в) визначення перспектив завтосування АВТТ.
Розробка алгоритмів АСемАТ активізувалася насамперед зі створенням загальнодоступної мережі
Інтернет та появою потужних апаратних засобів обробки інформації. В межах загальної проблематики АСемАТ
у процесі розвитку технології визначилися базові підгалузі [5, с. 141-149; 8, с. 94-95]:
Розпізнавання текстів. Під розпізнаванням текстів мається на увазі побудова повної синтаксичної
структури речень, адекватної семантичній структурі. Інакше кажучи, здійснюється переклад із природної мови
формальною семантичною мовою, з якою здатний оперувати комп’ютер. У чистому вигляді така можливість
може бути корисна у всіх завданнях, де потрібне розпізнавання текстів або мовлення. Найпоширенішими є
завдання голосового керування й оптичного розпізнавання текстів. Використання повноцінного аналізатора
текстів здатне значно підняти якість розпізнавання. Особливо це стосується розпізнавання мовлення, де дотепер
існують значні труднощі при розрізненні слів із близьким звучанням. Механізм коректного вибору альтернатив
з урахуванням змісту здатний істотно (у кілька разів) скоротити неоднозначність лексичних одиниць.
Пошук документів. Вихідною основою для пошуку зазвичай є великі масиви неструктурованих або
слабкоструктурованих текстів природною мовою. Масив текстів попередньо індексується. Індекс сигналізує
про певну відповідність між базовими одиницями пошуку й документами, що їх містять. У найпростішому
випадку цими одиницями є слова (або словоформи). У більш розвинених варіантах це може бути тема тексту
(документа), фрагменти фраз або цілі фрази чи речення. Можливим є також пошук документів «схожих на
заданий». Якісний пошук за темою документа або визначення ступеня подібності до заданого документа
вимагає вміння правильно визначати тематику документа. Індекси можуть будуватися як автоматично, так і
© Данилюк І.Г., 2008 Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

291
вручну. Автоматично будуються, як правило, тільки індекси на основі слів (і в дуже обмеженому вигляді на
основі визначення тематики тексту).
Синтез текстів. У вузькому розумінні під синтезом текстів мається на увазі побудова фраз і речень
природною мовою за записами формальною мовою. До породжуваних фраз може висуватися або не висуватися
вимога стилістичної коректності, однак вони в кожному разі не повинні містити значеннєвих і граматичних
помилок. У випадку повномасштабного текстового синтезу, це, однак, є трудомістким завданням.
Перевірка коректності текстів. Оскільки автоматичний семантичний аналіз передбачає повний розбір
речень, за його допомогою можна перевіряти граматичну коректність аналізованих повідомлень, наприклад,
узгодженість означення з опорним словом, відмінкову форму додатка, кореляцію й узгодження між підметом і
присудком.
Побудова тезаурусів. Створення інформаційно-пошукових тезаурусів, словників термінів дотепер
залишається вкрай складною й трудомісткою роботою, ступінь автоматизації якої дуже низький. По суті, всі
тезауруси створюють вручну. Автоматично може перевірятися лише узгодженість накопичених визначень.
Альтернативою міг би бути підхід, коли визначення понять створюють за наявними текстами з такими описами
(енциклопедії, підручники, довідники), а потім, у разі необхідності, корегують в процесі діалогу з експертом.
Для реалізації такого підходу необхідно вміти здійснювати докладний аналіз семантики текстів.
Автоматичне реферування й анотування. Суть анотування (реферування) тексту полягає у формуванні
короткого опису основних тем тексту. Існує два різні підходи до анотування. У першому випадку виявляється
невелика кількість речень, що існують у тексті, які найповніше відображають основні теми тексту. Додатково
часто виділяють ключові слова. У другому випадку основні теми тексту виявляють як змісти, і вже ці змісти
виражають новими реченнями, новим текстом. Другий варіант у більшості випадків значно кращий, але він і
значно складніший. Усі сучасні системи анотування/реферування ґрунтують на першому варіанті.
Класифікація й рубрикація документів, визначення тематики документів. Незважаючи на зовнішню
простоту, завдання рубрикації й визначення тематики документів є дуже складними в реалізації. На основі
тільки ключових слів або синтаксичної структури простих словосполучень задовільно вирішити завдання не
можна. Фрагментарне використання загальних семантичних класів також принципово нічого не змінює. Наявні
системи забезпечують точність класифікації (а отже, і визначення тематики) у порівнянні з людською оцінкою:
без використання заздалегідь заданих класів – близько 60%, з використанням заздалегідь заданих класів і
настроюванням на тематику текстів – до 95%.
Механізм автоматичного визначення тематики текстів, який є основним предметом нашого розгляду,
насамперед передбачає визначення граничного переліку тем, рубрик, до яких можуть належати конкретні
тексти. Можливим є мінімалістичний підхід, коли перелік тем або рубрик не перевищує десяти, наприклад,
вичерпується переліком основних стилів: художній, науковий, публіцистичний, розмовний, конфесійний тощо.
Другий – максималістичний – підхід передбачає використання якнайповнішої надзвичайно широкої (до десяти
тисяч) рубрикації, що має охопити всі галузі людського знання. Наприклад, основою такої рубрикації може
виступати каталог одного з пошукових сайтів (www.yahoo.com, www.meta.ua, www.yandex.ru тощо). У системі
«Семантичне дзеркало» (www.ashmanov.com) використано 2500 рубрик. Університетська інформаційна система
«Росія» (uisrussia.msu.ru) як один з варіантів використовує «Класифікатор правових актів РФ» (близько 1200
рубрик, 4 рівні ієрархії). Третій підхід можна назвати проблемно-орієнтованим – вводиться така класифікація
рубрик, що відповідає конкретним завданням, що їх в основному буде вирішувати система. Зокрема, такими є
рубрикації, що використовують для контекстної реклами: залежно від переліку рекламованих продуктів або
географічних зон покриття мережі їх продажу створюєть обмежений набір тем (кілька сотень), до яких може
бути зарахований аналізований текст для демонстрації прив’язаної до цієї теми реклами. Прикладами таких
систем є RORER (www.rorer.ru, 82 тематики). Основою рубрикації, крім того, може слугувати бібліотечний
каталог, наприклад, Дослідницької служби конгресу Бібліотеки конгресу США (Legislative Indexing Vocabulary,
LIV, 80 рубрик).
Після визначення потрібної глибини рубрикації для кожної з рубрик визначають набір ключових слів,
наявність яких у тексті може свідчити про його належність до певної рубрики.
Надалі при визначенні теми конкретної сторінки в мережі Інтернет пропонуємо такий розроблений нами
алгоритм:
1. Система скачує призначену для аналізу сторінку;
2. Відкривається код сторінки – написаний мовою HTML або якоюсь іншою набір службових команд
до браузера, що містить теги – розмітку сторінки із вказівкою заголовка, ключових слів, основного тексту,
виділення тексту кольором, жирним або курсивним накресленням шрифту тощо.
3. З коду сторінки видаляємо службові команди й написи, навігацію, допоміжні блоки, зовнішні
покликання (тобто такі, що ведуть на іншу мережеву адресу, яка знаходиться за межами сайту аналізованої
сторінки);
4. Формуємо загальний список слів з коду сторінки, у тому числі в іномовному написанні (mp3, gprs),
які не входять до службових команд.
5. З цього списку викидаємо всі слова з 1 або 2 літер, а також всі цифри, оскільки вони не можуть нести
інформацію, що допоможе визначити тему тексту. ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 17

292
6. Із загального списку слів викидаємо стоп-слова (числівники, займенники, прийменники,
сполучники, частки). Список стоп-слів закритий, його можна задати невеликим словником, включивши у нього
усталені вставні конструкції. Причиною видалення є можливість їх уживання у текстах будь-якої тематики.
Релевантними для визначення теми тексту є тільки іменники, дієслова й прикметники. Це ключові слова
тексту. Нерелевантними слід вважати також прислівники, оскільки їхня семантична навантаженість не має
тематичного вектора: більшість із них можуть з однаковою частотністю вживатися у текстах будь-якої
тематики;
7. Визначаємо частотність ключових слів;
8. У списку ключових слів тексту здійснюємо лематизацію: вони приводяться в початкову форму – за
допомогою словника лематизації, що включає тільки слова з рубрикатора тем, інші залишаються в оригінальній
формі. Після лематизації словоформи одного слова будуть об’єднані в лексему, а їхні частоти підсумовані;
9. У результаті буде сформовано список ключових слів. У ньому буде визначена загальна кількість
слів (F) і найдовше слово (L);
10. Для кожного із ключових слів тексту визначаємо: кількість входжень (частота, f), довжина (у
літерах, l), місце в тексті (p, наприклад, якщо слово у заголовку, то р=4, у списку ключових слів сторінки р=3,
у внутрішньому покликанні р=2, у загальному тексті р=1), наявність тегів форматування біля слова (t,
наприклад, якщо слово відформатоване жирним, курсивом шрифтом або виділене кольором, що свідчить про
його порівняно вищу роль у тексті t=2, якщо ні t=1);
11. Для кожного ключового слова визначається вага в тексті (WсловаВтексті ) за формулою:
pt
L
l
F
f
WсловаВтексті = Ч Ч Ч WсловаВтексті ;
12. Існує рубрикатор тем (про нього йшлося вище), у якому в кожної теми є свої ключові слова з різною
вагою WсловаВтемі (це теж тільки іменники, дієслова, прикметники: наприклад, тема «Автомобілі»: слова кермо,
спідометр, водій мають WсловаВтемі = 3 , слова скло, гума, колесо, мотор – WсловаВтемі = 2 , вікно, двері, ручка –
Wі метВаволс=1;
13. Кожне із ключових слів тексту перевіряється на наявність у рубрикаторі. У випадку позитивного
результату поповнюється Рейтинг теми (R з індексом, який вказує на номер теми), у якій знайдене слово:

ХиметХиметскетВаволсітсловаВтемі
=+Ч RR WW
У випадку негативного результату поповнюється позатематичний рейтинг (показник кількості слів у
тексті, які не входять до жодної з тем, при подальшому аналізі дозволить поповнити словники окремих рубрик,
а також встановити вагу окремих тем у всьому тексті)
итаметазопйинчитаметазопйинчскетВаволсті
=+R R W;
14. Після обробки всіх ключових слів визначається вага кожної з тем (Wтеми ), що буде представлена у
відсотках:
иметиметиметNиметитаметазопчний
темиХ
темиХ
RRRRR
R
W
+++++
Ч
=
123K
100

15. Тема з найвищою вагою визначаємо як провідну. Інші теми кваліфікуємо як супровідні.
Перспектива застосування запропонованого алгоритму АВТТ охоплює насамперед галузі
інформаційного пошуку та контекстної реклами.
Сучасні системи інформаційного пошуку не обмежуються заданими користувачем словами. Віднедавна
постулюється перехід від пошуку за словами до пошуку за об’єктами [3], що передбачає розширення меж
пошукового запиту користувача шляхом визначення теми його запиту й знаходження релевантних до теми
документів. У результаті пошукова система може знайти документи, в яких взагалі немає заданих користувачем
слів, але які повністю відповідають його запиту. Інший підхід запропонований у [9] й передбачає розширення
пошукового запиту шляхом додавання до введених користучам слів асоціативних зв’язків, тобто знайдених
системою синонімів, гіперонімів тощо. В обох випадках має бути використаний механізм АВТТ, у тому числі
для української мови, якщо пошукова система її підтримує і правильно індексує україномовні документи.
Запропонований механізм може бути використаний для суто лінгвістичних завдань: поповнення
словникових баз даних, корпусів, термінологічних банків даних, забезпечення інформаційно-пошукових і
експертних систем.
Галузь контекстної реклами охоплює сьогодні досить потужні системи, що забезпечують пошук цільової
аудиторії для конкретних рекламованих продуктів. Механізм АВТТ застосовується тут при визначенні Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

293
тематики відкритої користувачем сторінки, відповідно до якої буде виведений тематичний рекламний банер, що
підходить до теми тексту і географічного розташування самого користувача.
Отже, перспективи практичної реалізації запропонованого алгоритму АВТТ для української мови є
досить широкими, а сама реалізація входить до подальших планів дослідження.

Література
1. Белов А.А., Волович М.М. Автоматическое распознавание тематики сверхкоротких текстов //
Материалы международной конференции «Диалог 2007» (http://www.dialog-21.ru)
2. Белоногов Г.Г., Калинин Ю.П., Поздняк М.Ф., Яфаева Г.М. Алгоритм многоступенчатого
морфологического анализа русских слов // Научно-техническая информация. – Сер 2. – 1983. – № 1. — С.6-10.
3. Гершензон Л. Технологии извлечения знаний для поиска в Интернете. От слов к объектам //
http://company.yandex.ru/articles/cib2006-gershenzon.ppt
4. Грязнухіна Т.О., Нікула М.В. Система автоматичного морфологічного аналізу українського
наукового тексту // Проблеми українізації комп’ютерів. – К., 1993. – С.42-46.
5. Карпіловська Є.А. Вступ до комп’ютерної лінгвістики. – Донецьк: ТОВ «Юго-Восток, ЛТД», 2003.
– С. 123-133.
6. Марчук Ю.Н. Компьютерная лингвистика. – М.: АСТ: Востк-Запад, 2007. – С. 60-70.
7. Николаев А. SEO пантеон: Слово, Ссылка… Тема // www.altmedia. ru
8. Тузов В.А. Компьютерная грамматика русского языка // Вестник С.-Петерб. ун-та. Сер. 10. – СПб.:
Изд-во С.-Петерб. ун-та, 2004. Вып. 1-2. С. 94–100.
9. Шабанов В. И., Власова А. Е. Алгоритм формирования ассоциативных связей и его применение в
поисковых системах // http://www.rambler.ru/db/rumetrica/

This article discusses issues related to the implementation of one of the areas of automatic text analysis, namely,
automatic categorization. Identify the purpose, objectives and scope of such a mechanism, described in detail the
author’s algorithm, opened prospects for its implementation.
Keywords: automatic semantic analysis, text, topic, theme.
Надійшла до редакції 5 вересня 2008 року.

Категорія: Лінгвістичні студії: Збірник наукових праць.

Літературне місто - Онлайн-бібліотека української літератури. Освітній онлайн-ресурс.