Лінгвістичні студії: Збірник наукових праць.

Ірина Волошиновська — РОЗДІЛЕННЯ ТЕМАТИЧНИХ НАПРЯМКІВ ТА ВИЯВЛЕННЯ СПОРІДНЕНОСТІ СПЕЦІАЛІЗОВАНИХ НАУКОВИХ ПРАЦЬ

Дана робота є продовженням серії попередніх досліджень автора, спрямованих на покращення
функціональних можливостей та адаптацію методу головних компонент для тематичної та авторської
атрибуції текстових документів. Представлено результати аналізу текстів наукових статей фізичного
спрямування та відповідних їм тез доповідей. В побудованій векторно-просторовій моделі текстового корпусу
виділено тематичні напрямки робіт. Запропоновано приймати до розгляду складові наукових публікацій:
текст статті, її анотацію та назву, – як окремі елементи вибірки з метою покращення роздільної здатності
методу головних компонент.
Ключові слова: вибірка текстів, модель головних компонент, кластерування, тематична атрибуція.

Атрибуція текстових документів
Збільшення об’ємів загальнодоступної інформації в сучасних умовах стрімкого розвитку інформаційних
технологій вимагає розробки процедур пошуку та сортування множини текстових документів відповідно до їх
тематичної, авторської, або ж хронологічної спорідненості. Значна кількість досліджень проводиться з метою
визначення критеріїв стилістичної приналежності текстів, розробки методів кластерування даних
[Перебийніс 1967], [Тулдава 1987], [Севбо 1981].
© Волошиновська І. А., 2008 Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

283
Детальний статистичний аналіз кількісних характеристик вибірки текстів природної мови дозволяє
виявити взаємозв’язки між представленими в роботах об’єктами, а також відтворити співвідношення їх
характеристик [Перебийніс 2002], [Левицкий 2007], [Дорош 2006]. В роботі [Волошиновська 2008] показано,
що представлення корпусу текстів у багатомірній системі координат, побудованій на напрямних векторах його
характеристик, дозволяє провести групування текстів та змінних, аналізуючи їх близькість у побудованому
просторі за ознаками, кожній з яких відповідає множина характерних слів та координатна вісь. Дана робота є
продовженням серії попередніх досліджень [Волошиновська 2008], [Voloshynovska 2008], спрямованих на
покращення функціональних можливостей та адаптацію методу головних компонент [Jolliffe 2002] для
атрибуції текстових документів.
Методика та об’єкт дослідження
В даній роботі аналіз залежності частот словоформ та формування характерних лексичних множин
реалізується з використанням методу головних компонент [Jackson 1981], [Jolliffe 2002]. Методом головних
компонент аналізується частотна матриця A, елемент aij якої відображає частоту появи j-ого слова в i-ому
елементі вибірки. Ідея методу головних компонент полягає у наступному розкладі частотної матриці А:
Kkk11 T2 2TT=++ ++AT PTPTPЕ, (1)
де векор Pi відображає вклад кожного слова у опис i-ої характеристики (i=1, …, k);
векор Ti визначає прояв i-ої характеристики у кожному тексті, тобто задає проекції текстів на напрямки
виділених характеристик у просторі головних компонент; вектор E – залишок.
Характеристика зазвичай представляється не однією словоформою (змінною), а їх характерним набором,
що вживається при описі відповідної особливості об’єкту. Аналіз головних компонент дозволяє прослідкувати
за відносною зміною частоти словоформ у вибірці і згрупувати словоформи у множини відповідно до їх
коваріації. Аналіз залежності частот словоформ у вибірці дозволяє розділити лексичні множини відповідно до
ознак, які ними описуються. Словоформи об’єднуються у множину, якщо вони вживаються для опису
споріднених об’єктів. Просторова модель текстової вибірки будується на напрямляючих векторах, у
відповідність до яких ставляться виділені лексичні множини, що вживаються при описі певної характеристики
об’єктів. У побудованому таким чином просторі головних компонент координати тексту вказують на міру
прояву відповідної характеристики у тексті, а координати словоформи відображають її вклад у опис відповідної
характеристики.
Віддаль між текстами, або ж словоформами у просторі головних компонент є мірою їх семантичної
спорідненості [Shьtze 1993]. Таким чином, метод головних компонент дає нам можливість провести атрибуцію
в межах текстового корпусу виключно на основі аналізу частот словоформ без попереднього задання критеріїв
атрибуції.
Праці конференції LUMDETR-2006, опубліковані англійською мовою у реферованому журналі Radiation
Measurements [Proceedings LD-2006], приймались в даній роботі як вибірка текстових документів для перевірки
функціональних можливостей методу головних компонент для тематичної категоризації робіт. Окрім
опублікованих за матеріалами конференції статей, до розгляду було взято також відповідні їм тези доповідей
[Thesis LD-2006] з метою перевірки можливості виявлення тематичної спорідненості. Проаналізовано роботи
фізичного спрямування, які було поділено авторами та організаторами конференції на 9 тематичних розділів.
Роботи були позначені латинськими літерами відповідно до розділів та пронумеровані для покращення
візуалізації розподілу робіт у просторі головних компонент.
Категоризація робіт в межах вузькоспеціалізованого текстового корпусу є ускладненою близькими
характеристиками об’єктів, розглянутих в роботах тематичної конференції. Категоризація в множини робіт
вузької спеціалізації ставить високі вимоги до роздільної здатності обраного методу.
Результати експерименту та їх обговорення
Результати попередньої тематичної категоризації праць конференції LUMDETR-2006
[Волошиновська 2008] добре узгоджуються з тематичним групуванням 96 робіт, проведеним самими
учасниками під час реєстрації та організаторами конференції [Proceedings LD-2006]. Для перевірки
достовірності тематичної атрибуції методом аналізу головних компонент, в даній роботі до побудови моделі
головних компонент залучені були не лише статі, а ще й відповідні їм тези доповідей [Thesis LD-2006]. Тези
доповідей, в більшості випадків, готуються заздалегідь і подаються учасниками перед проведенням
конференції, тоді як праці публікуються після конференції, як правило, пройшовши процедуру рецензування.
Для проведення експерименту було сформовано текстову вибірку, в яку увійшли 36 пар «теза-стаття».
Кількість таких доступних пар виявилась значно меншою від кількості опублікованих статей (96), оскільки до
розгляду приймались лише ті тематичні групи, де переважна більшість робіт були прийняті до друку після
процедури рецензування. Тези доповідей повинні бути, як правило, близькими за змістом до опублікованих за
матеріалами конференції статей і тому слід очікувати близького розташування елементів пари «теза-стаття» в
просторі головних компонент.
Частотну матрицю A (72×4830) було сформовано з частот aij вживання j-ої словоформи в i-ому елементі
вибірки без врахування словоформ, які зустрілись в одиничних елементах вибірки. Для розрахунку
використовувалась наступна умова нормування: ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 17

284
∑ =
j
ai2j1 (2)
з метою компенсації різного об’єму елементів вибірки. Розрахована на основі матриці A (72×4830)
модель головних компонент охоплює 81.43% частотної варіації словоформ в базисі дев’яти головних
компонент. Найбільш інформативним виявилось представлення результатів розрахунку для пар «теза-стаття» в
системі координат, побудованій на напрямляючих головних компонент (Principal Component) PC 2, PC 3, PC 5
(Рис. 1). На Рис. 1 тексти статей позначені великими латинськими буквами і порядковим номером (наприклад,
С33 означає: 33-я стаття збірника праць, що увійшла до групи С), а у позначеннях тез присутня мала літера “t”.
Для більшості праць, як і очікувалось, спостерігається просторове групування пар «теза-стаття», що вказує на
тематичну спорідненість пари і підтверджує функціональні можливості методу аналізу головних компонент у
розділенні тематичних напрямків.

Рис. 1. Розподіл статей та відповідних їм тез у просторі головних компонент.

Виходячи з розподілу робіт вздовж координатних осей PC 2, PC 3, PC 5 (Рис. 1), можна зробити наступні
висновки щодо принципу їх розділення на тематичні групи:
1) найбільший вклад у формування головної компонента PC 2 вносить термінологія праць групи
G “Домішки, дефекти, пастки”;
2) тематичні особливості робіт груп H “SUPERLUMI Experiment” та B “Дозиметричні матеріали”
відображаються лексичними множинами компоненти PC 3;
3) для робіт групи C “Запасаючі та інші фосфори” притаманною є термінологія, що формує компоненту
PC 5.
Чітке розділення груп B, C та H досягається завдяки термінологічним відмінностям у описі об’єктів та
методів відповідних тематичних напрямків. Близьке розташування робіт груп F та G обумовлене їх спільною
термінологією і свідчить про подібність розглянутих об’єктів та методики дослідження.
Велика віддаль між компонентами деяких з розглянутих пар «теза-стаття» (Рис. 1) може свідчити про
високі темпи відповідних наукових досліджень. Цілком природною є можливість правки авторами початкової
ідеї досліджень та перегляду зроблених ними висновків в період між реєстрацією тез доповіді та редагуванням
фінальної версії статті. Стаття подається до збірника праць конференції, як правило, вже після обговорення у
секційних засіданнях, що інколи змушує авторів переглянути представлені ними результати та висновки. Слід Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

285
врахувати також вклад рецензентів та редакторів журналів у редагування праць, опублікованих в реферованих
виданнях.
Не зважаючи на те, що об’єм тези є меншим від об’єму статті, тематична атрибуція методом головних
компонент дозволяє отримати близькі розподіли для тез та статей. В такій ситуації виникає запитання щодо
впливу об’єму елементів вибірки на якість тематичного розділення. Щоби виявити залежність якості
тематичної атрибуції від розміру елементів вибірки, було сформовано вибірку, до якої увійшли тексти статей, їх
анотації та заголовки. Випадковим чином вибрано 5 статей з різних тематичних груп. Розрахована модель
описує 99,67% варіації змінних в межах десяти головних компонент. Представлення результатів розрахунку є
найбільш інформативним в координатній системі головних компонент PC 4, PC 5, PC 7 (Рис. 2). Статті (article)
груп А, В, С, Н та G позначені art A, art B, …, art G; анотації (abstract) – abs A, abs B, …, abs G; заголовки
(title) – t A, t B, …, t G.
З Рис. 2 видно, що відповідні статті, анотації та заголовки розмістились вздовж чітко сформованих
напрямків. Саме напрямки в просторі головних компонент задаються характеристиками, виявленими для
елементів вибірки. Таким чином, тематична близькість в даному випадку визначається мірою відхилення від
напрямку. Найбільш віддаленими від центру координатної системи (Рис. 2) виявились заголовки статей (t A,
t B, …, t G), що свідчить про більшу міру проявлення тематичних характеристик у заголовках. Дані
характеристики проявляються в меншій мірі для анотацій і слабо проявляються у текстах статей. Подібна
тенденція властива також просторовому розподілу пар «теза-стаття» (Рис. 1), де більше проявлення
характеристик (відхилення вздовж осей головних компонент) спостерігається для більшості тез.
В послідовності «стаття-тези-анотація-заголовок» частка ключових тематичних термінів зростає. У
випадку статей характерні тематичні терміни є “розбавлені” словами, притаманними для опису інших
характеристик. В зв’язку з цим, не можна вилучати тексти статей або ж тези доповідей (великорозмірні
елементи вибірки) з розрахунку моделі головних компонент, оскільки внаслідок цього суттєво зменшиться
словник та лексичне перекриття між елементами вибірки, що ускладнить виявлення коваріації частоти слів у
елементах вибірки. Отже, заголовки та анотації можна розглядати як елементи вибірки з високим вмістом
характерних слів, які відіграють визначну роль у тематичній атрибуції. Прийняття до розгляду, окрім текстів
статей, їх анотацій та заголовків як окремих елементів вибірки сприяє виявленню лексичних множин, що
окреслюють тематику і тим самим покращує роздільну здатність методу головних компонент при тематичній
атрибуції.

Рис. 2. Розподіл статей анотацій та назв у просторі головних компонент.
ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 17

286
Важливу роль у формуванні єдності тексту відіграє його заголовок, адже він покликаний виразити
основну мету повідомлення, викликати зацікавленість до тексту, актуалізувати найбільш важливу інформацію
тексту [Тураєва 1986]. Дослідження структурних, семантичних та прагматичних особливостей заголовка
англомовного журнального мікротексту-повідомлення проведено у роботі [Коваленко 2002]. Автор показав, що
поєднання трьох даних аспектів вивчення заголовка дає можливість визначити його роль у репрезентації
текстової інформації, а також розкрив роль заголовка у смисловій організації всього мікротексту. Заголовок та
анотація слугують ключем до розуміння тексту, оскільки в них у стиснутому вигляді відображена вся суть
тексту. Проте, цілковите розуміння тексту відбувається лише після його прочитання, в результаті сприйняття
тексту як структурно-семантичної єдності, що характеризується цілісністю та зв’язністю.
Висновки
Метод головних компонент дозволяє з високою роздільною здатністю проводити тематичну атрибуцію
текстів наукового спрямування в межах вузької спеціалізації без попереднього визначення критеріїв
категоризації.
Заголовки та анотації статей можна розглядати як елементи вибірки з високим вмістом характерних слів,
які відіграють визначну роль у тематичній атрибуції. Прийняття до розгляду анотацій та заголовків як окремих
елементів вибірки (окрім текстів статей) сприяє виявленню лексичних множин, що окреслюють тематику і тим
самим покращує роздільну здатність методу головних компонент при тематичній атрибуції. При розрахунку
моделі головних компонент вкрай важливим є залученням до текстової вибірки також статей або ж тези
доповідей (великорозмірних елементів вибірки) з метою збільшення словника та лексичного перекриття між
елементами вибірки для кращого розділення коваріації частоти слів у елементах вибірки.

Література
Волошиновська 2008: Волошиновська І.А. Аналіз просторової моделі текстового корпусу як метод
формування тематичних підрозділів та розпізнавання авторської ідеї у колективних роботах // Науковий вісник
Волинського національного університету імені Лесі Українки, серія “Філологічні науки”. – Луцьк: Редакційно-
видавничий відділ “Вежа” ВНУ ім. Лесі Українки, 2008. – №5. – С. 375-379.
Дорош 2006: Дорош А.К., Коханівський О.П., Теорія ймовірностей та тематична статистика: Навчальний
посібник. – Київ: НТУУ «КПІ», 2006. – 268 с.
Коваленко 2002: Коваленко А.М. Заголовок англомовного журнального мікротексту-повідомлення:
структура, семантика, прагматика (на матеріалі тижневика Newsweek) 2002 року: Автореф. дис. … канд. філол.
наук: 10.02.04. – Київ: Київський національний лінгвістичий університет, 2002. – 19 с.
Левицкий 2007: Левицкий В.В. Квантитативные методы в лингвистике. – Вінниця: Нова Книга, 2007. –
264 с.
Перебийніс 1967: Статистичні параметри стилів. Відповід. редактор В.С. Перебийніс. – Київ: Наукова
Думка, 1967. – 260 с.
Перебийніс 2002: Перебийніс В.І. Статистичні методи для лінгвістів: Навчальний посібник. – Вінниця:
Нова Книга, 2002. – 168 с.
Севбо 1981: Севбо И.П., Графическое представление синтаксических структур и стилистическая
диагностика. – Київ: Наукова Думка, 1981. – 372 c.
Тулдава 1987: Тулдава Ю. Проблемы и методы квантитативно-системного исследования лексики. –
Таллин: Валгус, Тартуский государственный Университет, Отв. редактор Р.Г. Пиотровский, 1987. – 204 с.
Тураєва 1986: Тураева З.Я. Лингвистика текста: (Текст: структура и семантика). Учеб. пособие для
студентов пед. ун-тов по спец. № 2103 «Иностр. яз.». – Москва: Просвещение, 1986. – 127 с.
Jackson 1981: Jackson J.E. Principal Components and Factor Analysis: Part 1-Principal Components // Journal
of Quality Technology, 1981. Vol. 13., p. 201–213.
Jolliffe 2002: Jolliffe I.T. Principal Component Analysis (Springer Series in Statistics) 2nd ed., – New York:
Springer, 2002. 487 p.
Proceedings LD-2006: Proceedings of the 6th European Conference on Luminescent Detectors and Transformers
of Ionizing Radiation (LUMDETR 2006) // Radiation Measurements, –Elsevier Ltd, 2007. Vol. 42, No. 4-5, p. 509-944.
Shьtze 1993: Shьtze H. Word Space // Proceedings of the Conference on Advances in Neural Information
Processing System, NIPS’93, San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1993. p. 895-902.
Thesis LD-2006: VI European Conference on Luminescent Detectors and Transformers of Ionizing Radiation
(LUMDETR 2006), June 19-23, 2006 Lviv, Ukraine // Book of Abstracts, – Lviv: Liga Press, 2006. 268 p.
Voloshynovska 2008: Voloshynovska І. Peculiarity of N-Gram Model Application in the Author Style
Recognition // Proceedings of the III Intrnational Conference on Computer Science and Information Technologies,
CSIT-2008, September 25-27, Lviv: Veza&Co., 2008. p. 77-79.

Present work presents the results of continued studies aimed at the functionality improvement and adaptation of
principal component analysis technique for the thematic and authorship attribution of text documents. Texts of scientific
publications in physics are analyzed together with the corresponding theses. The thematic branches are resolved within
the model of principle components developed for the analyzed series of text samples. The body text of articles, their Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

287
abstracts and titles are proposed to be considered as the single samples for principal component analysis with the
purpose to improve the resolution of this technique.
Keywords: text sampling, principle component model, clustering, thematic attribution.
Надійшла до редакції 1 вересня 2008 року.

Категорія: Лінгвістичні студії: Збірник наукових праць.

Літературне місто - Онлайн-бібліотека української літератури. Освітній онлайн-ресурс.