Лінгвістичні студії: Збірник наукових праць.

Владимир Титов, Алексей Кретов, Наталья Огаркова, Елена Долбилова — СТРУКТУРА И ОПИСАНИЕ ПРОГРАММНОГО КОМПЛЕКСА ДЛЯ ПРОВЕДЕНИЯ ЛЕКСИКО-СЕМАНТИЧЕСКОГО АНАЛИЗА ЯЗЫКА

У статті обговорюються проблеми створення комп’ютерної системи, призначеної для проведення
лексико-семантичного аналізу будь-якої мови на прикладі двомовного каталансько-російського словника.
Запропоновано конкретні розв’язання поставлених проблем. Подано опис структури програмного комплексу,
покликаного слугувати інструментом наукових досліджень цього типу.
Ключові слова: лексико-семантична система мови, комп’ютеризація лінгвістичних досліджень,
параметричний аналіз лексики, каталанська мова.

Введение
Большая часть языков мира представлена исключительно бумажными двуязычными словарями, которые
нередко являются если не единственными источниками информации о данных языках, то, как правило,
единственными практически доступными источниками такой информации. Поэтому двуязычный словарь
является базовым источником лингвистических исследований, направленных на выделение параметрического
ядра лексики в целях создания лексико-семантической типологии языков мира.
Работа со словарем-книгой занимает много времени, и нет возможности какого-либо анализа данных,
например, подсчёта статистик, проведения выборок и т.д. В связи с этим в научно-методическом центре
компьютерной лингвистики ВГУ в течение нескольких лет ведется работа по созданию электронных словарей,
в состав которых входит не только база данных слов и значений, но и набор средств, позволяющих
анализировать эти данные. Созданы автоматический македонско-русский словарь [3] и система CompLex [4], но
они не поддерживают функцию формирования параметрического ядра, необходимого для проведения
лингвистических исследований, а кроме этого работают с закрепленной моделью словарной статьи (СС).
Двуязычный словарь является основой лингвистических исследований, направленных на выделение
параметрического ядра языка, которое необходимо для его анализа и получения лексико-семантических
характеристик. Предполагается, что входной информацией для разрабатываемого программного комплекса
будут являться файлы, с отсканированным текстом бумажного словаря, а выходной информацией –
параметрическое ядро языка.
Структура программного комплекса
Программный комплекс должен состоять из следующих компонентов:
1) блок разбора;
2) блок для работы с БД;
3) блок анализа.
Блок анализа необходим для выделения четырех вспомогательных множеств: функционального,
синтагматического, парадигматического, эпидигматического, которые необходимы для формирования
параметрического ядра языка.
Блок для работы с базой данных предоставляет функции хранения, просмотра, редактирования и
использования элементов словарных статей, которые нужны для проведения выборок и подсчета статистик.
Блок разбора предоставляет функции формирования структуры СС, разбора её элементов и занесение их
в базу данных. Блок разбора является самым сложным компонентом комплекса, поскольку составители

1 Исследование осуществлено при поддержке Российского научного гуманитарного фонда (РГНФ) проект
07-04-00036а.
© Титов В.Т., Кретов О.О., Огаркова Н.В., Долбілова О.В., 2008
Розділ IХ. Прикладна лінгвістика: напрями й аспекти дослідження

401
словарей-книг не имеют единого мнения по поводу модели СС. Если программа работает с закрепленной
моделью, то нет никакой возможности обрабатывать словари с другими моделями статьи. В связи с этим
возникла идея попытаться создать программный комплекс, позволяющий обрабатывать словари с разными
структурами СС и требующий при этом минимальных модификаций кода. Этот блок состоит из следующих
подзадач:
• формирование структуры словарной статьи (возможность задавать, редактировать, сохранять и
загружать созданную структуру СС);
• разбор элементов словарной статьи (подпрограмма раскраски текста СС);
• занесение разобранных элементов в базу данных (сохранение элементов СС, необходимых для
лингвистических исследований в БД).
На рис. 1 представлена структура программного комплекса для проведения лексико-семантических
исследований.

Рис. 1. Структура программного комплекса

На вход программного комплекса поступают файлы с отсканированным двуязычным словарем. На
выходе – база данных с занесенной в нее информацией. Затем с данными в базе можно работать
(просматривать, редактировать и т.д.) или использовать для проведения лексико-семантического анализа.
На рис. 2 представлено дерево-функций, которые выполняет блок для работы с данными.
Анализ ядер
Для формирования параметрического ядра языка необходимо получить следующие четыре множества:
1. Функциональное ядро языка формируется на основании функционального веса входного слова статьи:
чем короче слово, тем больше его функциональный вес.
2. Синтагматическое ядро языка формируется на основании синтагматического веса: чем большее число
фразеосочетаний относится к данному слову, тем больше его синтагматический вес.
3. Парадигматическое ядро языка формируется на основании информации о количестве синонимических
рядов, в которые попадает входное слово. Синонимические ряды строятся на основе частоты метаслов, с
помощью которых толкуется входное слово. Частоту метаслова можно использовать в качестве показателя
парадигматического веса толкуемых с его помощью слов и сформировать правила выявления
парадигматического ядра.
Система для проведения лексико-
семантических исследований
Блок разбора

Блок анализа
Блок для работы с
базой данных

Формирование
структуры СС

Разбор элементов
СС
Занесение
разобранных
элементов в базу
данных ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 16

402
4. Эпидигматическое ядро языка формируется на основании эпидигматического веса слова – прямо
пропорционального количеству имеющихся у него значений.

Работа с
данными
Просмотр
данных
Редактирование
данных
Удаление всех
данных
Удаление
данных

Рис. 2. Дерево-функций для блока работы с данными

По каждому из четырех параметров может быть выделено ядро размером около 1000 слов, и для каждого
из членов ядра определен его параметрический вес. Выделение лексико-семантического ядра языка состоит в
создании сводной таблицы посредством слияния четырех монопараметрических таблиц. Затем
параметрические веса каждого слова суммируются, полученный корпус слов сортируется в порядке убывания
суммарного параметрического веса. Корпус слов с максимальным суммарным параметрическим весом,
наиболее близкий по объему к 1000 слов, принимается за ядро лексико-семантической системы
соответствующего языка [1].
На рис. 3 представлены функций, которые выполняет блок анализа.
Таким образом, для того, чтобы можно было проводить лексико-семантический анализ, необходимо
разобрать словарные статьи, из которых состоит двуязычный словарь, т.е. выделить его элементы, такие как
входное слово, пометы, частеричные омонимы, значения, примеры и т.д.
Элементы словарной статьи, необходимые для проведения лексико-семантического анализа
Любой двуязычный словарь состоит из словарных статей. Для каждой словарной статьи необходимо
знать входное слово, которое является определяющим, поскольку все остальные элементы СС нужны для его
толкования. Следует также учитывать тот факт, что некоторые словарные статьи имеют одинаковое входное
слово (омонимы), а значит, необходимо определить и хранить группы омонимов.
Любая словарная статья состоит из нескольких видов элементов, однако, в формировании
параметрического ядра участвуют четыре вида множеств, каждое из которых, в свою очередь, формируется с
использованием определенного вида элементов СС. К необходимым для лингвистических исследований
элементам относятся:
• входное слово;
• частеричный омоним;
• значение;
• фразеологизм;
• пример;
• метаслова.
Розділ IХ. Прикладна лінгвістика: напрями й аспекти дослідження

403
Анализ данных
Выделе ние
парадигматического
ядра
Выделе ние
синтагматического
ядра
Выделе ние
функционального ядра
Выделе ние
эпидигматического ядра
ядра
Выделе ние
параметрического ядра

Рис. 3. Функции блока анализа

Таким образом, в базе данных следует хранить информацию о необходимых видах элементов, а также
учитывать тот факт, что одни элементы могут включать в свой состав другие элементы и информацию о таких
взаимосвязях также необходимо фиксировать в БД, т.е. для любого элемента, входящего в состав другого,
обязательно должна храниться ссылка на родительский. Например, для каталанско-русского словаря
соответствующая структура представлена на рис. 4.
В словарных статьях встречаются так называемые метаэлементы, которые могут входить в состав
любого вида элемента статьи. Так, например, пометы, морфемы, комментарии могут входить в состав значений.
Все метаэлементы можно разделить на группы или домены. В свою очередь для каждого домена определяются
виды метаэлементов, например, для домена “Пометы” можно выделить частеричные, родовые, числовые и т.д.
Для каждого метаэлемента необходимо знать домен, вид, значение, а также ссылку на тот элемент СС, в составе
которого встретился данный метаэлемент.
Кроме того, у элемента словарной статьи может быть перевод (или несколько переводов), информацию о
котором надо хранить вместе со ссылкой на метаэлементы, относящиеся к данному элементу.

Заключение
В результате проделанной работы спроектирована структура программного комплекса,
предназначенного для проведения лексико-семантического анализа, направленного на выявлении
параметрического ядра языка, которое формируется на основании четырех множеств. При анализе множеств
выявлены элементы словарной статьи, информация о которых используется для их создания.
ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 16

404

Рис. 4. Пример структуры статьи каталано-русского словаря

Литература
1. Титов В.Т. Частная квантитативная лексикология романских языков: Монография / В.Т. Титов;
Воронеж. гос. ун-т. – Воронеж: Изд-во Воронеж. гос. ун-та, 2004. – 552 с.
2. Караулов Ю.Н. Лингвистическое конструирование и тезаурус литературного языка / Караулов Ю.Н.
– М.: Наука, 1981. – 366 с.
3. Кретов А.А., Воронина И.Е. , Вершинина О.А. , Лукьянчикова И.И. “Автоматический македонско-
русский словарь”. Программное средство. Зарегистрировано в Государственном фонде алгоритмов и программ
Российской Федерации (регистрационный номер 50990000174 от 6.12.99).
4. Лукьянчикова И.И. Программа обработки двуязычных словарей CompLex-1. Дипломная работа
студентки 5 курса факультета Прикладной математики и механики. Научн. рук. к.т.н., доц. И.Е.Воронина,
д.ф.н., проф. А.А.Кретов. – Воронеж: Воронежский государственный университет, 2000 г.

Статья
Частеречный омоним
Значение
Перевод
Пример
Фразеологизм
Перевод
Перевод
Перевод
Пример
Фразеологизм
Перевод
Перевод
Пример Розділ IХ. Прикладна лінгвістика: напрями й аспекти дослідження

405
The problems of computer system creation, intended for the leadthrough of lexical-semantic analysis of any
language on the example of the bilingual Catalan-Russian dictionary come into a question in the article. Concrete
solutions of the problems are offered. Description of programmatic complex structure, called to serve as the instrument
of scientific researches of this type, is given.
Keywords: lexical-semantic system of language, computerization of linguistic researches, self-reactance analysis
of vocabulary, Catalan language.
Надійшла до редакції 2 жовтня 2007 року.

Категорія: Лінгвістичні студії: Збірник наукових праць.

Літературне місто - Онлайн-бібліотека української літератури. Освітній онлайн-ресурс.