Лінгвістичні студії: Збірник наукових праць.

Ольга Лазаренко, Дмитрий Панченко — РОЛЬ ОНТОЛОГИЙ ПРИ ОБРАБОТКЕ ЗНАНИЙ В «СЕМАНТИЧЕСКОМ WEB»

Стаття присвячена питанням моделювання процесів автоматичного реферування із застосуванням
онтологій. Розглядаються види онтологій і пропонується модель онтологічного подання знань. Дається
інтерпретація поняття онтології у рамках запропонованої специфікації. Приводиться опис онтології
засобами мови OWL.
Ключові слова: інформаційні технології, інтелектуальні системи, бази знань, моделі подання знань,
автоматичне реферування, онтологія.

В целях унификации обмена информацией в Internet консорциум W3C разработал проект
«Семантический Web» [Тан 2001, Graham 2002], заключающийся в том, что Web-серверы должны не только
визуализировать, но использовать данные, чтобы программы разных производителей могли эффективно
работать с контентом. В качестве унифицированного формата сегодня используется язык eXtensible Markup
Language (XML) и его диалекты. Для решения задачи интеграции информации было создано несколько
форматов описания данных на основе XML. Самый распространенный формат получил название RSS (Really
Simple Syndication, Rich Site Summary), в рамках которого разрабатываются все новые программы, сайты и
поисковые системы [Lyman 2003]. Целью проекта «Семантического Web» является внедрение в Web
пространство таких технологий, которые позволят существенно повысить уровень интеграции информации,
обеспечить развитую машинную обработку данных, дадут возможность выдавать более адекватные ответы на
поисковые запросы [Зубинский 2003].
Главный механизм «Семантического Web» – представление знаний, скрытых за синтаксической и
семантической разметкой документа, поэтому в его основу были положены три ключевых элемента [Ландэ
2005]:
• спецификация XML, позволяющая определить синтаксис и структуру документов;
• механизм описания ресурсов – Resource Definition Framework (RDF), обеспечивающий модель
кодирования для значений, определенных в онтологии;
• система онтологий, позволяющая определять термины (или понятия) и отношения между ними.
Предполагается, что третий элемент «Семантического Web» – онтологии – будет играть определяющую
роль в обработке знаний в Сети. При этом онтология определяется как универсальная база знаний, состоящая
из набора понятий и набора утверждений этих понятиях, на основе которых можно строить классы, объекты и
отношения. Онтология определяет семантику конкретной области и способствует установлению связей между
значениями элементов предметной области (ПО). Данная база знаний содержит сведения для отождествления
новых понятий с уже известными, для определения принадлежности используемых терминов к той или иной
ПО и для приведения любых понятий к виду, пригодному для восприятия программами – электронными
агентами. Таким образом, онтологический уровень формализует накопленные знания, определяя и объединяя
терминологию различных предметных областей. Языки описания онтологий позволяют адаптировать к Web
системы математической логики и обеспечить семантическую обработку данных.
С точки зрения описываемой концептуализации и в зависимости от конкретной задачи или ПО
онтологии делятся на [Гаврилова 2000]:
• онтологии представления, определяющие концептуализацию, которая лежит в основе формализма
представления знаний. Понятия и отношения, определенные в других видах онтологий, считаются
конкретизацией понятий онтологии данного вида. Предполагается, что они не зависят от конкретной ПО.
Онтологии данного вида могут использоваться для поддержки нескольких альтернативных теорий,
относящихся к одной и той же ПО;
• общие (родовые) онтологии, затрагивающие общие, фундаментальные аспекты концептуализации
такие, как «часть», «причина», «участие», «представление»;
• промежуточные онтологии, содержащие общие понятия и отношения, характерные для конкретной
ПО. В идеальном случае, они используются в качестве интерфейса между онтологиями предметных областей и
общими онтологиями, но могут выступать, как онтологии верхнего уровня для описания знаний конкретной
ПО;
• онтологии верхнего уровня, являющиеся конкретным назначением понятий общих и промежуточных
онтологий. Этот модуль описывает общие понятия, которые не зависят от конкретной проблемы или области
[Lenat 1995];
© Лазаренко О.В., Панченко Д.І., 2009 Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

259
• онтологии предметных областей, содержащие понятия определенной области знаний или входящих
в нее областей [TOVE 1999];
• онтологии задач, описывающие определенные задачи или деятельность, используя словарь,
введенный в общих, промежуточных онтологиях и онтологиях предметных областей [Van der Vet 1994];
• онтологии-приложения, являющиеся специальизацией онтологий предметных областей и онтологий
задач, и, опирающиеся на определения, характерные для конкретного приложения [Van der Vet 1994].
Актуальность разработки онтологий заключается в том, что такие технологии позволят обеспечить
развитую машинную обработку информации за счет осуществления смыслового анализа текстов, что, в свою
очередь, позволит строить осмысленные рефераты, выдавать более адекватные ответы на поисковые запросы и
т. д.
В данной статье рассматривается один из возможный подходов к представлению знаний в системах
автоматического реферирования (АР), в рамках которого используются онтологии для оптимизации процедуры
автоматического извлечения знаний из текстов на естественном языке.
Целью данного этапа проводимых нами исследований, направленных на построение системы АР,
является создание модели онтологии в виде совокупности модулей – онтологии верхнего уровня
(метаонтологии) и онтологии предметной области. Разрабатываемая модель онтологии может расширяться за
счет добавления новых модулей, соответствующих другим разделам ПО.
В рамках реализуемой нами концептуализации [Лазаренко 2002] используемые в системе АР онтологии
делятся на два типа.
Онтология верхнего уровня, находящаяся над онтологиями предметных областей, и являющаяся
самостоятельной, независимой от ПО, так как описывает общие понятия такие, как пространство, время,
материя, объект, событие, действие, результат и т. п., которые не зависят от конкретной задачи в предметной
области.
В предлагаемой нами модели такой словарь используется для описания категорий реферативных
конструкций. Он является вырожденной онтологией и представляет собой конечное множество понятий
верхнего уровня, отображающих содержательную структуру рефератов.
Онтологии предметных областей, содержащие понятия определенной области знаний или входящих в
нее областей, и состоящие из объектов и связей между ними, описанных в терминологии конкретной ПО.
Онтологии-словари не вводят эксплицитно смысла терминов, но в тех случаях, когда термины
принадлежат достаточно узкому словарю рассматриваемой ПО т(ехническому, лингвистическому,
медицинскому, экономическому и т. п.), а, следовательно, их смыслы четко определены, такие онтологии
применяются на практике.
Связь категорий из онтологии верхнего уровня с объектами и событиями из онтологии ПО описывается
формализмами, задающими принципы отнесения к этим категориям объектов мира.
Создание онтологий осуществляется в несколько этапов: спецификация (для чего предназначена),
концептуализация (классификация понятий), формализация (описание классификаций на формальном языке),
интеграция, реализация, эксплуатация.
Применительно к нашей задаче на этапе спецификации был определен круг задач, для решения которых
необходима разработка онтологий.
Для решения задачи представления знаний в системе автоматического реферирования стала очевидной
необходимость создания нескольких онтологий. Онтологии верхнего уровня, представляющей собой словарь
категорий реферативных конструкций, и онтологий предметных областей, которые в совокупности дают
возможность решить задачу содержательного конструирования реферата (за счет того, что позволяют более
точно выделить в текстовой базе знаний необходимые для этого именные группы).
Этап концептуализации включал извлечение терминов из текстов и распределение их по категориям, на
базе чего и строилась концептуальная модель ПО. При этом мы рассматривали не все категории, входящие в
онтологии верхнего уровня, а лишь те, которые встречаются в рефератах. Словарь таких категорий был
составлен в процессе построения модели реферата, в которой эти категории и были определены. В результате
мы получили вырожденную онтологию в виде словаря метазначений (смысловых категорий, характерных для
рефератов – объект, результат, цель, средство).
При построении онтологии предметной области мы исходили из того, что, как принято считать в области
искусственного интеллекта, занимающейся моделями представления знаний [Клещев 2001], в реальном мире
есть объекты, у них есть свойства, которые имеют значения. Объекты могут быть в различных отношениях по
отношению друг к другу; существуют процессы, в которых участвуют объекты, объекты могут находиться в
различных состояниях и состоять из частей. Для описания объектов используются понятия классов,
экземпляров классов и подклассов, где понятие класса ассоциируется с совместно используемыми свойствами.
Вследствие этого отношение, указывающее на отношения подклассов, – быть экземпляром, является
фундаментальным для представления онтологий. А построение онтологии ПО сводится к концептуализации
мира в понятиях словаря для объектов, их качественных характеристик, отличительных особенностей и т. п.
Понятия, определенные таким образом в словаре, составляют принятую в данной ПО терминологию. ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 18

260
Как правило, онтология предметной области содержит простую или сложную таксономию понятий, т. е.
понятий, наследующих свойства одного (в случае простой таксономии) или нескольких более общих понятий (в
случае сложной таксономии). Понятия связаны отношениями с другими понятиями или с неотъемлемыми
типами, т. е. с основополагающими в системе понятиями. Отношения обычно имеют несколько собственных
свойств, таких как имя отношения и его описание, закрепленное документально. Для системы отношений
устанавливаются семантические ограничения.
Иными словами, онтологическое (или концептуальное) моделирование имеет дело с вопросом о том, как
декларативным образом, допускающим повторное использование, описать ПО и как ограничить использование
этих данных для решения конкретной задачи анализа.
Для решения этой задачи модель ПО в нашем проекте базируется на понятиях верхнего уровня
(«объект», «результат», «цель» и «средство»), которые затем соотносятся с понятиями из конкретной ПО.
Онтология такого вида представляет собой простую таксономию.
В каждой прикладной онтологии понятия предметной области имеют ярко выраженную специфику.
Исходное множество понятий ПО формируется в результате отбора характерных для нее предметов и явлений
и, когда словарь терминов ПО достигает большого объема, строятся деревья классификации концептов. При этом под
термином понимается слово (или сочетание слов), являющееся точным обозначением какого-либо понятия из
области науки и техники, а понятие интерпретируется как логически оформленная мысль о классе предметов и
явлений. То есть в понятии отражается совокупность существенных признаков, каждый из которых, взятый
отдельно, необходим, а все вместе взятые достаточны, чтобы с их помощью можно было отличить (выделить)
данный предмет от всех остальных и обобщить однородные предметы в класс. Предметы и явления,
объединенные в один класс, составляют объем соответствующего им понятия.
При классификации предметы и явления, входящие в объем понятия верхнего уровня, делятся на
подклассы, образующие новые понятия, являющиеся частью понятия верхнего уровня, и так далее до уровня
конкретных терминов ПО.
В этом смысле таксономия рассматривается как синоним систематики – надежной и удобной системы
регистрации разнообразия предметов и явлений путем распределения по классам на основании их сходства и
родства в самом широком смысле.
Еще одним необходимым элементом в работе системы АР является текстовая база знаний. Она состоит
из фактов и утверждений, связанных с определенной ситуацией (конкретным текстом). И в отличие от
онтологии, содержащей не зависящую от ситуации и состояния информацию, представляет собой
«информационное ядро», содержащее зависящую от ситуации и состояния информацию.
Для построения текстовой базы знаний необходимой и достаточной для решения задачи реферирования
мы отталкивались от понятий, содержащихся в заголовке документа. По ключевым словам, найденным в
заголовке, отыскиваются соответствующие им именные группы в тексте (строится текстовая база знаний),
после чего осуществляется фильтрация найденных терминов и формируются цепочки именных групп для
реферативных конструкций в соответствии с имеющейся моделью реферата.
Эти структуры представляют собой вырожденную онтологию в виде словаря категорий реферативных
конструкций и онтологии предметных областей в виде таксономии понятий конкретной области знаний.
В результате сопоставления терминов из текстовой базы знаний с этими онтологиями формируется
набор понятий, необходимый для содержательного конструирования реферата.
Для практической реализации разработанной схемы реферирования необходимо формализовать
описание работы системы на языке, доступном машине. Сегодня все разрабатываемые системы обработки
информации в той или иной степени ориентированы на использования в рамках Интернет-пространства.
Поэтому при выборе способа формализации мы ориентировались на технологии Semantic Web, а именно на
язык описания словарей RDF-терминов (RDFS – RDF Schema), который предоставляет возможность
семантической интероперабельности – машинной интерпретации данных и объединению разбросанной в Сети
информации. RDF-схемы позволяют определять семантику данных, служат фундаментом для более богатых
языков описания моделей предметных областей (языков описания онтологий), которые позволяют
адаптировать системы к Сети и обеспечить семантическую обработку данных. Цель таких языков – указать
дополнительную машинно-интерпретируемую семантику ресурсов, то есть сделать машинное представление
данных более похожим на положение вещей в реальном мире. Использование богатых языков концептуального
моделирования позволит адаптировать к Сети большое количество наработок в области систем инженерии
знаний и баз знаний. Привлечение систем логики и искусственного интеллекта составляет вершину «пирамиды
Semantic Web», обеспечивая адекватный поиск информации и ее машинную интерпретацию [Бездушный 2003].
Первыми предложениями по описанию онтологий на базе RDFS были DAML-ONT (DARPA Agent
Markup Language) и European Commission OIL (Ontology Inference Layer). На базе этих двух предложений
возникло совместное решение – DAML+OIL, которое привело к созданию в рамках инициативы Semantic Web
отдельной группы, ответственной за пересмотр этого решения и стандартизацию языка описания Web-
онтологий (OWL – Web Ontology Language). Розділ ІХ. Прикладна лінгвістика: напрями й аспекти дослідження

261
В рамках OWL онтология понимается как совокупность утверждений, задающих отношения между
понятиями и определяющих логические правила для рассуждения о них. Рассмотрим возможности этого языка
на примере описания онтологии верхнего уровня и ее связи с онтологиями предметных областей.
Онтология верхнего уровня в нашей системе представляет собой набор категорий Объект, Результат,
Цель и Инструмент, что описывается следующим образом:
<owl:Class rdf:ID=»Объект»/>
<owl:Class rdf:ID=»Результат»/>
<owl:Class rdf:ID=»Цель»/>
<owl:Class rdf:ID=»Инструмент»/>
Синтаксис rdf:ID=»Инструмент » используется, чтобы ввести название, как часть его определения. С
помощью #Инструмент можно ссылаться на класс Инструмент внутри документа, например,
rdf:resource=»#Инструмент «.
Фундаментальным таксономическим конструктором для классов является rdfs:subClassOf. Он связывает
более частный класс с более общим классом. Если X – подкласс Y, то каждый представитель X – также
представитель Y. Отношение rdfs:subClassOf является транзитивным. Если X – подкласс Y, и Y – подкласс Z, то
X – подкласс Z.
<owl:Class rdf:ID=»МатематическийАппарат»>
<rdfs:subClassOf rdf:resource=»#Инструмент «/>

</owl:Class>
Мы определяем МатематическийАппарат как подкласс класса Инструмент из онтологии верхнего
уровня.
Приведенное определение математического аппарата, конечно, еще очень неполно. Далее нам
необходимо выделить экземпляры этого класса и описать суждения о них.
Для определения экземпляра достаточно объявить его членом какого-то класса.
<МатематическийАппарат rdf:ID=»АлгебраКонечныхПредикатов» />, что идентично по значению записи
<owl:Thing rdf:ID=» АлгебраКонечныхПредикатов » />.
Мир классов и экземпляров был бы совершенно неинтересным, если бы можно было только определять
таксономии. Свойства позволяют утверждать общие факты о членах классов и особые факты об экземплярах.
Свойства – это бинарные отношения, позволяющие описывать отношения между представителями двух
классов. При определении свойства существует множество способов ограничить это отношение. Можно
определить домен и диапазон. Свойство может быть определено как специализация (подсвойство)
существующего свойства. Возможны и более сложные ограничения.
<owl:ObjectProperty rdf:ID=»сделаноПосредством»>
<rdfs:domain rdf:resource=»#Преобразование»/>
<rdfs:range rdf:resource=»#МатематическийАппарат»/>
</owl:ObjectProperty>
Для того чтобы ограничивать типы элементов, которые образуют свойство, в рамках содержащего их
класса используются ограничения allValuesFrom и someValuesFrom. Ограничение owl:allValuesFrom требует,
чтобы для каждого представителя данного класса, который имеет данное свойство, все значения этого свойства
являлись представителями класса, заданного в пункте owl:allValuesFrom.
<owl:Class rdf:ID=»МатематическийАппарат «>
<rdfs:subClassOf rdf:resource=»&Инструмент» />
<rdfs:subClassOf>
<owl:Restriction>
<owl:onProperty rdf:resource=»#сделаноПосредством» />
<owl:AllValuesFrom rdf:resource=»#Преобразование» />
</owl:Restriction>
</rdfs:subClassOf>

</owl:Class>
Большая часть усилий по разработке онтологии посвящена связыванию вместе классов и свойств так,
чтобы максимально точно передать заложенный в понятия смысл. Необходимо, чтобы простые утверждения о
членстве в классе имели широкие и полезные последствия. Это – самая сложная часть разработки онтологии.
Поэтому, если можно найти нужную онтологию, которая уже широко используется и хорошо проработана, то
имеет смысл приспособить ее для своих нужд.
На этих принципах построено описание онтологий в разрабатываемой нами модели автоматического
реферирования. Наши исследования находятся на этапе построения онтологий. После чего предполагается
проверка онтологии на полноту и непротиворечивость. ЛІНГВІСТИЧНІ СТУДІЇ. Випуск 18

262
Требования к разработанной онтологии предполагают возможность для пользователя просматривать
онтологию, искать интересующие его понятия, а также в возможности интеграции ее с существующими
онтологиями.

Література
Бездушный 2003: Бездушный А.А. RDFS как основа среды разработки цифровых библиотек и Web-
порталов / А.А. Бездушный, А.Н. Бездушный, А.К. Нестеренко, В.А. Серебряков, Т.М. Сысоев. – Электронные
библиотеки. Том 6, Выпуск 3, 2003.
Гаврилова 2000: Гаврилова Т.А. Базы знаний интеллектуальных систем / Т.А. Гаврилова,
В.Ф. Хорошевский. – СПб.: Питер, 2000. – 384 с.
Зубинский 2003: Зубинский А. Semantic Web / А. Зубинский // Компьютерное обозрение. – 2003. – № 25.
С.61-63.
Клещев 2001: Клещев А.С. Математические модели онтологий предметных областей. Часть 1.
Существующие подходы к определению понятия «онтология»./ А.С. Клещев, И.Л. Артемьева. – Научно–
техническая информация, Серия 2. «Информационные процессы и системы», 2001. – № 2. – С. 20-27.
Лазаренко 2002: Лазаренко О.В. Классификация понятий в системе автоматического реферирования /
О.В. Лазаренко //Wiek XXI. – THE 21st CENTURE.– Варшава, PWSBiA, 2002. – № 4(6) – С.189-196.
Ландэ 2005: Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа / Д.В. Ландэ. Пер. с англ. –
М.: Издательский дом «Вильямс», 2005. – 272 с.
Тан 2001: Тан И Цзе. Цифровые агенты меняют мир программ / И Цзе Тан // Computerworld. – 2001. –
№ 43. – Способ доступа: http://www.osp.ru/cw/2001/43/038_1.htm.
Graham 2002: Graham P. A Plan for SPAM / P. Graham. – 2002. – Способ доступа:
http://www.paulgraham.com/spam.html.
Lenat 1995: Lenat D.B. CYC: a large-scale investment in knowledge infrastructure / D.B. Lenat //
Communications of the ACM 38. – 1995. – N°11. – Способ доступа: http://www.cyc.com.
Lyman 2003: Lyman P., Varian Hal R. How much information? / P. Lyman, Hal R. Varian. – 2003. –
http://www.sims.berkeley.edu/research/projects/how-much-info-2003/printable_report.pdf.
Salton 1975: Salton G. A Vector Space Model for Automatic Indexing / G. Salton, A. Wong, C. Yang //
Communications of the ACM, 1975. – 18 (11). – P. 613-620.
TOVE 1999: TOVE Manual. – Department of Industrial Engineering, University of Toronto. – Toronto, 1999. –
Способ доступа: http://www.ie/utoronto.ca/EIL/tove.
Van der Vet 1994: Van der Vet P.E. The Plinius Ontology of Ceramic Materials / P.E. Van der Vet, N.J. Mars,
P.H. Speel // ECAI’94. – Amsterdam, 1994.

The article addresses the problems of modeling automatic summarization processes by way of using ontologies.
Types of ontologies and the ontological knowledge representation model of automatic text summarization are given.
The notion of ontology in introduced specification is provided. The ontology development by means of OWL is
described.
Keywords: information technologies, intellectual systems, knowledge bases, knowledge presenting models,
summarization, ontology.
Надійшла до редакції 20 жовтня 2008 року.

Категорія: Лінгвістичні студії: Збірник наукових праць.

Літературне місто - Онлайн-бібліотека української літератури. Освітній онлайн-ресурс.