Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






EuroWordNet






Ресурс WordNet, разработанный для английского языка, вызвал в мире огромный интерес к разработке такого рода ресурсов для десятков других языков.

Создание ворднетов для разных языков в рамках проекта EuroWordNet включает два этапа. На первом этапе (1996-1999) ворднеты создавались для голландского, испанского и итальянского языков. На втором - для французского, чешского, немецкого и эстонского языков.

В проекте стоял серьезный выбор: нужно ли стремиться к разработке языково-независимой структуры, с которой необходимо сопоставить единицы каждого языка, или, может быть, нужно иметь единую систему синсетов - новая единица в иерархической сети может быть включена, если хотя бы один язык из рассматриваемых имеет лексему или устойчивый оборот с таким значением.

По принятому в проекте решению каждый ворднет должен сохранять специфику своего языка. При этом каждый ворднет должен содержать отсылки на значения английского ворднета, что позволяет сравнивать ворднеты, обнаруживать непоследовательности в их построении и видеть различия в устройстве языковых систем.

Одновременно в рамках проекта была создана небольшая онтология верхнего уровня, к которой должен быть приписан каждый создаваемый ворднет.

Авторы проекта EuroWordNet подчеркивают различие между ресурсом класса wordnet как лингвистическими онтологиями и формальными онтологиями. Лингвистическая онтология должна отражать отношения между лексикализованными словами и выражениями языка, например, описывать, какие слова могут использоваться, чтобы заменить в тексте слово spoon (ложка) - object, tableware, silverware, merchandise, cutlery.

Таким образом, ворднеты - это сеть языково-специфичных лексикализованных единиц (в отличие от формальных онтологий, которые представляют собой структуру данных с формально определенными понятиями).

Основные предполагаемые применения ворднетов - это предсказание той или иной возможной замены лексических единиц в тексте для целей информационного поиска, генерации текстов, машинного перевода, разрешения лексической многозначности.

Учитывая сложности, которые возникали при применении ворднетов в приложениях, европейские разработчики предложили ряд существенных нововведений в структуре создаваемых ворднетов. Большой класс этих изменений касается описания отношений между синсетами, которые можно разделить на следующие группы:

· приписывание дополнительных атрибутов к существующим отношениям;

· введение отношений между различными частями речи;

· введение дополнительных отношений между словами (синсетами) одной части речи.

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.