Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Распознавание грамматических признаков словоформ (часть речи, падеж и т.п.).






Грамматические признаки, приписываемые в результате морфологического анализа, могут использоваться на дальнейших этапах обработки исходного текста.
Для анализа текста в системах АИ используются различные автоматические словари, которые можно разделит на два типа: 1) словари, используемые для распознавания словоформ и их нормализации (словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний). Словарь словосочетаний содержит устойчивые последовательности слов. Считается, что в развитом языке насчитывается десятки миллионов понятий, а слов — около миллиона. Поэтому большая часть понятий выражена комбинациями слов.2) информационно-поисковые тезаурусы, которые содержат информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отношениях между словами.
В некоторых системах АИ вместо словарей для нормализации слов используются алгоритмы, предназначенные для преобразования слов в различные грамматические формы. При этом исчезает необходимость заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе.
Сложность формальной обработки текста на ЕЯ состоит прежде всего в том, что текст нельзя представить как простую совокупность слов, имеющих тот или иной смысл. Большая доля смысла текста содержится не в самих словах, а в отношениях между словами. Поэтому для более полного и точного распознавания смысла текста в развитых системах АИ помимо морфологического анализа осуществляется и автоматический синтаксический анализ текста.
Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью установления синтаксических связей между членами предложения. В ходе синтаксического анализа используются результаты морфологического анализа. Основой для разработки методов синтаксического анализа систем АИ являются исследования в области математической лингвистики и опыт создания, систем машинного перевода.
Результаты синтаксического анализа текста обычно представляются в виде дереву отношений между словами с указанием их типов. Например, для русского языка различают до 50 типов отношений между словами.
В начале 90-х гг. появились другие, альтернативные технологии автоматического индексирования текста. Например, технология “адаптивного распознавания образов”, при которой каждая словоформа представляется в виде своего двоичного кода, который является ее “образом”. При этом становится возможен так называемый нечеткий поиск, при котором можно игнорировать опечатки и искажения слов.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.