Индексация текстовых документов

Стр 1 из 4Следующая ⇒

Содержание

ВВЕДЕНИЕ 3

1 ИДЕКСАЦИЯ ТЕКСТОВЫХ ДОКУМЕНТОВ 4

2 КОНТЕКСТНАЯ КАТЕГОРИЗАЦИЯ 7

2.1 Результаты экспериментов 8

3 Ассоциативная память 11

3.1 Примеры приложений 14

ЗАКЛЮЧЕНИЕ 18

Список использованных источников 19

Введение

Традиционные методы поиска и фильтрации информации были разработаны для библиотечных баз данных, то есть для информационных ресурсов ограниченного объема и заранее известной структуры. Создание глобальной сети и выход Web за рамки интересов научного сообщества привели к тому, что число поставщиков информации стало стремительно расти, при том, что публикуемая ими информация не имела однородной структуры. Последовавший информационный взрыв стал вызовом стандартным информационным технологиям. Новые масштабы с одной стороны сделали аутсайдерами некоторые ранее конкурентоспособные интеллектуальные технологии, а с другой — стимулировали интенсивные исследования в области лингвистических и вероятностных методов обработки текстовой информации и новых методов навигации в неоднородном информационном море. В данном докладе будет рассказано о современных поисковых технологиях Интернет, а также приведены результаты работы демонстрационной ассоциативной поисковой системы.

Индексация текстовых документов

Реальные поисковые системы на Web не хранят оригинальные тексты документов, используя вместо них индексы — специальное представление документов, удобное для быстрого поиска. Способ построения индексов — индексирование — существенно варьируется от одной поисковой системы к другой и в конечном счете определяет отличия известных поисковых серверов друг от друга [1].

Однако, несмотря на их многообразие, все существующие способы индексирования можно разбить на два класса — лексическое индексирование и векторное индексирование. Лексическое индексирование предназначено для оптимизации булевых запросов, в то время как векторное индексирование позволяет делать запросы по подобию. По существу, это две совершенно разных парадигмы индексирования. Единственное, что объединяет их — это предварительный этап построения «инвертированного индекса» — матрицы вхождения слов в документы. Последующая обработка этой матрицы и является спецификой метода индексирования.

Наиболее старым и уже традиционным является лексическое индексирование. За время своего существования оно почти достигло совершенства в области поиска по ключевым словам и целым фразам. Развитые поисковые лексические системы используют стоп-листы, грамматические словоформы и расширенный язык запросов. Используются возможности задавать близость данных слов в тексте (проксимити) и близость слова к началу текста. Многим системам добавляют интеллектуальность за счет вручную построенных тезаурусов. Можно определенно сказать, что нынешние возможности систем лексического поиска вполне удовлетворяют запросам экспертов, интересующихся информацией в какой-нибудь узкой области.

Однако, для большинства пользователей поисковых систем на Web эффективность лексического поиска выглядит крайне неудовлетворительной. Причин здесь две. Первая состоит в том, что для рядового пользователя Internet булева алгебра воспринимается как высшая математика и ему не запутаться в логике отрицаний и конъюнкций довольно трудно. Вторая причина кроется в том, что обычному пользователю, в отличие от «эксперта», трудно сформулировать свой запрос на языке ключевых слов предметной области, особенно если в этой предметной области нет устоявшейся или регламентированной терминологии. Кроме того, при попытке выйти за рамки узкой предметной области, сразу остро встают проблемы синонимии и полисемии (одинаковые слова с разным смыслом).

В связи с проблемами синонимии и полисемии была осознана важность контекста. Вопросы представления контекста исследовались в разных подходах: статистических, лингвистических, концептуальных, — но ощутимые практические результаты были получены с использованием статистических методов.

В конце 80-х годов в работах Салтона [2] была предложена векторная модель как альтернатива лексическому бесконтекстному индексированию. В простейшей векторной модели каждому документу сопоставляется частотный спектр слов и соответственно вектор в лексическом пространстве. В процессе поиска частотный портрет запроса рассматривался как вектор в том же пространстве и по степени близости (расстоянию или углу между векторами) определялись наиболее релевантные документы.

В более продвинутых векторных моделях размерность пространства обычно сокращают отбрасыванием очень распространенных и очень редких слов, увеличивая тем самым процент значимых слов. Кроме того, при построении вектора документа частоты слов модифицируются специальными весовыми коэффициентами, учитывающими долю в общей коллекции документов, содержащих данное слово.

Наиболее привлекательной стороной векторной модели является возможность поиска и ранжирования документов по подобию — их близости в векторном пространстве. Однако, результаты не всегда впечатляют при оценке близости запроса к документу, особенно когда запрос содержит мало слов. С целью подавить словесный шум и добиться лучшей релевантности отклика в 1990 году была предложена модель скрытого семантического индексирования [4] — Latent Semantic Indexing (LSI). Модель использовала singular value decomposition (SVD) для перехода от разреженной матрицы слов к компактной матрице главных собственных значений [5].

LSI показала значительное превосходство в результатах поиска [6] по сравнению с лексическим методом, однако сложность модели часто приводила к существенному проигрышу в скорости на больших коллекциях по сравнению с традиционной булевой техникой. Возможно, наиболее работоспособная система на основе LSI была создана в Беркли в 1995 году Майклом Берри и Тодом Летче [7].

12 3 4 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.