Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Эволюция поисковых систем и факторов ранжирования






Эволюция не играет дважды в одну и ту же игру.


Первая поисковая система Wandex была разработана в 1993 году. На то время в сети было немного сайтов, поэтому алгоритм поиска был весьма прост, в результате выдавались все документы, содержащие искомую фразу. После были разработаны ещё несколько поисковых систем, WebCrawler и Lycos, алгоритмы которых были немного совершенней и учитывали, в основном, текстовые факторы документов. В конце 90-ых было достаточно, чтобы текст страницы содержал ключевые слова.

После появления Google в 98-ом в алгоритмах появился ссылочный фактор, используемый в различных моделях информационного поиска. Теперь текстовой релевантности стало недостаточно, необходимо было получить также ссылочную релевантность и PageRank, что повлекло за собой, впоследствии, волну ссылочного спама в разных его проявлениях, который мы можем наблюдать и по сей день.

 

 

Информационный поиск в Веб. Основные задачи. Компоненты информационно-поисковой системы Веб. Сбор документов из сети.

• По методам поиска и обслуживания разделяют четыре типа поисковых систем: системы, использующиепоисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы[⇨ ]. В архитектуру поисковой системы обычно входят:

· поисковый робот, собирающий информацию с сайтов сети Интернет или из других документов,

· индексатор, обеспечивающий быстрый поиск по накопленной информации, и

· поисковик — графический интерфейс для работы пользователя[⇨ ].

 

 

Информационный поиск в Веб. Индексирование документа. Преобразование полнотекстового документа в набор индексных терминов. Использование текста входящих гиперссылок. Выполнение запросов.

Поиско́ вый и́ ндекс — структура данных, которая содержит информацию о документах и используется в поисковых системах. Индекси́ рование [⇨ ], совершаемоепоисковой машиной, — процесс сбора, сортировки и хранения данных с целью обеспечить быстрый и точный поиск информации. Создание индекса включает междисциплинарные понятия из лингвистики, когнитивной психологии, математики, информатики и физики. Веб-индексированием называют процесс индексирования в контексте поисковых машин, разработанных, чтобы искать веб-страницы в Интернете.

Популярные поисковые машины сосредотачиваются на полнотекстовой индексации документов, написанных на естественных языках[1][⇨ ]. Мультимедийные документы, такие как видео и аудио[2] и графика[3][4], также могут участвовать в поиске.

Метапоисковые машины используют индексы других поисковых сервисов и не хранят локальный индекс, в то время как поисковые машины, основанные на кешированных страницах, долго хранят как индекс, так и текстовые корпусы. В отличие от полнотекстовых индексов, частично-текстовые сервисы ограничивают глубину индексации, чтобы уменьшить размер индекса. Большие сервисы, как правило, выполняют индексацию в заданном временно́ м интервале из-за необходимого времени и затрат на обработку, в то время как поисковые машины, основанные на агентах, строят индекс в масштабе реального времени.

 

Синтаксический анализ (или парсинг) документа предполагает разбор документа на компоненты (слова) для вставки в прямой и инвертированный индексы. Найденные слова называют токенами (англ. token), и в контексте индексации поисковых систем и обработки естественного языка парсинг часто называют токенизацией (то есть разбиением на токены). Синтаксический анализ иногда называют частеречной разметкой, морфологическим анализом, контент-анализом, текстовым анализом, анализом текста, генерацией согласования, сегментацией речи, лексическим анализом. Термины «индексация», «парсинг» и «токенизация» взаимозаменяемы в корпоративном сленге.

Обработка естественного языка постоянно исследуется и улучшается. Токенизация имеет проблемы с извлечением необходимой информации из документов для индексации, чтобы поддерживать качественный поиск. Токенизация для индексации включает в себя несколько технологий, реализация которых может бытькоммерческой тайной.

 

Запрос — это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов, синтаксис варьируется от системы к системе. Кроме специального языка запросов, современные поисковые системы позволяют вводить запрос на естественном языке.

Объект запроса — это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другоймультимедиа информации. Процесс занесения объектов поиска в ИПС называется индексацией. Далеко не всегда ИПС хранит точную копию объекта, нередко вместо неё хранится суррогат.

 

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.