Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Поисковые машины.






Задача поисковых машин – найти документы в Интернете в соответствии с запросом пользователя. Поисковая система (Search Engine) реализована в виде Web-страницы с обычным адресом, которая содержит, так называемую, строку для поиска и кнопку Поиск (Search), а также может содержать тематический каталог ресурсов, ссылки на популярные страницы и т. п. Поисковые системы состоят из трех основных частей.

Робот-паук-программа, которая систематически посещает веб-страницы, считывает и индексирует полностью или частично их содержимое и далее следует по найденным ссылкам. Полученная информация заносится в базу данных поисковой машины.

Поисковая база данных Индекс представляет собой гигантское хранилище, которое содержит определенным образом организованные данные: индексы, ссылки на веб-страницы и другую дополнительную информацию.

Поисковая программа, которая в соответствии с запросом пользователя перебирает индексы в поисках необходимой информации и выдает результаты поиска в виде ранжированного списка найденных веб-документов. Место документа в списке определяется тем, насколько полно тот или иной документ соответствует критериям, указанным в запросе пользователя.

Принципы работы паука, организации индекса, поисковой программы в поисковой машине, как правило, различаются. Поэтому запрос по одним и тем же выражениям в разных поисковых машинах обычно дает разные результаты.

Программа поиска отыскивает те страницы, которые соответствуют формальным требованиям запроса. Чтобы определить последовательность, в которой страницы будут представлены пользователю, применяется алгоритм ранжирования. Документы, наиболее полно соответствующие запросу пользователя, должны быть помещены первыми в списке результатов. Поисковые системы используют различные алгоритмы ранжирования, однако, основные критерии определения соответствия документа запросу следующие:

количество слов запроса в текстовом содержимом документа;

тэги, в которых эти слова располагаются;

местоположение искомых слов в документе;

удельный вес искомых слов в общем количестве слов документа;

время – как долго страница находится в базе поискового сервера;

индекс цитируемости – как много ссылок на данную страницу идет с других страниц, зарегистрированных в базе поисковой машины.

Однако эффективность работы поисковых машин ограничивается четырьмя существенными факторами.

топология Интернета такова, что поисковые машины могут просматривать не больше трети всех сайтов в Интернете. В 2000 г. специалисты компаний AltaVista и др. исследовали ресурсы и гиперсвязи существующего информационного пространства WWW. Просмотрев с помощью поисковых средств свыше 600 млн веб-страниц и 1, 5 млрд ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компонентов:

- центральное ядро – это тесно связанные между собой веб-страницы, с каждой из которых можно попасть на любую другую (27%);

отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22%);

конечные страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22%);

полностью изолированные от ядра страницы, имеющие ссылки либо на конечные веб-страницы, либо ссылки с отправных страниц (22%);

веб-страницы, не пересекающиеся с остальными ресурсами Интернета (7%).

Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними. Таким образом, информационное пространство интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины доступа не имеют.

Глубина индексирования веб-сайтов. Большинство поисковых машин индексирует только определенное количество документов на одном веб-сайте.

«Невидимый Интернет» (скрытый). «Видимая» часть сайтов – это та часть, которая обрабатывается поисковыми машинами и индексируется. «Невидимая» часть – та, которая не предназначена для обработки поисковыми системами (число документов «невидимой» части более чем в 500 раз превышает число документов «видимой» части). К невидимому Интернету относятся в первую очередь ресурсы, для доступа к которым требуется пароль или регистрация, профессиональные базы данных, а также различные форматы представления информации (только недавно поисковые машины начали индексировать информацию в PDF-формате).

Лидирующие позиции по количеству проиндексированных страниц занимают поисковые машины Google, AltaVista.

При работе с поисковыми машинами большое значение имеет язык запросов, так как единственным инструментов поиска становиться полнотекстовой поиск по ключевым словам. В большинстве поисковых систем доступен набор поисковых операторов. Наиболее распространены операторы реализующие логические условия AND, OR, NOT, NEAR. Символьно обозначения поисковых операторов и возможности их использования значительно различаются в поисковых машинах.

Список наиболее популярных поисковых систем

Название поисковой системы Адрес
Яndex (русскоязычная) https://www.yandex.ru
Rambler (русскоязычная) https://www.rambler.ru
Yahoo! (англоязычная) https://www.yahoo.com
AltaVista (англоязычная) http: //www.altavista.com

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.