Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Общие понятия. Для поиска информации в Интернете используют различные






Для поиска информации в Интернете используют различные

 

поисковые системы, которые еще называют поисковыми машинами.

 

Большинство этих программно-аппаратных комплексов осуществляют поиск веб-страниц. Однако существуют поисковики, способные находить

 

файлы на ftp-серверах, товары в интернет-магазинах,

информационные новости, и многое другое.

 

Программную часть поисковой машины, используя аналогию с автомобилем,

 

часто называют поисковым движком.

 

Кроме того, под поисковой машиной часто подразумевают веб-сайт, на котором

 

размещен пользовательский интерфейс поисковой системы.

Веб-поисковики

собирают сведения о размещенных в сети веб-страницах,

сохраняют их в своей базе данных

и выдают эту информацию пользователям при обработке их запросов.

Сбор информации в Интернет осуществляют специальные программы –

роботы или сокращенно боты,

которые в автоматическом режиме, используя интерфейс обычного

пользователя,

перебирают веб-страницы сайтов, анализируют их HTML код

и отправляют собранные сведения в базу данных поисковой системы.

Для минимизации времени поиска собранная ботами информация в базе данных индексируются. При этом индексироваться могут не только

слова или отдельные фразы текста, но и другие объекты веб-страниц.

 

Для повышения качества обслуживания некоторые поисковики обеспечивают так называемое кэширование информации, т.е. хранят в своей базе данных

 

целые фрагменты проанализированных веб-страниц.


 

2011. Кафедра Компьютерных Технологий ГУУ. Курс " Интернет Технологии". Лекция 4


Тема 4. Размещение и поиск информации в Интернете  

 

Для частичного управления процессом индексирования веб-страниц в Интернете на http-серверах размещают файлы robots.txt. Эти файлы содержат инструкции поисковым роботам, что, по мнению владельцев сайта, необходимо индексировать, а что нет.

Однако боты могут игнорировать эти инструкции. Поэтому полная защита от

индексации содержания сайта обеспечивается другими механизмами,

например,

установкой паролей на его страницах,

либо

требованием заполнить регистрационную форму перед тем, как

получить доступ к содержимому сайта.

Дляпротиводействияботам широко применяется КЭПТЧА (от англ.

CAPTCHA, Completely Automated Public Turing test to tell Computers and

Humans Apart), т.е. представление текста особым графическим образом, который легко читается человеком, но не распознается роботами.

Результатом       является список веб-страниц, соответствующих
поиска       запросу пользователя.
Как правило,       в этом списке присутствуют
   
заголовок документа,
его краткое резюме,

а иногда и часть содержания.

При этом порядок следования элементов в списке результатов поиска может определяться как самой поисковой системой, так и пользователем.

Основным критерием качества работы поисковой машины является

 

релевантность поиска, т.е.степень соответствия запроса пользователя, найденной по этому запросу информации.

 

Следует иметь в виду, что на оценку полезности поисковой системы помимо алгоритмов ранжирования результатов существенное влияние оказывают:

 

полнота информационной базы поисковика и время его отклика на запросы пользователя,

а также учет в запросах морфологии языка пользователя.

 

Например, в русском языке слова (с учетом падежей, единственного и множественного чисел и т.д.) могут иметь разные морфологические формы. Хорошая система должна учитывать эти особенности, т.е. поисковик

должен найти веб-страницу со словом, независимо от того, в какой морфологической форме оно записано в запросе.

Так, если в запросе используется слово “ проходили ”, то поисковик должен найти множество страниц, в том числе и те, в которых присутствует слово “ прошли ”. Причем, учитывая все морфологические формы слов, поисковик должен различать части речи. В частности,

 

существительное и прилагательное не должны рассматриваться как разные морфологические формы одного слова.


 

2011. Кафедра Компьютерных Технологий ГУУ. Курс " Интернет Технологии". Лекция 4


Тема 4. Размещение и поиск информации в Интернете  

 

В настоящее время несомненным лидером поисковых систем Интернета является поисковик корпорации Google. Отметим, что Google является

 

всеязычнной ” системой, т.е. Google собирает, индексирует и ищет веб-страницы практически на всех языках мира.

В отличие от Google большинство российских поисковиков, в том числе, самый популярный отечественный поисковик Яндекс, хотя и позволяют работать с многими языками, но в основном специализируются на более глубоком индексировании веб-страниц в доменных зонах с русскоязычными сайтами.

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.