Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Поиск информации в сети Интернет






Объем хранящейся в Интернете информации чрезвычайно велик и оценивается десятками террабайт. На серверах сети хранится более 2 миллиардов Web-страниц. Пользователи разыскивают в Интернете не только текстовые документы, новости, но и фото-, аудио-, видеоматериалы, товары, услуги, вакантные места работы.

Поиск информации в сети можно вести с помощью поисковых систем (ПС) и каталогов. Мощные поисковые системы и каталоги являются сложными техническими комплексами, содержащими десятки быстродействующих компьютеров, обслуживание которых ведут сотни специалистов. Вначале рассмотрим принцип действия ПС, а затем — каталогов.

Поисковые системы иначе называют: поисковыми средствами, поисковыми машинами, автоматическими индексами. Эквивалентными иностранными терминами являются: английский — Search Engines, немецкий — Suchmaschinen, французский — Le systeme de prospection. На жаргоне сети ПС иногда называют искалками, поисковиками.

Работа ПС основывается на формировании запроса, по которому происходит отбор нужных документов из распределенной базы данных, хранящейся на серверах в Интернете. Запрос формируется с помощью ключевых слов (одного или нескольких). Результаты поиска выдаются пользователю в виде списка адресов (гиперссылок) и краткой аннотации к ним.

Ключевое слово — это лексическая единица, являющаяся существительным, прилагательным, глаголом, числительным, наречием или местоимением естественного языка, которая в наибольшей степени отражает содержание всего искомого документа. При формировании запроса могут использоваться не только отдельные ключевые слова, но и словосочетания, состоящие из нескольких ключевых слов.

Запрос — это набор соединенных операторами ключевых слов, с помощью которых поисковая система автоматически ведет поиск и отбор необходимых документов. Другими словами, запрос — это инструкция (команда) для ПС на поиск нужных документов.

Запросы бывают двух типов: простые и сложные (или расширенные, advanced).

Простые запросы состоят из отдельных ключевых слов или словосочетаний. Сложные запросы, кроме ключевых слов, содержат логические и другие операторы.

Поиск — это процедура отбора нужных документов, хранящихся в сети.

 

Поиск осуществляется либо автоматически с помощью ключевых слов, вводимых в ПС, либо путем последовательного ручного прохода по рубрикам в каталогах.

Поиск с помощью ключевых слов сводится к их вводу (формированию запроса) в специальное поле Поиск и последующему нажатию кнопки Найти. Кнопка Найти в разных ПС может называться Search, Find, Go, Go Get it, Suchen.

На рисунке приведены фрагменты трех поисковых систем с изображением полей для ввода запросов и командных кнопок.

 

 

Для ускорения процедуры поиска ПС производит обработку хранящихся в сети документов — индексацию.

Индексация – это процедура автоматического создания базы данных, в которой хранятся ключевые слова, аннотации документов и доменные адреса, по которым размещены эти документы. В базе данных каждому документу ставится в соответствие свой набор ключевых слов и доменных адресов.

Когда идет обслуживание конкретного запроса на поиск нужной информации, то ПС сравнивает ключевые слова, введенные пользователем, с ключевыми словами, полученными в процессе индексации и хранящимися в базе данных ПС. При совпадении этих слов пользователю выдается доменный адрес данного документа, т. е. указывается место его хранения в сети.

Процедура поиска по ключевым словам очень напоминает работу с обычной книгой, в которой есть алфавитный указатель. Читатель с помощью алфавитного указателя определяет номера страниц книги, на которых присутствует нужное ключевое слово. Этим ускоряется поиск нужной информации. В данном случае номер страницы книги — это как бы доменный адрес Web-страницы.

Индексация документов, размещенных на различных серверах, производится поисковыми системами автоматически с помощью специальных программ — роботов (Robots). Другие названия этих программ — пауки (Spiders) или черви (Worms).

Робот (паук, червь) — программа, которая автоматически периодически «посещает» сайты и индексирует их (т. е. собирает сведения о их содержимом и местоположении).

Назначение роботов очевидно: эти программы постоянно «осматривают», сканируют сеть, запоминают, что где лежит, чтобы в нужный момент времени показать пользователю точное место хранения документа (т. е. его доменный адрес). Этим объясняется потрясающе высокая скорость поиска нужной информации. Фактически роботы начинают поиск задолго до обслуживания конкретного запроса.

Тенденция развития ПС такова, что наиболее быстродействующие ПС стремятся произвести индексацию всего документа, а не только его названия и первых предложений текста. Наиболее совершенные роботы при индексации сканируют не только главную (домашнюю) страницу, но и по гиперссылкам заходят вглубь сайта (узла). Ограничивается такая идеалистическая картина индексации лишь низкой скоростью работы современных ПС и общим быстродействием всей сети.

Предварительная индексация хранящихся в сети документов позволяет впоследствии за несколько секунд обслуживания запроса обработать (отсортировать) гигабайты разнообразной информации.

С помощью механизма предварительной индексации можно получить хороший результат поиска в случаях, когда удается точно сформировать запрос с помощью небольшого числа ключевых слов. В иных случаях пользователь либо получит большое число ссылок (иногда говорят, линков, т. е. связей), которые являются лишь «информационным шумом», либо вовсе не удастся найти необходимый документ.

Значительно повышают избирательность поиска фильтры, которыми снабжаются поисковые системы.

Фильтры позволяют:

— ограничить список отбираемых документов с помощью логических операторов (выполнить так называемый сложный поиск);

— ограничить пространство поиска типом протокола, с помощью которого был создан документ (поиск на Web-сайтах или в телеконференциях);

— ограничить отбираемый материал временным отрезком, определенными датами создания разыскиваемого документа (например, между 31 июля 2002 г. и 19 апреля 2003 г.);

— отобрать документы, составленные только на определенном языке (русский, английский);

— ограничить отбор документов территорией размещения серверов (например, только Европа);

— ограничить поиск определенной частью документа (заголовок, доменный адрес);

— отобрать документы, которые содержат фразу с заданным порядком расположения ключевых слов.

Поиск русских документов в сети дополнительно осложняется особенностями национальной грамматики. В русском языке (в отличие от английского языка) необходимо учитывать падежные окончания ключевых слов.

Наибольшей популярностью в русскоязычной части Интернета пользуются поисковые системы Rambler (произносится Ремблер, а переводится как бродяга, праздношатающийся, его адрес www.rambler.ru), Апорт (www.aport.ru) и Яndex (www.yandex.ru).

Русскоязычные ПС позволяют отбрасывать окончания ключевых слов и заменять их метасимволами «*» и «?». При этом на запрос «самар*» будут найдены документы, содержащие слова: Самара, Самары, самарский, самарская и т. п.

Поисковая система Aport использует принципы искусственного интеллекта. Она обрабатывает запрос таким образом, что подбирает синонимы введенным ключевым словам и автоматически решает проблему падежных окончаний.

При поиске информации ПС может делать две ошибки: пропускать (не отбирать) нужные пользователю документы и, наоборот, отбирать (присылать) посторонние документы (мусор, информационный шум). Эти ошибки, совершаемые автоматическими ПС, описываются терминами «избирательность» и «чувствительность».

Заметим, что в приведенной фразе есть некоторая терминологическая неточность: ПС отбирают не документы, а лишь гиперссылки на них. С помощью полученных ссылок пользователь просматривает или загружает на собственный компьютер понравившийся ему документ. Однако методически удобнее говорить о несоответствии запросу документа, а не гиперссылки.

Служба World Wide Web (WWW) — это единое информационное пространство, состоящее из сотен мил­лионов взаимосвязанных электронных документов.

Отдельные документы, составляющие пространство Web, называют Web-страницами.

Группы тематически объединенных Web-страниц называют Web-узлами (сайтами).

Программы для просмотра Web-страниц называют броузерами (обозревателями).

Адресация в сети:

IP - адрес DNS - адрес.

IP - адрес состоит из четырех блоков цифр, разделенных точками. Он может иметь такой вид: 32.87.56.5

DNS – адрес:

https://www.yandex.ru

http - протокол передачи данных

www – сервер находится на WWW

yandex – название сервера

ru - сервер находится России

Часть адреса, разделенная точками называется доменом.

Веб-страница – это текстовый файл, написанный на языке HTML.

Сайт- это совокупность объединенных общим содержанием веб-страниц, размещенная на каком-либо сервере WWW под определенным именем и реализующая виртуальное представительство организации или отдельного человека в Интернете.

Гиперссылка - фрагмент текста, который является указателем на другой файл или объект. Гиперссылки позволяют переходить от одного документа к другому.

Фрейм - область гипертекстового документа со своими полосами прокрутки.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.