Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Охарактеризуйте назначение основных видов хранения информации.






В соответствии с Федеральным законом «Об информации, информатизации и защите информации» от 20.02.95 № 24-ФЗ (с послед, измен. и дополн.) под термином «информация» понимаются сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от формы их представления. Специалисты в области теории познания утверждают, что человек познает реальный мир через объекты, свойства и отношения. Лица, предметы, факты, события, явления и процессы являются классами объектов.

Предметная область — это классы объектов, информация о которых необходима в данном виде деятельности человека. В каждой предметной области потребителей интересуют четко определенный перечень свойств и глубина описания этих свойств. Очевидно, что перечни интересующих потребителя свойств о ли­це в экономике и в медицине будут различны.

Информация о предметной области, т. е. информация об объектах и их связях, может быть представлена в формализованном виде и в виде текста на естественном языке.

формализованное описание конкретного объекта включает имя свойства (характеристики) и значение этого свойства для данного объекта. Имя свойства отражает ту грамматическую роль, кото­рую играет это свойство по отношению к данному классу объектов. Значение свойства (характеристики) может задаваться нор­мированным словарем или произвольно.

Например, значение свойства «организационно-правовая форма фирмы, организации» должно выбираться из нормированного словаря, а значение свойства «название организации» является произвольным.

Формализованное описание объекта во многом схоже с анкетной формой описания объекта. Некоторые авторы называют формализованное описание информации числовым. Это не совсем точное определение, так как фамилия лица или название организации задается не числовым значением, но может быть представлено в формализованном виде.

Названия классов объектов, свойств и областей возможных значений этих свойств (характеристик), т. е. язык формализованного описания для каждой предметной области, разрабатывают квалифицированные специалисты данного вида деятельности. С помощью отдельных свойств устанавливаются связи между объектами.

Так, например, если описаны два объекта, фирма и товар, то между ними устанавливается связь — отношение, указывающее, что данная фирма выпускает этот товар. Описание такого формализованного языка после согласования с источниками и потребителями информации в данной предметной области издается в виде нормативного документа, и на основе его создаются базы данных формализованной информации.

Описание информации в таких базах в максимальной степени приближено к представлению специалиста о предметной области, в которой он работает. Формализованный язык описания предметной области выполняет следующие основные функции:

• позволяет источнику отбирать лишь ту информацию и описывать ее так, как это необходимо потребителю;

• обеспечивает представление информации в базах данных в том же виде, в каком она отражена в сознании специалиста данной предметной области;

• дает возможность в информационных системах по указанию потребителя проводить автоматическую обработку формализованной информации;

• существенно облегчает поиск необходимой информации в базах данных.

Другим видом информации о предметной области является информация, представленная в виде текста на естественном языке. Для того чтобы понять, в какой степени информация на естественном языке, накапливаемая в информационных системах, подходит для удовлетворения информационных потребностей пользователя, рассмотрим в самых общих чертах природу восприятия человеком реальной действительности и отображение этой действительности на естественном языке. Индивидуальное знание предметной области источником и потребителем информации складывается из совокупности представлений и понятий.

Представления - это чувственно наглядные образы объектов реального мира. Источником формирования представлений являются психологические процессы ощущения и восприятия, а также информация, получаемая от других членов общества в про­цессе общения. В результате создаются представления об объектах реального мира. Представления носят субъективный характер, который определяется внутренним психологическим миром данного человека. Хотя у разных людей создаются разные пред­ставления о реальном мире, в них присутствует элемент общности, который позволяет использовать представления в процессе общения.

Понятия образуются в результате логического осмысления представлений об объектах реального мира и являются формой абстрактного мышления, отражающей и фиксирующей существенные признаки данных объектов. Понятия более объективны и в большей степени отражают коллективный опыт. Понятия и представления тесно связаны друг с другом и являются формой отражения реальной действительности в мышлении.

Язык — это средство, с помощью которого люди передают друг другу информацию о реальном мире. Словарные выражения являются материальной формой понятий и представлений. Естественный язык сформировался в результате длительного развития общества.

Поскольку для различных слоев общества характерна разная степень общности представлений, возникла многозначность слов естественного языка: одно и то же слово приобретало множество различных значений и для одного и того же значения использовалось несколько словесных выражений. Таким образом, общими недостатками естественного языка в аспекте оценки эффективности поиска являются избыточность и недостаточность.

Избыточность проявляется в следующем:

• активную роль в процессе передачи содержания текста играют только некоторые слова или словосочетания, так называемые ключевые слова. Другие можно отбросить практически без ущерба для понимания смысла;

• в естественном языке используются синонимы, т. е. слова, различающиеся по звучанию и написанию, но тождественные или близкие по смыслу;

• имеет место неоднозначность выражения, т. е. возможность выразить одну и ту же мысль словами, не являющимися синонимами (например, «уменьшение сопротивления» — «увеличение проводимости»).

Недостаточность выражения на естественном языке определяют следующие свойства:

• многозначность отдельных слов — омонимия (совпадение по звучанию и написанию разных по значению слов). Например, «ключ» (для двери), «ключ» (источник);

• эллипсность естественного языка — пропуск в тексте подразумеваемых слов.

Если рассматривать процесс отражения объектов реального мира текстом на естественном языке, то в нем можно выделить план содержания — смысл сообщения, т. е. результат процесса мышления, и план выражения — произвольный текст на естественном языке. Таким образом, тексты на естественном языке, хранящиеся в информационных системах, находятся на уровне плана выражения и характеризуются всеми недостатками естественного языка, которые были отмечены выше.

Следует иметь в виду, что выявленные недостатки следует рассматривать лишь в аспекте эффективного поиска сообщений в информационных системах. Причина неоднозначности выражений, например эллипсность, при рассмотрении под другим углом будет отнесена к достоинствам естественного языка.

Отметим, что потребитель информации, пользователь нуждается в получении информации о предметной области в соответствии со своими представлениями об объектах, свойствах и отношениях в этой области. Свой запрос он также формулирует на уровне плана выражения.

Таким образом, в самой информационной системе, содержащей тексты на естественном языке, мы имеем массив планов выражения источников на естественном языке, а на входе информационной системы имеем множество запросов в виде планов выражения, сформулированных потребителями информации.

Для того чтобы решить задачу поиска необходимой потребителю информации, нужно представить (смоделировать), о каком фрагменте предметной области потребитель хочет получить информацию. Далее следует просмотреть хранящиеся документы – планы выражения, составленные источниками, представить (смоделировать), что хотел сказать источник о предметной области, и на основе научно обоснованной методики отобрать те из до­кументов, которые отвечают на поставленный вопрос полностью или частично.

Работы в области машинного перевода и теории построения документальных информационных систем, проводимые в течение последних 50 лет в нашей стране и за рубежом, показали, что процесс выявления смысла произвольного текста на естественном языке не подлежит автоматизации и может быть реализован лишь человеком, обладающим глубокими знаниями в данной предметной области.

Однако общество нуждалось в построении документальных информационных систем, в первую очередь в области научно-технической информации. Для того чтобы облегчить поиск в больших массивах текстовой информации, стали строить информационно-поисковые системы, в которых документы описывались с помощью специальных поисковых языков.

С помощью элементов этих же языков описывались и запросы. Для отбора документов в ответ на запрос осуществлялось сравнение поисковых образов запросов и поисковых образов документов, которое проводилось на одном и том же искусственном языке. Такой подход является вынужденным.

Из-за недостатков естественного языка, отмеченных выше, документальные информационные системы не дают ответа на вопрос потребителя, а выдают ему документы, в которых может содержаться ответ на его запрос, предоставляя потребителю самому выявить смысловое содержание этих документов. Вопросы оценки эффективности поиска информации в документальных информационных системах будут рассмотрены ниже.

Одними из наиболее важных показателей эффективности информационных систем, содержащих текстовую информацию, являются семантические показатели, основанные на оценке релевантности между документами и запросами.

Релевантность — объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса.

Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум):

полнота выдачи (ПВ) = а/а+в× 100;

точность выдачи (ТВ) = а/а+б× 100;

потери информации (ПИ) = в/а+в× 100;

информационный шум (ИШ)=б/а+б× 100,

где а – множество релевантных и выданных системой документов;

б — множество нерелевантных, но выданных системой документов;

в – множество релевантных, но не выданных системой документов.

Другой группой показателей оценки эффективности документальных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы.

Прагматические показатели определяют абоненты системы на базе оценок пертинентиости выданных документов. Пертинентность — это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пертинентиости, как правило, отличаются от результатов, полученных на основе оценок релевантности.

Рассмотрим вопросы оценки эффективности поиска в про­фессиональных базах и информационных ресурсах Интернета.

Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации в профессиональных базах. Если в 1985 г. доля текстовой информации составляла 47 %, то в 2000 г. она составляла уже 84%. Представляется, что основная информация в Интернете также является текстовой. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распро­страняются и на профессиональные базы, и на информационные ресурсы Интернета.

Информационные ресурсы Интернета и имеющиеся в среде Интернета поисковые средства обладают определенной спецификой, которая оказывает существенное влияние на эффективность поиска в этой среде.

Основными поисковыми средствами в Интернете являются поисковые системы и каталоги.

В поисковых системах имеются три части:

• робот — программа, которая посещает веб-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Просмотры серверов осуществляются периодически, например раз в месяц, раз в две недели;

• индексные массивы и копии текстов просмотренных страниц, хранящиеся в поисковой системе;

•программа, которая, просматривая в соответствии с запросом пользователя индексные массивы, отбирает и выдает потребителю найденные документы.

Каталоги содержат иерархические тематические рубрики. Отнесение серверов к тем или иным рубрикам каталога осуществляется человеком. Пользователь ищет информацию в каталоге вручную, используя рубрики.

В связи с тем, что в средствах поиска в Интернете не используются информационно-поисковые языки, на которых могли бы быть описаны исходные документы и запросы, полнота поиска в Интернете с учетом указанных выше поисковых средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков.

В 2000 г. специалисты компаний «AltaVista», «IBM» и «Compag» исследовали ресурсы и гиперсвязи существующего информационного пространства WWW. Просмотрев с помощью по­исковых средств «AltaVista» свыше 600 млн веб-страниц и 1, 5 млрд ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство включает следующие компоненты:

• центральное ядро — тесно связанные между собой веб-страницы, с каждой из которых можно попасть на любую другую (27%);

• отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22%);

• оконечные веб-страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22%);

• полностью изолированные от центрального ядра страницы (22 %);

• веб-страницы, не пересекающиеся с остальными ресурсами Интернета (7%).

Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними. Проведенный анализ позволяет сделать вывод о том, что информационное пространство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины не имеют Доступа.

У каждой поисковой машины свой процент индексирования документов и своя стратегия выбора — какие из ресурсов индексировать. Анализ доли документов, заиндексированных крупнейшими зарубежными поисковыми системами, от общего числа документов в Интернете, проведенный в 1999 г., показал, что доля заиндексированных документов у лидеров в этой области не превышает 30 %. Следует отметить, что количество документов в Интернете значительно увеличивается с каждым годом, при этом доля просмотренных и заиндексированных документов уменьшается.

Информационные ресурсы Интернета делятся на «видимую» и «невидимую» часть сайтов.

«Видимая» часть сайтов — это та часть, которая обрабатывается поисковыми системами и индексируется. «Невидимая» — часть сайта, которая не предназначена для обработки поисковыми сис­темами. Американская фирма «BrightPlanet» разработала програ­ммное обеспечение по исследованию «невидимой» части сайтов. Полученные результаты показывают, что число документов «не­видимой» части более чем в 500 раз превышает число документов, относящихся к «видимой» части.

Перечисленные особенности информационных ресурсов Ин­тернета и поисковых средств позволяют сделать вывод о том, что эффективность поиска информации в Интернете существенно уступает эффективности поиска в документальных информаци­онно-поисковых системах, использующих специальные инфор­мационно-поисковые языки, и эффективности поиска в профес­сиональных базах.

Эти обстоятельства определяют высокие требования к про­фессиональной подготовке пользователя, которая необходима для получения нужной информации из информационных ресур­сов Интернета.

Организация информации в профессиональных базах отлича­ется от организации информации в Интернете в первую очередь тем, что информация накапливается и постоянно обновляется в базах данных. В каждой базе накапливается специфичная инфор­мация. Отбор достоверных источников и накопление информа­ции ведут информационные агентства-генераторы. Они же под­держивают эти базы в актуальном состоянии, т. е. обновляют.

Агентства-поставщики предлагают информацию из баз пот­ребителям, которым предоставляются язык запроса и документа­ция, включающая следующие сведения по каждой базе: назва­ние, отражающее вид информации, хранимой в базе, с какого времени ведется база, объем накопленной информации, период обновления, источники предоставления информации.

Такая организация баз данных обеспечивает высокие показа­тели по достоверности, полноте и точности предоставляемой ин­формации.

Наилучший вариант работы с информационными ресурсами Интернета — это когда пользователь знает адрес сайта и получает возможность ознакомиться с его содержимым. Адрес сайта может быть получен из различных справочников, например желтых страниц Интернета, рекламных материалов и других источников. На сайт можно прийти по гиперссылкам, просматривая другие сайты.

Опытный специалист в области информации всегда будет иметь список, каталог адресов самых важных для ведения бизне­са фирмы сайтов. В этом случае необходимо будет лишь отслежи­вать появление новых сайтов, информация в которых может представлять интерес.

Если пользователь исследует новую проблему в бизнесе, ищет информацию среди ресурсов, которые он еще не освоил, одним из основных методов является использование поисковых систем и каталогов. В этом случае может быть предложена следующая технология подготовки и проведения поиска.

1.Определение общей направленности запроса, его содержа­ния.

2.Определение географических регионов поиска. В первую очередь для практических задач ценность информационного ре­сурса может зависеть от его географического расположения.

3.Отбор поисковых систем и установление последователь­ности использования поисковых машин в соответствии с убыва­нием ожидаемой эффективности поиска в каждой из машин. Ка­чество выполнения этого этапа будет зависеть от опыта работы пользователя с поисковыми машинами.

4.Составление запросов к поисковым системам. Это наиболее сложный этап. Для эффективного использования поисковых машин запрос должен быть составлен так, чтобы область поиска была сужена в максимальной степени. Предпочтение должно от­даваться не одному расширенному, а нескольким узким запро­сам. Необходимо смоделировать, представить себе, как может выглядеть искомая информация. По ключевым словам нужно составить тезаурус. Для этого необходимо хорошее знание языка на котором работает пользователь, и специфических терминов предметной области.

5. Выполнение запроса и его уточнение. Составленный зап­рос передается на обработку. Анализ полученных результатов позволяет корректировать запрос, чаще всего для сужения облас­ти поиска.

Поиск деловой информации в Интернете — творческий про­цесс, требующий глубоких знаний в области информатики, линг­вистики, принципов построения информационных и поисковых ресурсов Интернета.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.