Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Целостность реляционной БД






Важнейшим свойством базы данных является её целостность, которая понимается как правильность данных в любой момент времени.

Эта цель может быть достигнута лишь в определенных пределах: СУБД не может контролировать правильность каждого отдельного значения, вводимого в базу данных (хотя каждое значение можно проверить на правдоподобность). Например, нельзя обнаружить, что вводимое значение 5 (представляющее номер дня недели) в действительности должно быть равно 3. С другой стороны, значение 9 явно будет ошибочным и СУБД должна его отвергнуть. Однако для этого ей следует сообщить, что номера дней недели должны принадлежать набору (1, 2, 3, 4, 5, 6, 7).

Для реляционной БД выделяют три группы правил целостности:

1. Целостность по сущностям (не допускается, чтобы какой-либо атрибут, участвующий в первичном ключе, принимал неопределенное значение).

2. Целостность по ссылкам (значение внешнего ключа должно либо быть равным значению первичного ключа цели, либо быть полностью неопределенным, т.е. каждое значение атрибута, участвующего во внешнем ключе должно быть неопределенным).

3. Целостность, определяемая пользователем. Для любой конкретной базы данных существует ряд дополнительных специфических правил, которые относятся к ней одной и определяются разработчиком. Чаще всего контролируются: уникальность тех или иных атрибутов; диапазон значений (экзаменационная оценка от 2 до 5); принадлежность набору значений (пол " М" или " Ж").

Для того чтобы была обеспечена целостность по ссылкам, для каждого внешнего ключа необходимо решить три вопроса:

1. Может ли данный внешний ключ принимать неопределенные значения (NULL-значения)? Иначе говоря, может ли существовать некоторый экземпляр сущности данного типа, для которого неизвестна целевая сущность, указываемая внешним ключом?

В рассмотренном выше примере такая ситуация могла бы иметь смысл для внешнего ключа режиссер из таблицы фильмы (т.е. в таблицу занесен фильм, режиссер которого еще не занесен в базу). Но рассмотрим еще две таблицы, одна из которых содержит сведения обо всех клиентах видеопрокатного салона, а в другой хранится информация о взятых напрокат фильмах.

Очевидно, что внешний ключ клиент из таблицы заказ не может принимать неопределенное значение. В противном случае фильм могут не вернуть вовремя, а установить клиента, взявшего фильм, окажется невозможно.

2. Что должно случиться при попытке удаления целевой сущности, на которую ссылается внешний ключ? Например, при удалении клиента (может быть, он умер), который имеет на руках, по крайней мере, один фильм. Существует три возможности:

каскадируется — операция удаления " каскадируется" с тем, чтобы удалить также заказы этого клиента;

ограничивается — удаляются лишь те клиенты, у которых нет на руках фильмов. Иначе операция удаления отвергается (для рассматриваемого внешнего ключа это наиболее логичный вариант);

устанавливается — для всех заказов удаляемого клиента внешний ключ устанавливается в неопределенное значение, а затем этот клиент удаляется. Такая возможность, конечно, неприменима, если данный внешний ключ не должен содержать NULL-значений (как в данном случае).

3. Что должно происходить при попытке обновления первичного ключа целевой сущности, на которую ссылается некоторый внешний ключ? Например, может быть предпринята попытка обновить номер такого клиента, который имеет на руках, по крайней мере, один фильм. Имеются те же три возможности, как и при удалении:

каскадируется — операция удаления " каскадируется" с тем, чтобы обновить также заказы этого клиента (этот вариант подходит для абсолютного большинства внешних ключей);

ограничивается — обновляются первичные ключи лишь тех клиентов, которые еще не осуществляли поставок, иначе операция обновления отвергается;

устанавливается — для всех заказов такого клиента внешний ключ устанавливается в NULL-значение, а затем обновляется первичный ключ клиента.

Таким образом, для каждого внешнего ключа в проекте проектировщик БД должен указать не только поле или комбинацию полей, составляющих этот внешний ключ, и целевую таблицу, которая идентифицируется этим ключом, но также и ответы на перечисленные выше вопросы.

 

СУБД Access входит в состав Microsoft Office и предназначена для работы с реляционными БД, т.е. представленными в табличной форме. В отличие от табличного процессора Excel, Access имеет более развитые средства для отбора данных из взаимосвязанных таблиц, формирования новых таблиц и отчетов.

Характерной особенностью баз данных, созданных в Access, является хранение создаваемых таблиц и средств для обработки данных в одном файле, имеющем расширение.mdb. Достоинством Access является возможность создания СУБД (т.е. программы управления) без программирования. Однако, для сложных СУБД применение программирования на встроенном языке Visual Basic for Applications (VBA) позволяет повысить эффективность системы управления.

Основным элементом БД является таблица. Столбцы таблицы БД называются полями, а строки — записями. Первым этапом создания таблицы БД является задание ее структуры, т.е. определение количества и типа полей. Вторым этапом является ввод и редактирование записей в таблицу. БД считается созданной, даже если она пустая.

Поля таблицы просто определяют ее структуру и групповые свойства данных, записываемых в ячейках. Рассмотрим основные свойства полей БД.

1. Имя поля — определяет как надо обращаться к данным поля (имена используются как заголовки таблиц).

2. Тип поля — определяет тип данных, которые могут содержаться в данном поле (текстовые, числовые, дата, Memo, денежный, счетчик и др.).

3. Размер поля — определяет предельную длину данных, которые могут размещаться в поле.

4. Формат поля — способ форматирования данных в ячейках.

Запрос – требование на поиск, изменение или обработку данных в БД.Запросы можно использовать в качестве источников записей для форм, отчетов истраниц доступа к данным. Запрос в Access является объектом, которыйсохраняется в файле БД и может многократно исполняться.В Access существует несколько типов запросов: · запросы на выборку; · запросы с параметрами; · перекрестные запросы; · запросы на изменение (запросы на создание таблицы, удаление, · обновление, добавление записей); · запросы SQL (запросы на объединение, запросы к серверу, управляющиезапросы, подчиненные запросы). Запросы на выборку используются для выбора данных из таблиц по заданномупользователем условию. Результатом запроса является динамическая таблица, называемая также выборкой. Выборка формируется каждый раз заново на основереальных таблиц базы данных. Простой запрос – запрос на выборку, для формирования которогоиспользуется, как правило, одна базовая таблица. Простые запросы используютсядля элементарной обработки данных. Сложный запрос – запрос, который позволяет соединять воедино данные изразных таблиц и запросов, а также из разных баз данных. Таблицы (запросы) втаком запросе могут связываться с использованием внутренних, внешних, рекурсивных соединений и соединений по отношению. С помощью таких запросовможно создавать, обновлять, удалять таблицы, получать ответы на самыеразнообразные вопросы. Внутренние соединения чаще всего применяются для создания запросов навыборку. Если таблицы связаны соотношением “один-ко-многим”, объединения основываются на значении поля первичного ключа одной таблицы изначениях поля внешнего ключа другой таблицы. В результирующее множествозапроса попадают все записи из главной таблицы (таблица “один”), для которыхимеются соответствующие записи в подчиненной таблице (таблице “многие”).Внутренние соединения отображают в динамическом наборе соответствующие записив объединенных полях таблиц как одну запись. Подобного рода соединения междутаблицами создаются автоматически, если в таблицах имеются поля с одинаковымиименами и согласованными типами, причем одно из полей является ключевым либоэто соединение явно задано в окне Схема данных. “Согласованные типы” вбольшинстве случаев означают одинаковые типы. Исключением является поле типа Счетчик, которое может иметь размер длинного целого или кодарепликации и может связываться с числовыми полями соответствующего размера.Для обозначения внутренних соединений в Access используютсязарезервированные слова INNER JOIN. Для создания запроса, объединяющего все записи из одной таблицы и только тезаписи из второй таблицы, в которых связанные поля совпадают, используют внешнее соединение. В Access применяются правые (RIGHT JOIN) илевые (LEFT JOIN) внешние соединения. Запрос, основанный на таблицах слевым внешним соединением, отображает все записи главной таблицы (таблица“один”) с уникальным ключевым полем, независимо от того, имеются ли в связанныхполях подчиненной таблицы (таблице “многие”) совпадающие значения. Запрос, основанный на таблицах с правым внешним соединением, отображает все записитаблицы многие, независимо от того, существуют ли в связанных с нимиполях главной таблицы совпадающие значения. Записи в таблице со стороны многие, не имеющие связанных с ними записей в таблице один, обычно, но не обязательно, относятся к зависшим записям. Поэтому внешние соединенияиспользуются в системе поддержки БД для удаления из таблиц “зависших” записей идублирования данных в результате создания новых таблиц, содержащих записи суникальными значениями. Рекурсивные соединения (самообъединения) связывают данные в одной и тойже таблице. В Access самообъединения создаются в результате включения взапрос дубликата таблицы (Access назначает дубликату псевдоним), споследующим объединением между полями копий. Соединения по отношению (тэта-соединения) связывают данные с помощьюоператоров сравнения, отличных от оператора равенства (=). Запрос на изменение – запрос, с помощью которого создают новые таблицыбазы данных из таблиц запросов или вносят в таблицы значительные изменения.Такие запросы позволяют добавлять в таблицу новые записи или удалять их, иливносить изменения в записи с помощью выражений, встроенных в конструкциюзапроса. Перекрестный запрос – запрос, по требованию которого выполняютсяитоговые вычисления из одной или нескольких таблиц, и результаты которогопредставляются в виде сводной кросс-таблицы. Строки и столбцы кросс-таблицыименованные. Примеры перекрестных запросов: определить среднюю почасовуюоплату, сгруппированную по виду работ и названию области; определить итоговыесуммы продаж по месяцам для каждого типа изделий. Запросы с параметрами. Для того, чтобы не формировать множествоаналогичных по смыслу и структуре запросов, но с различными значениями вусловиях отбора, создаются запросы с параметрами. Параметрический запроспозволяет создать один-единственный запрос и ввести условие отбора посредствомдиалогового окна, который Access отображает при каждом запуске этогозапроса. Запросы с параметрами фактически не являются отдельным типомзапросов, поскольку функции запросов с параметрами можно добавить к запросамдругих типов.

 

Базой данных (БД) называется организованная в соответствии с определенными правилами и поддерживаемая в памяти компьютера совокупность сведений об объектах, процессах, событиях или явлениях, относящихся к некоторой предметной области, теме или задаче. Она организована таким образом, чтобы обеспечить информационные потребности пользователей, а также удобное хранение этой совокупности данных, как в целом, так и любой ее части.

Реляционная база данных представляет собой множество взаимосвязанных таблиц, каждая из которых содержит информацию об объектах определенного вида. Каждая строка таблицы содержит данные об одном объекте (например, автомобиле, компьютере, клиенте), а столбцы таблицы содержат различные характеристики этих объектов - атрибуты (например, номер двигателя, марка процессора, телефоны фирм или клиентов).

Строки таблицы называются записями. Все записи таблицы имеют одинаковую структуру - они состоят из полей (элементов данных), в которых хранятся атрибуты объекта (рис. 1). Каждое поле записи содержит одну характеристику объекта и представляет собой заданный тип данных (например, текстовая строка, число, дата). Для идентификации записей используется первичный ключ. Первичным ключом называется набор полей таблицы, комбинация значений которых однозначно определяет каждую запись в таблице.

Для работы с данными используются системы управления базами данных (СУБД). Основные функции СУБД:

- определение данных (описание структуры баз данных);

- обработка данных;

- управление данными.

Разработка структуры БД - важнейшая задача, решаемая при проектировании БД. Структура БД (набор, форма и связи ее таблиц) - это одно из основных проектных решений при создании приложений с использованием БД. Созданная разработчиком структура БД описывается на языке определения данных СУБД.

Любая СУБД позволяет выполнять следующие операции с данными:

- добавление записей в таблицы;

- удаление записей из таблицы;

- обновление значений некоторых полей в одной или нескольких записях в таблицах БД;

- поиск одной или нескольких записей, удовлетворяющих заданному условию.

Для выполнения этих операций применяется механизм запросов. Результатом выполнения запросов является либо отобранное по определенным критериям множество записей, либо изменения в таблицах. Запросы к базе формируются на специально созданном для этого языке, который так и называется «язык структурированных запросов» (SQL - Structured Query Language).

Под управлением данными обычно понимают защиту данных от несанкционированного доступа, поддержку многопользовательского режима работы с данными и обеспечение целостности и согласованности данных.

 

29. Информационный поиск. ИПС, их типы, использование. Лингвистические основы разработки и функционирования ИПС.

Резкое возрастание объемов научно-технической информации в 50-60 гг. XX столетия привело к развитию информационных технологий и созданию автома­тизированных информационно-поисковых систем — ИПС или АИПС. Структура и организация информационно-поисковых систем определя­лись следующей проблемной ситуацией: имеется множество документов; имеется коммуникативное задание, информационная потребность; требуется найти во множестве документов тексты, соответствующие запросу.

Понятия запроса и документа стоят в центре информационной де­ятельности. В процессе поиска информации происходит сравнение со­держания запроса и документа. Степень соответствия документа запросу задается категорией релевантности. Каждый документ в ИПС получает определенный информационный код — кодируется с помощью инфор­мационно-поискового языка. Этот код называется поисковым образом до­кумента (ПОД). Аналогичное выражение на информационно-поисковом языке — поисковое предписание (ПП) — сопоставляется запросу. Соответ­ствие поискового образа документа поисковому предписанию называет­ся формальной релевантностью. Действительное соответствие содержания выданного документа содержанию запроса называется смысловой реле­вантностью.

Результаты поиска могут характеризоваться с двух точек зрения: с т.з. точности и с т.з. полноты. Полнота поиска определяется соотношением между количеством выданных релевантных документов к общему числу реле­вантных документов, имеющихся в информационной системе. Точность поиска задается отношением между количеством выданных релевантных документов к общему количеству документов в выдаче. В идеальном случае количественное выражение полного и точного поиска равно единице.

Типы информационно-поисковых систем. По типу хранимой и обрабатываемой информации и осо­бенностям поиска ИПС — докумен­тальные и фактографические. В документальных хранятся тексты документов или их описания (рефераты и пр.). Фактографические имеют дело с описанием конкретных фак­тов, причем не обязательно в текстовой форме. Это могут быть таблицы, формулы и пр. Существуют и смешанные ИПС, включающие как до­кументы, так и фактографическую информацию. В настоящее время фактографические ИПС строятся на основе технологий баз данных (БД). С теоретической точки зрения база данных представляет собой совокуп­ность признаков описываемых объектов с указанием отношений между ними. В качестве описываемого объекта может выступать, напр., книга, номер и пр. Объект в базе данных характеризует­ся по признакам или атрибутам. Так, книга может иметь атрибуты: 1) автор; 2) название. Базы данных по своей структуре разделяются на иерархические, сете­вые и реляционные. Наиболее распро­странены реляционные базы данных, которые можно представить в виде таблиц с очень большим количеством строк и столб­цов.

Информационно-поисковые языки. Центральное место в информационно-поисковой системе занимает информационно-поисковый язык. ИПЯ — формальный язык для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запро­са. Процедура описания документа на ИПЯ называется индексированием. В результате индексирования каждому документу приписывается его фор­мальное описание на ИПЯ — поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса или поисковое предписание. Алгоритмы информационно­го поиска основаны на сравнении поискового предписания с поисковым образом запроса. К ИПЯ предъявляется требование достаточной разрешительной силы — способности дифференцировать важные для дан­ной проблемной области семантические различия между документами, требование однознач­ности: в записи на ИПЯ недопустима полисемия и омонимия. Кроме того, ИПЯ должен иметь достаточно гибкую структуру, допускающую модификацию — прежде всего в отношении лексических средств ИПЯ.

ИПЯ делятся на языки-классификации и язык и дескрипторного типа. Языки-классификации, или языки клас­сификационного типа основываются на иерархических классификациях понятий. Наиболее известна из языков классификационного типа уни­версальная десятичная классификация (УДК), используемая, например, в библиотечном деле для индексирования книг. Они ограничены крупными классами (таксонами) понятий и не позволяют выйти на доста­точную глубину описания документов, обеспечить точность индексирования, не позволяют характеризовать доку­мент с различных точек зрения, что делает невозможным многоаспектное индексирование.

Видом языков классификационного типа можно считать фасетные классификации. Структура языков этого типа предусматривает индекси­рование документа по нескольким основаниям — фасетам (англ. facet — аспект). Напр., газетные и журнальные статьи в информационном компоненте Корпуса текстов по современной россий­ской публицистике характеризуются по параметрам источника, автора, времени публикации, темы текста, жанра текста.

В автоматизированных ИПС чаще используются дескрипторные инфор­мационно-поисковые языки. Тематика документа описывается совокупно­стью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Коли­чество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков.

На следующем этапе возни­кла технология лингвистического контроля, заключавшегося в унификации языка индекси­рования запросов и документов. Наиболее удачной формой унифи­кации оказался дескрипторный словарь, в котором в эксплицитной Форме перечислялись те слова (дескрипторы), которые допускаются в индексировании. Дескрипторный словарь с указанными в нем па­радигматическими отношениями получил название информационно-по­искового тезауруса (ИПТ). Разработка ИПТ стоит в центре созда­ния любой информационно-поисковой системы. Среди парадигматиче­ских отношений в тезаурусе обычно отражаются отношения «род—вид», «часть—целое», «процесс—результат», «причина—следствие». В обычном случае ИПТ состоит из двух основных частей — собственно тезауруса, в котором представлены все дескрипторы с указанием связей между ними, и комплекса указателей, позволяющих перейти от дескриптора к структуре тезауруса. Именно в этом направлении идет развитие современных информационно-поисковых систем.

Лингвистическое обеспечение информационно-поисковых систем - разработка специальных информационно-поисковых языков и информационно-поисковых тезаурусов, а также других специализированных лексикографических ресурсов для обеспечения информационного поиска. В современных поисковых системах, в которых тематически значимые элементы (ключевые слова или понятия) выделяются статистическими методами, в задачи лингвистического обеспечения входит разработка лингвистических методов оптимизации выделения тематически значимых единиц в тексте.

Одной из прикладных задач обработки текста является информационный поиск. Основные методы информационного поиска разрабатываются в рамках одноименной научной дисциплины. Однако большинство таких систем включают лингвистический компонент. По мере развития технологий информационного поиска состав и задачи лингвистического компонента менялись.

В информационно-поисковых системах (ИПС) для поиска документов используется метод индексирования - составление " информационного" портрета документа на основе ключевых слов, т.е. выделение множества признаков, в простом случае ключевых слов (тематических элементов, терминов, термов, а также иногда связей между ними), которые отражают основную тематику текста.

В ранних системах такой портрет составлялся вручную на специальном информационно-поисковом языке. Они в основном использовались для библиотечного поиска. В них использовалась процедура индексации документа: процедура приписывания документу формального описания на специальном информационно-поисковом языке (ср. процедуру приписывания единице хранения в библиотеке одного или нескольких ключевых слов - предметных рубрик). Достаточно широко в системах ИПС использовались дескрипторные информационно-поисковые языки. В качестве дескрипторов выступают слова и словосочетания, представляющие собой термины, обозначающие понятия предметной области. В задачи лингвистического обеспечения системы информационного поиска входило создание и унификация словарей некоторой предметной области, предполагающее установление соответствия между терминами, используемыми в области, и дескрипторами (элементами формального информационно-поискового языка - нормативного языкового выражения для обозначения некоторого понятия). Одни и те же понятия могут иметь разное языковое выражение (ср., например, “поваренная соль” и “хлорид натрия”). Информация о дескрипторах и возможных их языковых коррелятах (например, синонимах) отражается в специальных информационно-поисковых тезаурусах.

В настоящее время выделение ключевых слов (словосочетаний) происходит автоматически на основе статистических процедур. Фактически все слова текста являются ключевыми, наиболее значимые отбираются с использованием специальной статистической процедуры - приписывания ключевому слову или выражению тематического веса. Документу при таком подходе ставится в соответствие числовой вектор, отражающий важность использования термина в каждом документе. Аналогичный вектор ставится в соответствие запросу. Релевантность некоторого документа запросу определяется расстоянием между соответствующими векторами: чем вектора ближе, тем более соответствует документ запросу пользователя. Такой метод, основываясь на частотности конкретного слова игнорирует тот факт, что в тексте присутствуют обычно синонимические и анафорические замены.

Для улучшения поиска документов помимо чисто квантитативного подхода применяются дополнительные лингвистически-ориентированные технологии.

Таким образом, при обоих подходах используются специальные лексикографические источники - информационно-поисковые тезаурусы.

 

30. Контент-анализ, его идеология, основные понятия, использование.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.