Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Хранилище данных






Хранилище данных (в узком смысле) представляет собой предметно-ориентированную базу или совокупность БД, извлекаемых из источников, которые организованы по сегментам, отражающим конкретную предметную область бизнеса: производство, правило, детальные слабо агрегированные данные.

Определение понятию «хранилище данных» первым дал Уильям Инмон: «предметно-ориентированная, интегрированная, неразрушаемая совокупность данных, предназначенная для поддержки принятия управленческих решений».

Источниками данных хранилища служат оперативные транзакционные системы, которые обслуживают повседневную учетную деятельность компании. Необходимость включения той или иной транзакционной системы в качестве источника определяется бизнес-требованиями к СППР. Исходя из этих же требований, в качестве источников данных могут быть рассмотрены внешние системы, в том числе и Интернет. Детальные данные из источников могут либо напрямую поступать в хранилище, либо предварительно агрегироваться до требуемого уровня обобщения.

Построение полноценного корпоративного хранилища данных обычно выполняется в трехуровневой архитектуре.

На первом уровне расположены разнообразные источники данных − внутренние регистрирующие и справочные системы, внешние источники (данные информационных агентств, макроэкономические показатели).

Второй уровень содержит центральное хранилище, куда стекается информация от всех источников с первого уровня, и, возможно, оперативный склад данных, который не содержит исторических данных и выполняет две основные функции. Во-первых, он является источником аналитической информации для оперативного управления, и, во-вторых, здесь подготавливаются данные для последующей загрузки в центральное хранилище. Под подготовкой данных понимают их преобразование и проведение определенных проверок. Наличие оперативного склада данных просто необходимо при различном регламенте поступления информации из источников.

Третий уровень представляет собой набор предметно-ориентиро­ван­ных витрин данных, источником информации для которых является центральное хранилище данных. Именно с витринами данных и работает большинство конечных пользователей.

 

Хранилище на самом верхнем уровне состоит, как правило, из трех подсистем:

- подсистемы загрузки данных;

- подсистемы обработки запросов и представления данных;

- подсистемы администрирования хранилища.

Подсистема загрузки данных – программное обеспечение (ПО), которое в соответствии с определенным регламентом извлекает данные из источников и приводит их к единому формату, определенному для хранилища. Данная подсистема отвечает за формализованную логическую согласованность, качество и интеграцию данных, которые загружаются из источников в оперативный склад данных.

Каждый источник данных требует разработки собственного загрузочного модуля. Каждый модуль должен решать два класса задач:

- начальной загрузки ретроспективных данных;

- регламентного пополнения хранилища данными из источников.

Подсистема также по регламенту извлекает детальные данные из оперативного склада, производит их агрегирование, консолидацию, транфор­­мацию и помещает данные в хранилище и витрины данных. Именно в этой подсистеме должны быть определены все бизнес-модели консолидации данных по иерархическим измерениям и выполнены вычисления зависимых бизнес-показателей по независимым исходным данным.

Подсистема обработки запросов и представления данных – ПО, которое обеспечивает извлечение данных, их аналитическую обработку и представление конечным пользователям. Как правило, можно выделить три типа этого ПО:

1) программное обеспечение регламентированной отчетности, которое характеризуется заранее предопределенными запросами данных и их представлениями бизнес-пользователям. От данного ПО не требуется быстрого времени реакции. Из соображений стоимости эффективности для его реализации в наибольшей степени подходит технология ROLAP;

2) программное обеспечение нерегламентированных запросов пользователей. Это ПО – основной способ общения бизнес-аналитиков с хранилищем, при котором каждый последующий запрос к данным и вид их представления определяются, как правило, результатами предыдущего запроса. Для приложений данного типа требуется высокая скорость обработки запросов (единицы секунд). Данное ПО реализуется техно­ло­ги­ей­MOLAP и специальными инструментами построения сложных нерегламентированных запросов с интуитивно понятным для бизнес-аналитиков графическим интерфейсом;

3) программное обеспечение добычи знаний, которое реализует сложные статистические алгоритмы и алгоритмы искусственного интеллекта, предназначенные для поиска скрытых в данных закономерностей, представления этих закономерностей, представления этих закономерностей в виде моделей и многовариантного прогнозирования по ним развития ситуаций по схеме «Что если …?».

Подсистема администрирования хранилища – ПО, связанное с поддерживанием системы и обеспечением ее устойчивой работы и расширения. Можно выделить, по крайней мере, четыре класса задач, расширение которых должна обеспечивать данная подсистема:

1) администрирование данных, которое включает в себя регулярное пополнение данных из источников, если необходимо; ручной ввод, сверку и корректировку данных в оперативном складе. Администрирование данных ведется, как правило, бизнес-пользователями, а ответственность распределяется по предметно-ориентированным сегментам;

2) администрирование хранилища данных. В задачу администрирования хранилища входят все вопросы, связанные с поддержанием архитектуры хранилища, обеспечением его эффективной и бесперебойной работы, защитой и восстановлением данных после сбоев;

3) администрирование доступа к данным обеспечивает сопровождение профилей пользователей, разграничение доступа к конфиденциальным данным, защиту информации от несанкционированного доступа;

4) администрирование метаданных системы.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.