Тема 8. Технология хранилищ данных

Стр 1 из 2Следующая ⇒

Во всем мире организации накапливают или уже накопили в процессе свое деятельности большие объемы данных. Эти коллекции данных хранят в себе большие возможности по извлечению новой, аналитической информации, на основе которой можно и необходимо строить стратегию фирмы, выявлять тенденции развития рынка, находить новые решения.

Для того, чтобы обеспечить возможность анализа накопленных данных, организации стали создавать хранилища данных (Data Warehouse – DW).

Принято считать, что у истоков концепции хранилищ данных (ХД) стоял технический директор компании Prism Solution Билл Инмон (Bill Inmon), который в начале 1990-х гг. опубликовал ряд работ, ставших основополагающими для последующих исследований в области аналитических систем.

Инмон дал следующее определение ХД: предметно-ориентированный, интегрированный, неизменяемый и поддерживающий хронологию набор данных, предназначенный для обеспечения принятия управленческих решений.

Чтобы понять это определение, разберем подробно все его составляющие.

Предметная ориентированность. Хранилище данных организовано и оптимизировано для получения ответов на вопросы, поступающие из различных функциональных областей в масштабах предприятия. Поэтому в хранилище данных информация организована и суммирована по различной тематике, например, объемы продаж, маркетинг, экономика, распространение товара и транспортировка. Для каждой из этих тем в хранилище данных имеется специфический раздел – товары, клиенты, отделы, регионы, движение товара и т.д. Т.е. информация в ХД организована в соответствии с основными аспектами деятельности предприятия (товары, клиенты и т.д.); это отличает ХД от БД, где данные организованы в соответствии с процессами (выписка счетов, отгрузка товара и т.д.).

Интегрированность. Хранилище данных представляет собой централизованную, консолидированную базу данных, объединяющую данные, полученные от организации. Поэтому хранилище данных консолидирует данные из множества разнообразных источников различных форматов. Интеграция данных расширяет возможности принятия решений и помогает руководству лучше разобраться в работе предприятия. Это понимание поможет выявить стратегические возможности компании.

Принцип неизменчивости предполагает, что, в отличие от обычных систем оперативно обработки данных, в ХД данные после загрузки не должны подвергаться каким-либо изменениям, за исключением добавления новых данных.

Поддержка хронологии означает соблюдение порядка следования записей, для чего в структуру ХД вводятся ключевые атрибуты Дата и Время. Кроме того, если физически упорядочить записи в хронологическом порядке, например в порядке возрастания атрибута Дата, можно уменьшить время выполнения аналитических запросов.

Хранилища данных могут быть разбиты на два типа: корпоративные ХД и витрины данных.

Корпоративные ХД содержат информацию, относящуюся ко всей корпорации и собранную из множества оперативных источников для консолидированного анализа.

Витрины данных – специализированное локальное тематическое хранилище, подключенное к централизованному ХД и обслуживающее отдельное подразделение организации или определенное направление ее деятельности.

Круг задач интеллектуального анализа данных весьма широк, а сами задачи существенно различаются по уровню сложности. Поэтому в зависимости от специфики решаемых задач и уровня их сложности архитектура ХД и модели данных, используемых для их построения, могут различаться. Обобщенная концептуальная схема ХД представлена на рис. 38.

Рис. 38. Концептуальная схема ХД.

Согласно схеме данные извлекаются из различных источников и загружаются в ХД, которое содержит как собственно данные, представленные в соответствии с некоторой моделью, так и метаданные.

Данные в ХД хранятся как в детализированном, так и в агрегированном виде. Данные в детализированном виде поступают непосредственно из источников данных и соответствуют элементарным событиям. Такими данными могут быть ежедневные продажи, количество произведенных изделий и т.п. Это неделимые значения, попытка дополнительно детализировать которые лишает их логического смысла.

Процесс обобщения детализированных данных называется агрегированием, а сами обобщенные данные – агрегированными (иногда – агрегатами). Обычно агрегированию подвергаются числовые данные (факты), они вычисляются и содержаться в ХД вместе с детализированными.

Метаданные – высокоуровневые средства отражения информационной модели и описания структуры данных, используемой в ХД. Метаданные должны содержать описание структуры данных хранилища и структуры данных импортируемых источников. Метаданные хранятся отдельно от данных в так называемом репозитарии метаданных.

Пример. В любой книге, помимо собственно текста, содержится значительное количество дополнительной информации. Цель ее заключается в том, чтобы, во-первых, помочь читателю побыстрее ознакомится с содержимым книги и осмыслить его, во-вторых, описать структуру книги для более эффективного поиска информации. Для решения первой задачи служат такие элементы как аннотация, комментарии, глоссарий и т.д. Для поиска нужной информации используют оглавление, предметный указатель. Кроме того, читателю могут понадобиться сведения об авторах или об издательстве. Вся эта информация, которая не является частью книги, а служит для повышения эффективности работы с ней, и представляет собой метаданные.

Выделяют три основных подхода к использованию ХД:

· регулярные отчеты – подготовка отчетов стандартных форм, получаемых многократно с определенной периодичностью;

· нерегламентированные запросы – возможность получать ответы на нестандартные, сформированные «по требованию» вопросы;

· интеллектуальный анализ данных – поддержка процесса интеллектуального анализа больших массивов данных с целью выявления скрытых закономерностей, структур и объектов, построения моделей, прогнозов и т.д.

12 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.