Методы эффективной работы с большими данными для Data Mining.

⇐ ПредыдущаяСтр 27 из 30Следующая ⇒

Во многих компаниях, особенно в розничных торговых сетях, аккумулируется огромное количество данных. Для их обработки необходимо использовать специальные механизмы. Не существует универсальных способов анализа и алгоритмов, пригодных для любых случаев и любых объемов информации. Методы анализа данных существенно отличаются друг от друга по производительности, качеству результатов, удобству применения, требованиям к данным.

Способы повышения производительности:

Производительность при обработке больших объемов данных можно повысить различными способами:

-Оборудование. Многопроцессорные системы, ОЗУ большой емкости, RAID-массивы.

-Базы данных: тяжелые СУБД, разбиение на разделы, оптимальное индексирование…

-Аналитическая платформа: параллельная обработка, кэширование данных, комбинирование простых и сложных моделей…

-Исходная информация: репрезентативные выборки, сегментирование данных, группировка…

-Алгоритмы: масштабируемые алгоритмы, комитеты моделей, иерархические модели.

Пропуская через «сито» моделей можно отсеивать информацию, для анализа которой бесполезны сложные алгоритмы. Для этих данных можно применять простые и быстрые методы. Сложные же модели использовать там, где это имеет смысл.

Очень часто оптимальной стратегией анализа является не разработка одной сложной модели, а построение нескольких моделей на разных сегментах данных и последующее объединение их результатов.

Для обработки больших объемов данных нет необходимости перерабатывать всю информацию. Модели можно строить на относительно небольших выборках, а затем применять их ко всему множеству.

41. Deductor – принципы работы и структура платформы. Возможности взаимодействия с другими системами.

В Deductor включен полный набор инструментов для решения задач прогнозирования, начиная от сбора данных и кончая построением адаптивных моделей. Последовательность работы: выдвижение гипотез – сбор данных – очистка данных – трансформация данных – построение модели – прогноз.

В качестве места хранения данных для прогнозирования лучше всего использовать многомерное хранилище данных – Deductor Warehouse, включенное в состав системы.

Реальные данные очень часто содержать избыточную или некорректную информацию, которую желательно удалить или очистить до загрузки в хранилище.

Deductor Studio содержит набор инструментов для решения задач очистки данных:

-редактирование аномалий;

-заполнение пропусков;

-очистка от шумов;

-сглаживание;

-поиск дубликатов и противоречий.

Трансформация данных является последним шагом перед построением прогностической модели. На этом шагу данные приводятся к виду, пригодному для использования различных способов построения моделей. В Deductor Studio реализованы следующие способы трансформации:

-преобразование к скользящему окну;

-квантование;

-группировка и сортировка;

-приведение типов.

При прогнозировании необходимо решать задачу регрессии, т.е. предсказать значение непрерывного выходного поля на основе нескольких входных показателей. В Studio встроены следующие типы моделей:

-пользовательские;

-классические статистические модели;

-линейная регрессия;

-нейронные сети.

После построения прогностической модели можно получить, собственно, сам прогноз.

Состав платформы Deductor

-Warehouse – хранилище данных

-Studio – рабочее место аналитика

-Viewer – рабочее место конечного пользователя

-Server – аналитический сервер

-Client – клиент доступа к аналитическому серверу.

Dеductor легко интегрируется в любое программное окружение, позволяет извлечь из накопленных в компании данных интересную и практически полезную информацию и трансформировать ее в конкурентные преимущества.

Deductor имеет встроенные механизмы работы со множеством источников и приемников данных, поддерживает практически все популярные форматы:

-txt, csv, xml, html

-офисные приложения

-драйвера прямого доступа ко множеству СУБД

-поддержка ODBC и ADO

-1С: Предприятие

⇐ Предыдущая 21 22 23 24 25 262728 29 30 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.