Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Основные этапы процесса Data Mining, общая схема анализа данных.






Последовательность работы:

1.гипотеза, предположение.

-максимально использовать знание экспертов о предметной области;

-полагаться на здравый смысл;

-отталкиваться от опыта и интуиции специалистов;

-собрать и систематизировать максимум возможных предположений и гипотез.

Отправной точкой является знание и понимание экспертом предметной области. Именно человек является генератором гипотез и предположений, и данный процесс автоматизировать не представляется возможным, по крайней мере, пока. Для генерации идей можно использовать, например, тактику мозгового штурма.

2. сбор и систематизация данных.

-абстрагироваться от существующих информационных систем и имеющихся в наличии данных;

-описать все факторы, возможно влияющие на анализируемый процесс/объект;

-экспертно оценить значимость каждого фактора.

-определить способ представления информации – число, дата, да/нет, категория.

-собрать все легкодоступные факторы, например, из учетных систем.

-обязательно собрать наиболее значимые с точки зрения экспертов факторы;

-оценить сложность и стоимость сбора средних и наименее важных по значимости факторов.

-получение из существующих информационных систем;

-извлечение необходимых сведений из косвенных данных;

-использование открытых источников;

-проведение социологических, маркетинговых и подобных исследований;

- ввод данных «вручную».

Данные должны быть собраны в единую таблицу в формате MS Excel, Dbase, текстовые файлы с разделителями или в набор таблиц в любой реляционной СУБД.

Необходимо унифицировать представление данных – один и тот же объект должен описываться везде одинаково.

Ни в коем случае не ориентироваться на имеющиеся данные. Необходимо отталкиваться от задачи и подбирать данные для ее решения, а не брать имеющуюся информацию и придумывать, что из них можно «выжать». Задача заключается в решении актуальной бизнес задачи, а не в оправдании затрат на сбор большого объема данных.

3. подбор модели.

-уделить большое внимание очистке данных.

-комбинировать методики анализа;

-не гнаться за абсолютной точностью и начать использование при получении первых приемлемых результатов;

-при невозможности получения приемлемых результатов вернуться на предыдущие шаги схемы.

Механизмов построения моделей большое количество. Но каждый из них имеет свои ограничения и решает определенный класс задач, поэтому на практике чаще всего добиваться успеха можно комбинируя методы анализа. Чем раньше будет предпринята попытка оценить полученную модель на практике, тем лучше, т.к. других способов реально оценить ее адекватность не существует.

4. тестирование, интерпретация результатов.

-для оценки полученных результатов использовать знания экспертов.

-тестировать построенные модели на различных выборках для оценки их обобщающих способностей.

-при невозможности получения приемлемых результатов вернуться на предыдущие шаги схемы.

Интерпретация модели, так же как и выдвижение гипотез может и должно делаться экспертом, т.к. только для этого нужно более глубокое понимание процесса, выходящее за пределы анализируемых данных.

Обязательно нужно оценивать обобщающую способность модели, т.е. способность давать приемлемые результаты на данных, которые не предоставлялись системе при построении модели. Некоторые механизмы анализа могут «запоминать» предъявленные ей данные и на них демонстрировать прекрасные результаты, но при этом полностью терять способность к обобщению.

5. использование.

-при получении приемлемых результатов, начать использование.

-периодически оценивать адекватность модели текущей ситуации. Даже самая удачная модель со временем перестает ей соответствовать.

-постоянно работать над улучшением модели.

Начало использования не является завершением Data Mining проекта. Работать над совершенствованием моделей нужно всегда, т.к. по происшествии времени обязательно наступит момент, когда опять придется проходить описанный цикл. К тому же после получения первых удовлетворительных результатов встает вопрос о повышении точности.

Данная последовательность шагов не зависит от предметной области. На любом шаге, при возникновении проблем, связанных с ошибочностью результатов, невозможностью получения необходимых данных, неспособностью построения модели и т.п., возможнее возврат на один или несколько шагов назад.

 

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.