Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






НАЗНАЧЕНИЕ. Кластерный анализ решает задачу построения классификации, то есть разделения исходного множества объектов на группы (классы






 

 

Кластерный анализ решает задачу построения классификации, то есть разделения исходного множества объектов на группы (классы, кластеры). При этом предполагается, что у исследователя нет исходных допущений ни о со­ставе классов, ни об их отличии друг от друга. Приступая к кластерному ана­лизу, исследователь располагает лишь информацией о характеристиках (при­знаках) для объектов, позволяющей судить о сходстве (различии) объектов, либо только данными об их попарном сходстве (различии). В литературе час­то встречаются синонимы кластерного анализа: автоматическая классифика­ция таксономический анализ, анализ образов (без обучения).

Несмотря на то, что кластерный анализ известен относительно давно (впервые изложен Тгуоn в 1939 году), распространение эта группа методов получила существенно позже, чем другие многомерные методы, такие, как факторный анализ. Лишь после публикации книги «Начала численной так­сономии» биологами Р. Сокэл и П. Снит в 1963 году начинают появляться первые исследования с использованием этого метода. Тем не менее, до сих пор в психологии известны лишь единичные случаи удачного применения кластерного анализа, несмотря на его исключительную простоту. Вызывает удивление настойчивость, с которой психологи используют для решения простой задачи классификации (объектов, признаков) такой сложный ме­тод как факторный анализ. Вместе с тем, как будет показано в этой главе, кластерный анализ не только гораздо проще и нагляднее решает эту задачу, но и имеет несомненное преимущество: результат его применения не свя­зан с потерей даже части исходной информации о различиях объектов или корреляции признаков.

Варианты кластерного анализа - это множество простых вычислительных процедур используемых для классификации объектов. Классификация объек­тов - это группирование их в классы так, чтобы объекты в каждом классе были более похожи друг на друга, чем на объекты из других классов. Более точно кластерный анализ - это процедура упорядочивания объектов в срав-

 

Существует множество вариантов кластерного анализа, но наиболее ши­роко используются методы, объединенные общим названием иерархический кластерный анализ (Hierarchical Cluster Analysis). В дальнейшем под кластер­ным анализом мы будем подразумевать именно эту группу методов. Рассмот­рим основной принцип иерархического кластерного анализа на примере.

 

ПРИМЕР 19.1


Предположим, 10 студентам предложили оценить проведенное с ними занятие по двум критериям: увлекательность (Pref) и полезность (Use). Для оценки использо­валась 10-балльная шкала. Полученные данные (2 переменные для 10 студентов) графически представлены в виде графика двумерного рассеивания (рис. 19.1). Конечно, классификация объектов по результатам измерения всего двух перемен­ных не требует применения кластерного анализа: группировки и так можно выде­лить путем визуального анализа. Так, в данном случае наблюдаются четыре груп­пировки: 9, 2, 3 — занятие полезное, но не увлекательное; 1, 10, 8 — занятие увлекательное, но бесполезное; 5, 7 — занятие и полезное и увлекательное; 4, 6 — занятие умеренно увлекательное и умеренно полезное. Даже для трех переменных можно обойтись и без кластерного анализа, так как компьютерные программы по­зволяют строить трехмерные графики. Но для 4 и более переменных визуальный анализ данных практически невозможен. Тем не менее, общий принцип классифи­кации объектов при помощи кластерного анализа не зависит от количества изме­ренных признаков, так как непосредственной информацией для этого метода яв­ляются различия между классифицируемыми объектами.

 

 

Рис. 19.1 График двумерного рассеивания переменных «увлекательность» (Pref) и «польза» (Use) для 10 студентов

 

Кластерный анализ объектов, для которых заданы значения количественных при­знаков начинается с расчета различий для всех пар объектов. Пользователь может выбрать по своему усмотрению меру различия, обзор которых приведен в соответ­ствующем разделе главы 18. В качестве меры различия выбирается расстояние между объектами в Р -мерном пространстве признаков, чаще всего — евклидово расстоя­ние или его квадрат. В данном случае Р =2евклидово расстояние между объекта­ми i и j определяется формулой:

где х — это значения одного, а у — другого признака.

На первом шаге кластерного анализа путем перебора всех пар объектов определяется пара (или пары) наиболее близких объектов, которые объединяются в первичные кластеры. Далее на каждом шаге к каждому первичному кластеру присоединяется объект (кластер), который к нему ближе. Этот процесс повторяется до тех пор, пока все объекты не будут объединены в один кластер. Критерий объединения объектов (кластеров) может быть разным и определяется методом кластерного анализа. Основным результатом применения иерархического кластерного анализа является дендрограмма — графическое изображение последовательности объединения объек­тов в кластеры. Для данного примера дендрограмма приведена на рис. 19.2.

На дендрограмме номера объектов следуют по вертикали. По горизонтали отмече­ны расстояния (в условных единицах), на которых происходит объединение объек­тов в кластеры. На первых шагах происходит образование кластеров: (3, 9, 2) и (5, 7). Далее образуется кластер (8, 10, 1) — расстояния между этими объектами больше, чем между теми, которые были объединены на предыдущих шагах. Следующий кла­стер — (4, 6). Далее в один кластер объединяются кластеры (5, 7) и (4, 6), и т. д. Процесс заканчивается объединением всех объектов в один кластер. Количество кластеров определяет по дендрограмме сам исследователь. Так, судя по дендро­грамме, в данном случае можно выделить три или четыре кластера.

Как видно из примера, кластерный анализ — это комбинаторная процеду­ра, имеющая простой и наглядный результат. Широта возможного применения кластерного анализа очевидна настолько же, насколько очевиден и его смысл. Классифицирование или разделение исходного множества объектов на различающиеся группы — всегда первый шаг в любой умственной деятель­ности, предваряющий поиск причин обнаруженных различий.

Можно указать ряд задач, при решении которых кластерный анализ явля­ется более эффективным, чем другие многомерные методы:

ü разбиение совокупности испытуемых на группы по измеренным призна­кам с целью дальнейшей проверки причин межгрупповых различий по внешним критериям, например, проверка гипотез о том, проявляются ли типологические различия между испытуемыми по измеренным признакам;

ü применение кластерного анализа как значительно более простого и на­глядного аналога факторного анализа, когда ставится только задача груп­пировки признаков на основе их корреляции;

ü классификация объектов на основе непосредственных оценок разли­чий между ними (например, исследование социальной структуры кол­лектива по данным социометрии — по выявленным межличностным предпочтениям).

Несмотря на различие целей проведения кластерного анализа, можно вы­делить общую его последовательность как ряд относительно самостоятель­ных шагов, играющих существенную роль в прикладном исследовании:

1. Отбор объектов для кластеризации. Объектами могут быть, в зависимо­сти от цели исследования: а) испытуемые; б) объекты, которые оцени­ваются испытуемыми; в) признаки, измеренные на выборке испытуемых.

2. Определение множества переменных, по которым будут различаться объек­ты кластеризации. Для испытуемых — это набор измеренных призна­ков, для оцениваемых объектов — субъекты оценки, для признаков — испытуемые. Если в качестве исходных данных предполагается исполь­зовать результаты попарного сравнения объектов, необходимо четко определить критерии этого сравнения испытуемыми (экспертами).

3. Определение меры различия между объектами кластеризации. Это первая проблема, которая является специфичной для методов анализа разли­чий: многомерного шкалирования и кластерного анализа. Применяе­мые меры различия и требования к ним подробно изложены в главе 18 (раздел «Меры различия»).

4. Выбор и применение метода классификации для создания групп сходных объектов. Это вторая и центральная проблема кластерного анализа. Ее весомость связана с тем, что разные методы кластеризации порождают разные группировки для одних и тех же данных. Хотя анализ и заключа­ется в обнаружении структуры, наделе в процессе кластеризации струк­тура привносится в данные, и эта привнесенная структура может не со­впадать с реальной.

5. Проверка достоверности разбиения на классы.

Последний этап не всегда необходим, например, при выявлении социаль­ной структуры группы. Тем не менее следует помнить, что кластерный анализ

всегда разобьет совокупность объектов на классы, независимо от того, суще­ствуют ли они на самом деле. Поэтому бесполезно доказывать существенность разбиения на классы, например, на основании достоверности различий между классами по признакам, включенным в анализ. Обычно проверяют устойчи­вость группировки — на повторной идентичной выборке объектов. Значимость разбиения проверяют по внешним критериям — признакам, не вошедшим в анализ.

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.