Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Обработка на компьютере: кластерный анализ объектов






Воспользуемся для обработки на компьютере данными примера 19.1. Ис­ходные данные (Data Editor) представляют собой два столбца (переменные Use и Pref) и 10 строк.

1. Выбираем Analyze > Classify (Классификация) > Hierarchical Cluster...

(Иерархический кластерный).

2. В открывшемся окне диалога переносим из левого в правое верхнее окно (Variables) переменные, необходимые для анализа (Pref, Use). Убеждаемся, что в поле Cluster точка установлена на Cases (Объекты), а не на Variables (Пе­ременные) — эта установка задает то, что будет подлежать классификации: объекты или переменные. Убеждаемся, что в поле Display (Выводить) флажки установлены на Statistics (Статистики), Plots (Графики).

3. Нажимаем клавишу Statistics... (Статистики...) и убеждаемся, что уста­новлен флажок на Agglomeration schedule (Последовательность агломерации). При необходимости можно было бы отметить и Proximity matrix (Матрица расстояний) для ее вывода, но мы этого не делаем. Нажимаем Continue (Про­должить).

4. Нажимаем клавишу Plots... (Графики...). Отмечаем флажком Dendrogram (Дендрограмма). Здесь же можно выбрать ориентацию дендрограммы: верти­кальную (Vertical) или горизонтальную (Horizontal), оставляем установленную по умолчанию вертикальную ориентацию. Нажимаем Continue.

5. Нажимаем Method... (Метод...), и открывается окно главных установок кластерного анализа. В этом окне четыре поля установок метода кластериза­ции: Cluster Method (Метод кластеризации), Measure (Меры различия), Transform Values (Преобразование значений признаков), Transform Measures (Преобразование мер различия). В поле Cluster Method (Метод кластеризации) оставляем принятый по умолчанию Between-groups linkage (Метод сред­ней связи). В поле Measure (Меры различия) выбираем Interval data: Euclidean

distance (Интервальные данные: Евклидово расстояние). Остальные установ­ки оставляем принятыми по умолчанию. Нажимаем Continue. Нажимаем ОК. и получаем результаты.

6. Основные результаты кластерного анализа.

А) Таблица последовательности агломерации:

Agglomeration Schedule

 

 

 

Stage Cluster Combined Coefficients Stage Cluster First Appears Next
            Stage
Cluster Cluster Cluster Cluster
             
      1.000      
      1.000      
      1.207      
      1.414      
      1.707      
      2.236      
      3.711      
      4.484      
      6.726      

 

В) Дендрограмма:

Помимо дендрограммы, очень важна информация, содержащаяся в таб­лице последовательности агломерации. В этой таблице вторая колонка Cluster Combined (Объединенные кластеры) содержит первый (Cluster 1) и второй (Cluster 2) столбцы, которые соответствуют номерам кластеров, объединяе­мых на данном шаге. После объединения кластеру присваивается номер, со­ответствующий номеру в колонке Cluster 1. Так, на первом шаге объединяют­ся объекты 3 и 9, кластеру присваивается номер 3, далее этот кластер на шаге 3 объединяется с элементом 2, новому кластеру присваивается номер 2 и т. д. Следующая колонка Coefficients (Коэффициент) содержит значение расстоя­ния между кластерами, которые объединяются на данном шаге. Колонка Stage Cluster First Appears (Предыдущий шаг, на котором появлялся кластер) пока­зывает, на каком шаге до этого появлялся первый и второй из объединяемых кластеров. Последняя колонка Next Stage (Следующий шаг) показывает, на каком шаге снова появится кластер, образованный на этом шаге.

Попытаемся оценить оптимальное число классов по таблице последова­тельности агломерации. Видно, что первый резкий скачок расстояния меж­ду кластерами наблюдается при переходе от 6 к 7 шагу. Следовательно, наи­более оптимальное количество кластеров — то, которое получено на б или 7 шаге. Это количество равно численности объектов минус номер шага, то есть 10 - б (7) = 4 (3) - 4 или 3 кластера. Выбор того или иного решения будет зависеть уже от содержательных соображений. Так, в данном случае, если обратиться к рис. 19.1, то целесообразно выделять 4 кластера, то есть отделять кластеры (4, 6) — умеренные оценки и (5, 7) — высокие оценки увлекательности и полезности занятия.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.