![]() Главная страница Случайная страница Разделы сайта АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Иерархические методы кластерного анализа
Агломеративные кластер-процедуры Основной принцип работы иерархических агломеративных кластер-процедур состоит в последовательном объединении групп объектов сначала самых близких, а затем все более отдаленных друг от друга. На первом шаге алгоритма каждый объект рассматривается как отдельный класс. В дальнейшем на каждом шаге происходит объединение двух самых близких классов и, с учетом принятого принципа измерения расстояния между классами, пересчет матрицы расстояний, размер которой снижается каждый раз на единицу. Работа алгоритма заканчивается, когда все объекты будут объединены в один класс. Алгоритм иерархической классификации предусматривает геометрическое представление в виде дендрограммы (рисунок 4.1).
Рисунок 4.1 – Примеры горизонтальной и вертикальной дендрограмм объединения классов
Если ставится задача разбиения объектов на несколько групп, то при реализации агломеративных кластер-процедур устанавливается пороговое значение расстояния К агломеративным методам кластерного анализа относят: 1. метод одиночной связи; 2. метод полной связи; 3. метод средней связи; 4. метод Уорда. По методу одиночной связи на основе матрицы расстояния определяются два ближайших объекта, они объединяются в один класс. На следующем шаге выбирается объект, который будет присоединен к этому классу. Таким объектом будет тот, который имеет наибольшее сходство хотя бы с одним из объектов, уже включенных в класс. При совпадении расстояния для нескольких объектов будет идти образование нескольких классов. Достоинством данного метода является простота его реализации и нечувствительность алгоритма к преобразованию признаков. Основным недостатком метода является невозможность определения на основе дендрограммы наиболее подходящего числа классов, на которые следует разбить рассматриваемую совокупность объектов. Забиваем Сайты В ТОП КУВАЛДОЙ - Уникальные возможности от SeoHammer
Каждая ссылка анализируется по трем пакетам оценки: SEO, Трафик и SMM.
SeoHammer делает продвижение сайта прозрачным и простым занятием.
Ссылки, вечные ссылки, статьи, упоминания, пресс-релизы - используйте по максимуму потенциал SeoHammer для продвижения вашего сайта.
Что умеет делать SeoHammer
— Продвижение в один клик, интеллектуальный подбор запросов, покупка самых лучших ссылок с высокой степенью качества у лучших бирж ссылок. — Регулярная проверка качества ссылок по более чем 100 показателям и ежедневный пересчет показателей качества проекта. — Все известные форматы ссылок: арендные ссылки, вечные ссылки, публикации (упоминания, мнения, отзывы, статьи, пресс-релизы). — SeoHammer покажет, где рост или падение, а также запросы, на которые нужно обратить внимание. SeoHammer еще предоставляет технологию Буст, она ускоряет продвижение в десятки раз, а первые результаты появляются уже в течение первых 7 дней. Зарегистрироваться и Начать продвижение В методе полной связи, по-прежнему, происходит объединение двух самых близких объектов в кластеры, однако, для расчета расстояния между классами используется принцип «дальнего соседа». По методу средней связи происходит объединение схожих объектов в кластеры, при этом расстояние между объектом и классом вычисляется по принципу «средней связи», а расстояние между двумя классами – по «центрам тяжести» групп. Метод Уорда предполагает, что на первом шаге каждый кластер состоит из одного объекта. Далее два ближайших друг к другу объекта объединяются в один класс. Для этого класса определяются средние значения признаков и рассчитывается сумма квадратов отклонений
где
В дальнейшем на каждом шаге работы алгоритма объединяются те объекты или кластеры, которые дают наименьшее приращение величины Иерархические кластер-процедуры по сравнению с другими кластер-процедурами дают более полный и тонкий анализ структуры исследуемого множества объектов. Привлекательной стороной подобных алгоритмов является возможность наглядной интерпретации проведенного анализа. К недостаткам алгоритмов следует отнести громоздкость их вычислительной реализации, т.к. на каждом шаге требуется вычисление всей матрицы расстояний. Поэтому реализация таких алгоритмов при большом числе объектов ( Пример 4.1 Потребительское поведение пяти семей характеризуется расходами в летние месяцы на питание (
Требуется с помощью иерархического агломеративного алгоритма провести классификацию семей и построить дендрограмму.
Рисунок 4.2 – Расположение исходных данных в двумерном признаковом пространстве
Из геометрических соображений можно предположить существование двух классов: первый класс состоит из объектов Проведем классификацию, выбрав в качестве метрики расчета расстояния между объектами обычное евклидово расстоянии, а в качестве метрики расчета расстояния между классами принцип «ближайшего соседа». Сервис онлайн-записи на собственном Telegram-боте
Попробуйте сервис онлайн-записи VisitTime на основе вашего собственного Telegram-бота:— Разгрузит мастера, специалиста или компанию; — Позволит гибко управлять расписанием и загрузкой; — Разошлет оповещения о новых услугах или акциях; — Позволит принять оплату на карту/кошелек/счет; — Позволит записываться на групповые и персональные посещения; — Поможет получить от клиента отзывы о визите к вам; — Включает в себя сервис чаевых. Для новых пользователей первый месяц бесплатно. Зарегистрироваться в сервисе Согласно обычной евклидовой метрике расстояние между объектами
Изначально каждый объект рассматривается как отдельный класс, т.е. На первом шаге объекты
Проведя аналогичные расчёты для других классов объектов, получим матрицу межклассовых расстояний вида:
На втором шаге объекты
На третьем шаге на расстоянии 4, 12 к кластеру с объектами
На четвертом шаге на расстоянии 5, 83 все объекты объединяются в один кластер Представим результаты классификации в виде вертикальной дендрогаммы (рисунок 4.3):
Рисунок 4.3 – Дендрограмма объединения объектов
По виду дендрограммы пороговое значение расстояния целесообразно выбрать в интервале Рассчитав средние значения признаков в кластерах, получим:
Таким образом, можно сделать вывод, что объекты второго класса состоят из более обеспеченных семей, средние расходы которых и на питание, и на отдых превышают средние расходы семей первого кластера.
Дивизимные кластер-процедуры Основной принцип работы иерархических дивизимных процедур состоит в последовательном разделении групп объектов сначала самых далеких, а затем все более приближенных друг к другу. Первоначально считается, что все Общая схема работы агломеративных и дивизимных кластер-процедур приведена на рисунке 4.4:
Рисунок 4.4 – Процесс последовательного объединения (разделения) классов иерархическими методами кластерного анализа
Пример 4.2 По данным примера 4.1 требуется с помощью иерархического дивизимного алгоритма провести классификацию семей. Возьмем за основу, рассчитанную с помощью обычной евклидовой метрики, матрицу расстояний между объектами:
Согласно дивизимному алгоритму, изначально все объекты относятся к одному кластеру На первом шаге происходит разделение наиболее удаленных друг от друга объектов 1. 2. 3. Таким образом, имеет два класса со следующим составом: На втором шаге выделим из образовавшихся классов два, наиболее удаленных друг от друга, объекта На третьем шаге, на расстоянии 3, 61 следует разделить объекты На четвертом шаге, на расстоянии 2, 24 разделяем последнюю пару объектов Таким образом, все объекты были разделены, и каждый из них образует отдельный кластер6 Представим результаты дивизимного алгоритма классификации графически (рисунок 4.5).
Рисунок 4.5 – Результаты последовательного разделениря объектов с помощью иерархических дивизимных кластер-процедур На основе графического представления результатов классификации можно сделать вывод, что пять семей целесообразно разбить на два кластера: Рассчитав средние значения признаков в кластерах, получим:
Таким образом, можно сделать вывод, что объекты двух кластеров имеют примерно одинаковые средние значения расходов на питание, однако объекты второго класса представлены более обеспеченными семьями, средние расходы которых на отдых существенно превышают аналогичные расходы семей первого кластера.
|