Багатокаскадна декомпозиція даних

Как продвинуть сайт на первые места?

Вы создали или только планируете создать свой сайт, но не знаете, как продвигать? Продвижение сайта – это не просто процесс, а целый комплекс мероприятий, направленных на увеличение его посещаемости и повышение его позиций в поисковых системах.

Ускорение продвижения

Если вам трудно попасть на первые места в поиске самостоятельно, попробуйте технологию Буст, она ускоряет продвижение в десятки раз, а первые результаты появляются уже в течение первых 7 дней. Если ни один запрос у вас не продвинется в Топ10 за месяц, то в SeoHammer за бустер вернут деньги.

Начать продвижение сайта

Сервис онлайн-записи на собственном Telegram-боте

Тот, кто работает в сфере услуг, знает — без ведения записи клиентов никуда. Мало того, что нужно видеть свое расписание, но и напоминать клиентам о визитах тоже. Нашли самый бюджетный и оптимальный вариант: сервис VisitTime.
Для новых пользователей первый месяц бесплатно.

Чат-бот для мастеров и специалистов, который упрощает ведение записей:

— Сам записывает клиентов и напоминает им о визите;
— Персонализирует скидки, чаевые, кэшбэк и предоплаты;
— Увеличивает доходимость и помогает больше зарабатывать;

Начать пользоваться сервисом

Багатокаскадна декомпозиція даних

Алгоритмічна складність класичного ієрархічного алгоритму згортання – побудови дерева кластерів не дозволяє кластеризувати великі вибірки даних, в тому числі пікселів образів практичних розмірів. Тому запропоновано багатоступенева декомпозиція множин об’єктів і кластерів, яку назвемо каскадною кластеризацією.

Розбиваємо вхідну множину об’єктів Q (Q ₁, Q ₂, Q ₃, … Q_N)на p підмножин O ₁(Q ₁, Q ₂, Q ₃, … Q_z), O ₂(Q_z+ ₁, Q_z ₊₂, Q_z ₊₃, … Q_t), …, O_p (Q_t ₊₁, Q_t ₊₂, Q_t+ ₃, … Q_N). До кожної з підмножин (назвемо їх множинами нульового каскаду), застосуємо алгоритм кластеризації, утворивши множини відповідних кластерів K ₁(k ₁, k ₂, k ₃, …), K ₂(k_s, k_s ₊₁, k_s ₊₂, …), …, K_p (k_r, k_r ₊₁, k_r ₊₂, …), де k ₁, k ₂, …, k_i,... – кластери, об’єкти в яких відносяться до відповідних підмножин O ₁, O ₂, …, O_p. Утворимо множину кластерів 1-го каскаду кластеризації K об’єднанням:

K = K ₁(k ₁, k ₂, k ₃, …)

K ₂(k_s, k_s ₊₁, k_s ₊₂, …)

…

K_p (k_r, k_r ₊₁, k_r ₊₂, …). (2.20)

Застосуємо до цієї множини алгоритм кластеризації, розглядаючи кожен з кластерів k ₁, k ₂, …, k_i,... як базовий, тобто листок деревазгортання. При цьому вони (кластери 1-го каскаду) перемішуються, тобто виступають як незалежні. Утворену множину кластерів 1-го каскаду поділимо на підмножини O ₁, O ₂, …, O_p, даліздійснюєтьсякластеризація в межах підмножин до отримання множини кластерів 2-го каскаду. При отриманні кореня дерева згортання на 2-му каскаді матимемо двокаскадну декомпозицію, на третьому каскаді – трикаскадну і т.д. Кількість каскадів визначається кількістю рівнів ієрархічного дерева згортання, на яких здійснюється поділ кластерів на множини (без рівня об’єктів). Схема поділу та згортання є рекурсивною (рис. 2.4).

Запишемо алгоритм каскадної кластеризації:

Крок 1. Вхідну множину точок С поділити на p підмножин С_p.

Забиваем Сайты В ТОП КУВАЛДОЙ - Уникальные возможности от SeoHammer

Каждая ссылка анализируется по трем пакетам оценки: SEO, Трафик и SMM. SeoHammer делает продвижение сайта прозрачным и простым занятием. Ссылки, вечные ссылки, статьи, упоминания, пресс-релизы - используйте по максимуму потенциал SeoHammer для продвижения вашего сайта.

Что умеет делать SeoHammer

— Продвижение в один клик, интеллектуальный подбор запросов, покупка самых лучших ссылок с высокой степенью качества у лучших бирж ссылок.
— Регулярная проверка качества ссылок по более чем 100 показателям и ежедневный пересчет показателей качества проекта.
— Все известные форматы ссылок: арендные ссылки, вечные ссылки, публикации (упоминания, мнения, отзывы, статьи, пресс-релизы).
— SeoHammer покажет, где рост или падение, а также запросы, на которые нужно обратить внимание.

SeoHammer еще предоставляет технологию Буст, она ускоряет продвижение в десятки раз, а первые результаты появляются уже в течение первых 7 дней.

Зарегистрироваться и Начать продвижение

Крок 2. Для кожної С_p застосувати алгоритм кластеризації.

Крок 3. Отримані вихідні кластери С_pres перенести в єдину множину С_res.

Крок 4. Якщо можна поділити множину С_res на p підмножин, то перехід на крок 1, інакше перехід на крок 2.

Після зупинки алгоритму множина С_res міститиме результат кластеризації.

Рис. 2.4. Каскадне дерево формування кластерів

Таким чином, отримуємо зменшення розмірності та складності алгоритму, що дозволяє застосовувати підхід до даних великої розмірності.

На кількість каскадів вказують коефіцієнти поділу: наприклад, 20000 об’єктів розбивається на 100 груп по 200 об’єктів з виходом на 2-ий каскад по 20 кластерів з групи. Тоді на 2-гому каскаді є 100∙ 20=2000 кластерів, які ділимо ще на 10 груп по 200 елементів з виходом на вищий каскад 20 кластерів з групи. Кількість каскадів визначається автоматично в залежності від кількості кластерів, до яких застосовується повний перебір. Питання вибору потужностей множин O ₁, O ₂, …, O_p в межах каскадів і, відповідно, їх кількостізалишається відкритим для дослідження.

При дослідженні алгоритму 10000 об’єктів генерувались за рівномірним та нормальним законами розподілу з різними центрами координат та однаковими дисперсіями. Тестування проведені для різної кількості множин (відповідно, їх потужностей) для 0-го каскаду кластеризації. Як і очікувалось, результати, отримані на кінцевому каскаді можна охарактеризувати так:

1) Якісні та кількісні показники кластерів є тим кращими, чим більша кількість кінцевих кластерів виходить з групи. Менша кількість груп дає кращі результати;

2) Часові показники програми зворотні, тобто вони менші для меншої кількості елементів в кожній групі, а кількість груп є максимально можлива.

При каскадній декомпозиції важливим питанням є вибір потужностей множин O ₁, O ₂, …, O_p в межах каскадів і, відповідно, їх кількості. Вагомим також є попередня обробка даних у межах множин O ₁, O ₂, …, O_p, що якісно впливає на результат кластеризації.

Можливі два способи розбиття вхідної множини на підмножини O ₁, …, O_p:

1) Поділ на підмножини без попередньої обробки, наприклад, розбиття випадковим чином. Через перемішування і об’єднання значень, що реально розташовані на далеких відстанях, даний підхід має тільки теоретичне значення. В ньому результати кластеризації в порівнянні з іншими правилами розбиття є найгіршими. Складність алгоритму в даному підході визначається кількістю значень n_i в підмножині O_i та кількістю самих підмножин розбиття, а саме: O (p ∙ n_i ³);

Сервис онлайн-записи на собственном Telegram-боте

Попробуйте сервис онлайн-записи VisitTime на основе вашего собственного Telegram-бота:
— Разгрузит мастера, специалиста или компанию;
— Позволит гибко управлять расписанием и загрузкой;
— Разошлет оповещения о новых услугах или акциях;
— Позволит принять оплату на карту/кошелек/счет;
— Позволит записываться на групповые и персональные посещения;
— Поможет получить от клиента отзывы о визите к вам;
— Включает в себя сервис чаевых.

Для новых пользователей первый месяц бесплатно.

Зарегистрироваться в сервисе

2) Поділ на підмножини згідно кількості та розташування. Розташування контролюється сортуванням вхідної вибірки за однією пріоритетною координатою (ознакою). Далі за цією ж координатою здійснюється поділ на підмножини за значенням кожної з потужностей. До підмножин застосовується алгоритм каскадної кластеризації.

Вибір пріоритетної координати покладається на користувача програми. Складність алгоритму збільшується на одне сортування повної вибірки, тобто стає рівною: O (p ∙ n_i ³) + O (N ²).

Алгоритм розроблено для ілюстрації впливу цілеспрямованого поділу вхідної вибірки даних, яка не може бути кластеризована класичним алгоритмом через великий об’єм.

Розглянемо алгоритми розбиття вхідної множини n -вимірних даних на підмножини.

Поділ на підмножини випадковим чином. Нехай потрібно поділити множину С, що складається із s точок на p підмножин. Алгоритм розбиття на підмножини:

Крок 1. Утворити p порожніх підмножин, i = 0, count = [ s / p ].

Крок 2. Якщо С ≠

, отримати точку s_t за допомогою функції random (s), яка повертає індекс точки у межах від 0 до s у вихідній множині. Інакше перехід на крок 4.

Крок 3. Якщо кількість точок у підмножині p_i є більша за count то i = i +1.

Крок 4. Перенести точку s_t у підмножину p_i. Перехід на крок 1.

Крок 5. Перенести всі точки із С у підмножину p_i.

Результуючі підмножини p_i (i = 1, 2, …, count -1) міститимуть однакову кількість точок. Підмножина p_count міститиме на { s / p } точок більше.

Поділ на підмножини сортуванням по одній вимірності. Вхідну множину сортуємо за однією вимірністю точки. Далі застосовуємо алгоритм поділу на підмножини, що базується на попередньому алгоритмі, де замість функції random (s) беремо першу точку множини С. Далі застосовуємо алгоритм кластеризації. Для сортування використовуємо алгоритм QuickSort.

Результати досліджень зведено у табл. 2.1. В таблиці приведено часовий виграш по відношенню до декомпозиції без каскадів та груп (в %). Результати таблиці дозволяють вибрати оптимальне співвідношення між кількістю груп, кількістю кластерів в групі, якісних оцінок результатів кластеризації та часових затрат на декомпозицію множини ключів образів.

На рис. 2.5 продемонстровано характер зміни функції критерію об’єднання вершин дерева (кластерів) при збільшенні рівня ієрархії дерева. На рис. 2, а зображено декомпозицію без групування та каскадів, на рис. 2, б –декомпозицію із групуванням та одним каскадом, на рис. 2, в – декомпозицію із групуванням та двома каскадами. Графіки дозволяють знайти оптимальне розбиття ключів за такими оцінками: 1) за кількістю кластерів 2) за кількістю ключів в кластерах, 3) за якісними характеристиками розбиття вцілому, та окремими кластерами (питомі густина, об’єм, дисперсія тощо).

Рис. 2.5. Графіки функцій критерію об’єднання

Рис. 2.6. Питомі об’єм та густина за рівнями дерева згортання

Рис. 2.7. Функція відстані та питомої дисперсії за рівнями дерева згортання
із каскадною декомпозицією

Рис. 2.8 ілюструє залежність характеристики питомого об’єму (a) та зміну питомої густини (б) під час процесу згортання із каскадною декомпозицією.

Рис. 2.9 ілюструє залежність характеристики питомого об’єму (a) за кількістю кластерів на рівні дерева згортання та зміну функції на ділянці 0÷ 60 кластерів на рівні (б) під час процесу згортання.

Рис. 2.8. Питомі об’єм та густина за рівнями дерева згортання
із каскадною декомпозицією

Рис. 2.9. Питомий об’єм за кількістю кластерів на рівні
та ділянка 0-60 кластерів на рівні

Табл. 2.2 демонструє зміну часової залежності (алгоритмічну складність) від коефіцієнту швидкості (0, 1%, 5%, 10%) та алгоритму згортання без та з використанням каскадної декомпозиції.