Постановка задачи снижения размерности признакового пространства

⇐ ПредыдущаяСтр 36 из 59Следующая ⇒

Рассмотрим случайный вектор . Будем предполагать, что исходные признаки центрированы, т.е. , . Число признаков k велико. Задача снижения размерности признакового пространства заключается в построении новой системы признаков с существенно меньшим числом компонент, .

Необходимость снижения размерности признакового пространства обусловлена следующим причинами:

1. необходимостью наглядного представления исходных данных, что может достигаться их проецированием на специально подобранное трехмерное пространство, плоскость или числовую прямую;

2. стремлением к упрощению исследуемых моделей, обусловленным необходимостью упрощения счета и интерпретации полученных результатов;

3. необходимостью снижения объемов хранимой информации.

Возможность снижения размерности признакового пространства обусловлена следующими предпосылками:

4. неинформативностью признаков, значения которых мало меняются при переходе от одного объекта к другому. Неинформативность признака иллюстрирует рисунок 5.1а;

5. дублированием информации по причине корреляции исходных признаков. Графическая интерпретация решения задачи снижения размерности в случае корреляции двух признаков представлена на рисунке 5.1б;

6. возможностью агрегирования исходных признаков (простого или «взвешенного» суммирования некоторых признаков).

а) б)

Рисунок 5.1 – Графическая иллюстрация снижения размерности признакового пространства

Первой главной компонентой называется такая линейная комбинация исходных центрированных признаков (), которая среди всех прочих линейных комбинаций исходных центрированных признаков обладает наибольшей дисперсией [12].

S -ой главной компонентой называется такая линейная комбинация исходных центрированных признаков (), которая не коррелированна с s -1 предыдущими главными компонентами и среди всех прочих линейных комбинаций исходных центрированных признаков, некоррелированных с s -1 предыдущими главными компонентами, обладает наибольшей дисперсией, .

Под критерием информативности новой системы признаков в методе главных компонент понимается отношение сумм дисперсий новых признаков и исходных признаков:

. (5.1)

⇐ Предыдущая 31 32 33 34 353637 38 39 40 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.