Главная страница Случайная страница Разделы сайта АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Постановка задачи снижения размерности признакового пространства
Рассмотрим случайный вектор . Будем предполагать, что исходные признаки центрированы, т.е. , . Число признаков k велико. Задача снижения размерности признакового пространства заключается в построении новой системы признаков с существенно меньшим числом компонент, . Необходимость снижения размерности признакового пространства обусловлена следующим причинами: 1. необходимостью наглядного представления исходных данных, что может достигаться их проецированием на специально подобранное трехмерное пространство, плоскость или числовую прямую; 2. стремлением к упрощению исследуемых моделей, обусловленным необходимостью упрощения счета и интерпретации полученных результатов; 3. необходимостью снижения объемов хранимой информации. Возможность снижения размерности признакового пространства обусловлена следующими предпосылками: 4. неинформативностью признаков, значения которых мало меняются при переходе от одного объекта к другому. Неинформативность признака иллюстрирует рисунок 5.1а; 5. дублированием информации по причине корреляции исходных признаков. Графическая интерпретация решения задачи снижения размерности в случае корреляции двух признаков представлена на рисунке 5.1б; 6. возможностью агрегирования исходных признаков (простого или «взвешенного» суммирования некоторых признаков).
а) б) Рисунок 5.1 – Графическая иллюстрация снижения размерности признакового пространства Первой главной компонентой называется такая линейная комбинация исходных центрированных признаков (), которая среди всех прочих линейных комбинаций исходных центрированных признаков обладает наибольшей дисперсией [12]. S -ой главной компонентой называется такая линейная комбинация исходных центрированных признаков (), которая не коррелированна с s -1 предыдущими главными компонентами и среди всех прочих линейных комбинаций исходных центрированных признаков, некоррелированных с s -1 предыдущими главными компонентами, обладает наибольшей дисперсией, . Под критерием информативности новой системы признаков в методе главных компонент понимается отношение сумм дисперсий новых признаков и исходных признаков:
. (5.1)
|