Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Алгоритм оценки главных компонент






 

Ставится задача на основе выборочных данных, представленных в виде матрицы X типа «объект-свойство» с элементами , характеризующими наблюдённое значение j -го признака для i -го объекта выборочной совокупности, , и k велико, снизить размерность признакового пространства методом главных компонент.

На основе выборочных данных можно найти лишь оценки теоретических характеристик, рассмотренных ранее. Это влечет за собой проверку ряда статистических гипотез. Предполагая, что вектор исходных признаков распределен по нормальному закону , алгоритм снижения размерности признакового пространства с использованием метода главных компонент представлен ниже.

1. На основе матрицы X типа «объект-свойство» рассчитывается оценка ковариационной матрицы (, где под X понимается матрица центрированных значений исходных признаков) или корреляционной матрицы в случае центрировано-нормированных признаков , где (, где под X понимается матрица центрировано-нормированных значений исходных признаков).

2. Проверка гипотезы о диагональности матрицы или незначимости корреляционной матрицы .

, (ковариационная матрица диагональная),

(ковариационная матрица отлична от диагональной).

Для проверки нулевой гипотезы используется статистика:

 

, (5.6)

где – априорная оценка корреляционной матрицы.

При расчете наблюдаемого значения статистики (5.6) определитель матрицы можно вычислить как произведение оценок собственных чисел матрицы : .

Статистика (5.6) при и справедливости гипотезы имеет распределение «Хи-квадрат» с числом степеней свободы [12].

В случае диагональности матрицы собственными числами этой матрицы будут являться элементы, стоящие на главной диагонали, т.е. дисперсии исходных признаков, а собственные векторы совпадут с единичными векторами исходной системы координат. Таким образом, главными компонентами с точностью до обозначения будут являться исходные признаки.

Для проверки гипотезы о незначимости корреляционной матрицы используется критерий Уилкса.

(корреляционная матрица незначима),

(корреляционная матрица отлична от единичной).

Для проверки нулевой гипотезы используется статистика:

 

, (5.7)

 

Статистика (5.7) при и справедливости гипотезы имеет распределение «Хи-квадрат» с числом степеней свободы [43].

3. Нахождение точечных и интервальных оценок собственных значений матрицы или .

Для построения доверительного интервала для собственного числа с вероятностью используется следующее асимптотическое свойство: случайная величина при имеет нормальный закон распределения с параметрами [12]. В результате решения уравнения , где доверительный интервал для i -ого собственного числа при большом объеме выборки имеет вид:

 

, (5.8)

 

где – точечная оценка собственного числа ;

– квантиль уровня стандартного нормального закона распределения.

Если доверительный интервал какого-то собственного числа содержит внутри себя оценки для других собственных чисел, то следует заподозрить кратность (повторение) собственных чисел.

4. Проверка гипотезы о кратности собственных чисел (если есть на это основание).

Нулевая гипотеза о равенстве r характеристических корней формулируется следующим образом:

.

Очевидно, альтернативой этой гипотезе является утверждение, что не все корни среди равны между собой.

Для проверки нулевой гипотезы используется следующая статистика:

 

. (5.8)

 

Статистика (5.8) в предположении справедливости проверяемой гипотезы и распределена по закону «Хи-квадрат» с числом степеней свободы [12].

Возможно обобщение асимптотического доверительного интервала на случай кратных корней [12]. Если r – это кратность корня , то доверительный интервал для неизвестного значения , построенный с вероятностью имеет вид:

 

,

 

где .

5. Оценка уровня информативности и проверка гипотезы о достаточности m главных компонент с помощью критерия Бартлетта ().

Так как на основании выборочных данных можно рассчитать лишь оценку критерия информативности, то необходимо проверить гипотезу о том, что m главных компонент вносят существенный вклад в дисперсию исходных признаков. Нулевая и альтернативная гипотезы формулируются следующим образом:

m главных компонент достаточно,

m главных компонент недостаточно.

При для проверки нулевой гипотезы можно воспользоваться -критерием Бартлетта:

 

, (5.9)

 

где .

При справедливости нулевой гипотезы статистика (5.9) имеет распределение «Хи-квадрат» с числом степеней свободы [43].

Если m главных компонент обеспечивают высокий уровень информативности, то соответствующие им собственные числа () являются достаточно большими и отличными друг от друга, а оставшиеся собственных чисел будут схожими друг с другом. Поэтому в дополнение к ранее рассмотренной гипотезе о достаточности m главных компонент можно проверить следующую гипотезу:

.

Для проверки нулевой гипотезы используется следующая статистика:

 

. (5.10)

 

Статистика (5.10) в предположении справедливости проверяемой гипотезы и распределена по закону «Хи-квадрат» с числом степеней свободы [12].

6. Построение главных компонент.

7. Нахождение матрицы нагрузок.

8. Интерпретация главных компонент. Анализируя, с какими исходными признаками тесно коррелирует та или иная главная компонента, подбираются названия новым признакам.

9. Нахождение матрицы индивидуальных значений центрировано-нормированных главных компонент.

Обозначим матрицу индивидуальных значений центрировано-нормированных главных компонент следующим образом:

 

,

 

где – индивидуальное значение r -ой центрировано-нормированной главной компоненты для i -го объекта выборочной совокупности.

Можно записать: . Тогда если , то .

В общем случае , умножим левую и правую часть выражения на слева: . В результате матрица индивидуальных значений центрировано-нормированных главных компонент рассчитывается по формуле: .

 

5.2 Факторный анализ: метод общих (главных) факторов

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.