Анализ главных компонент и факторный анализ

⇐ ПредыдущаяСтр 92 из 135Следующая ⇒

Модель главных компонент лежит в основе большинства методов факторного анализа и часто рассматривается как один из его самостоятельных вариантов. Анализ главных компонент преобразует набор коррелирующих исходных переменных в другой набор — некоррелирующих переменных. Проше всего понять суть этого метода, привлекая геометрические представления.

Предположим, у нас имеются две положительно коррелирующие переменные Х и Y, измеренные на группе объектов. Тогда график двумерного распределения (рассеивания) этих объектов в осях измеренных признаков (координаты объектов заданы значениями признаков) будет представлять собой эллипс, так как большим значениям переменной X будут соответствовать большие значения переменной Y и наоборот (рис. 16.1). Главная ось эллипса M₁, — это прямая, вдоль которой будет наблюдаться наибольший разброс данных. Вдоль второй оси эллипса M₂, перпендикулярной первой и проходящей через ее середину, будет наблюдаться наименьший разброс данных.

Если перед нами стоит задача представления объектов (точек) в терминах только одной размерности (переменной), то главная ось эллипса является наиболее подходящей, так как вдоль нее объекты отличаются друг от друга лучше (дисперсия больше), чем вдоль любой другой прямой, в том числе и вдоль отдельно оси X или Y. Анализ главных компонент в отношении этих двух признаков и состоит в переходе от них к главной компоненте, соответствующей главной оси эллипса, и в представлении объектов в значениях проекций объектов на эту ось (главную компоненту). Иначе говоря, происходит переход от координат каждого объекта по двум осям (X, Y) к их координатам только по одной оси M₁ — главной компоненте (рис. 16.1). Отметим, что в случае отсутствия взаимосвязи двух признаков главной компоненты просто не существует, так как обе оси (компоненты) являются равнозначными.

a) Х и Y коррелируют б) Х и Y не коррелируют

Рис. 16.1. Компоненты M₁ и M₂ двумерного распределения признаков Х и Y

Анализ главных компонент можно представить как преобразование информации, содержащейся в исходных данных. Так, определяя главную компоненту как направление, в котором наблюдается наибольший разброс объектов, представляя объекты в единицах измерения по этой оси, мы теряем минимум информации об отличии объектов друг от друга. Чем сильнее взаимосвязь двух переменных, тем меньше исходной информации теряется при переходе от двух переменных к одной главной компоненте. Если две переменные не коррелируют, то компоненты (оси) являются равнозначными по информативности, и невозможно определить одну из них как «главную».

При наличии более двух коррелирующих переменных принцип определения главных компонент тот же. В осях трех и более переменных график разброса объектов будет представлять собой эллипсоид (овальное тело) в пространстве трех и более измерений. Первая ось этого эллипсоида пройдет по его наибольшему диаметру, вторая — по наибольшему диаметру в плоскости, рассекающей эллипсоид посередине и перпендикулярно первой оси, и так далее. Количество осей этого эллипсоида будет равно количеству переменных, и в направлении каждой последующей оси будет все меньший и меньший разброс наблюдений. При этом количество компонент, которые исследователь выбирает как «главные», определяется произвольно. Таким образом, анализ главных компонент решает задачу сокращения количества переменных при условии сохранения максимальной доли дисперсии наблюдений.

Анализ главных компонент является исходной процедурой многих методов факторного анализа и может рассматриваться как их упрощенный аналог. Поэтому более подробно рассмотрим на его примере наиболее важные понятия факторного анализа.

В основе анализа главных компонент лежит математический метод нахождения собственных значений и собственных векторов корреляционной матрицы. Не останавливаясь на определениях и процедурах этого метода, отметим то, что действительно имеет существенное значение для дальнейшего понимания основ факторного анализа. В процессе компонентного анализа решается уравнение (в матричной форме):

(16.1)

где R — исходная матрица корреляций; А — матрица, каждый элемент которой a_ik — компонентная нагрузка переменной i (строка) по компоненте k (столбец); А' — транспонированная матрица А. Уравнение 16.1 Л.Терстоун назвал «фундаментальной факторной теоремой» (Г. Харман, 1972). Результатом решения этого уравнения является матрица компонентных нагрузок А.

Рассмотрим важные особенности матрицы компонентных нагрузок на примере компонентного анализа корреляционной матрицы, представленной в табл. 16.1. Решение уравнения 16.1 позволяет получить матрицу компонентных нагрузок (табл. 16.3).

Таблица 16.3

⇐ Предыдущая 87 88 89 90 919293 94 95 96 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.