Математико-статистические идеи метода

⇐ ПредыдущаяСтр 107 из 135Следующая ⇒

Классы, на которые разбито множество объектов, можно представить как значения некоторой классифицирующей («зависимой») переменной, измеренной в шкале наименований. Дискриминантные переменные представлены в числовой шкале. Основная задача дискриминантного анализа заключается в том, чтобы по значениям дискриминантных переменных для объектов получить значения классифицирующей переменной, то есть определить классы, в которые попадают эти объекты.

Дискриминантные переменные, количество которых равно Р, можно представить себе как ортогональные оси Р -мерного евклидова пространства. Тогда каждый объект будет являться точкой в этом пространстве, положение которой задано значениями дискриминантных переменных для этого объекта как его координатами. Так, если переменных две, то объект может быть изображен на плоскости в месте пересечения координат, соответствующих значениям этих двух переменных для данного объекта. Если переменных три, то объект представляет собой точку в трехмерном пространстве, и т. д.

Множество объектов в пространстве Р признаков можно представить как скопление точек. Чем более объекты похожи друг на друга по данным признакам, тем плотнее будет скопление точек. Если несколько классов объектов отличаются друг от друга по дискриминантный переменным, то их можно представить как соответствующие классам скопления точек в некоторых областях P -мерного пространства признаков. Чем больше объекты внутри каждого класса похожи друг на друга и отличаются от объектов из другого класса, тем меньше пересечений соответствующих классам «территорий».

Для каждого класса в пространстве признаков можно определить положение центроида — точки, координаты которой есть средние значения дискриминантных переменных для данного класса. Центроид — это место типичных наблюдений для данного класса, его можно использовать как для описания различий между классами, так и для определения принадлежности «неизвестных» объектов к одному из классов.

Из геометрической интерпретации задачи дискриминантного анализа следует правило классификации объектов: объект приписывается к тому классу, к центроиду которого он ближе всего. Соответственно, сама задача классификации объектов сводится к определению расстояний от каждого объекта до центроидов каждого класса по известным значениям дискриминантаых переменных.

В современных компьютерных программах задача классификации решается с помощью канонических дискриминантных функций. Канонические функции — это ортогональные оси, в максимальной степени различающие центроиды классов, Началом координат для канонических функций является «главный центроид» — точка, координаты которой есть средние значения всех дискриминантных переменных. Первая каноническая ось ориентирована в направлении, в котором центроиды классов различаются в максимальной степени. Если классов больше двух, то вторая ось ориентирована перпендикулярно первой в направлении максимального различия классов и т. д. Максимальное число таких функций равно числу классов за вычетом единицы. Так, для различения двух центроидов (классов) достаточно одной оси, для различения трех классов — двух канонических функций, и т. д. Таким образом, канонические функции позволяют преобразовать P -мерное пространство исходных признаков в Q -мерное пространство дискриминантных функций (Q = G— 1, где G — число классов). Обсуждение процедуры получения канонических функций выходит за рамки этой книги. Отметим лишь, что в ее основе лежит анализ ковариационных и корреляционных матриц, а процедура их получения и результат весьма напоминают факторный анализ.

Канонические функции и дискриминантные переменные связывают стандартизированные канонические коэффициенты, которые позволяют оценить относительный вклад переменных в каждую каноническую функцию. В отличие от них, структурные коэффициенты канонических функций — это корреляции канонических функций и дискриминантных переменных. Как и факторные нагрузки в факторном анализе, структурные коэффициенты отражают связь дискриминантных переменных с каноническими функциями. Структурные коэффициенты канонических функций показывают вклад каждой дискриминантной переменной в различительную способность соответствующей функции. Таким образом, каждая каноническая функция может быть проинтерпретирована через переменные, вносящие в нее наибольший по абсолютной величине вклад — подобно интерпретации факторов по факторным нагрузкам в факторном анализе.

Анализ канонических функций сопровождается получением важных статистических показателей качества классификации. Основными из них являются: собственное значение канонической функции, -Вилкса и -тeст.

Собственное значение канонической функции, как и в факторном анализе, есть показатель информативности функции. Сумма всех собственных значений равна числу классов. Соответственно, собственное значение для данной канонической функции, деленное на количество классов, есть показатель ее информативности — доли суммарной дисперсии всех объектов по всем переменным, которая исчерпывается этой канонической функцией.

-Вилкса выполняет ту же функцию, что и в MANOVA, то есть является мерой достоверности различения классов при помощи данного набора переменных. -Вилкса — это мера остаточной дискриминативной способности переменных при учете данного набора канонических функций. Следовательно, чем меньше -Вилкса, тем лучше данная каноническая функция (или весь их набор) различает объекты. -тест позволяет определить статистическую достоверность такого различения.

ПРИМЕР

Предположим, в результате дискриминантного анализа для трех классов были получены две канонические функции. Основные их показатели приведены ниже в таблице.

Функции	Собственное значение	% дисперсии	-Вилкса		p -уровень
	2, 794	95, 6	0, 233	22, 549	0, 004
	0, 129	4, 4	0, 886	1, 879	0, 598

Первая каноническая функция обладает 95, 6% общих дискриминативных возможностей, а вторая — всего 4, 4%. Величина = 0, 233 для первой канонической функции показывает остаточную дискриминативную способность после учета всех канонических функций, а величина = 0, 886 — остаточную дискриминативную способность при учете только второй канонической функции. Общая дискриминативная способность канонических функций достоверна на высоком уровне статистической значимости (р = 0, 004), а статистическая значимость второй канонической функции явно мала (р = 0, 598). Таким образом, различие классов по второй канонической функции не подлежит содержательной интерпретации. В принципе, ее можно исключить из анализа, но при условии, что качество классификации при этом сохранится на приемлемом для исследователя уровне.

Значения канонических функций вычисляются для каждого объекта по формуле, которая идентична по виду линейному уравнению множественной регрессии:

где Y_ik — значение канонической функции k для объекта i, а , …, канонические коэффициенты для каждой из дискриминантных переменных. Значения канонических функций вычисляются для каждого центроида и каждого объекта, в том числе — «неизвестного», для которого не известна принадлежность к классу, и интерпретируются как их координаты в пространстве канонических функций. В этом пространстве малой размерности можно получить наглядное отображение всех объектов вместе с центроидами классов.

Принадлежность объекта к классу в большинстве компьютерных программ дискриминантного анализа определяется по расстоянию этого объекта до центроида соответствующего класса в пространстве канонических функций. Объект причисляется к тому классу, к центроиду которого он ближе всего. Однако надо помнить, что если расстояние объекта до класса велико (то есть профиль объекта мало похож на среднегрупповой), то объект может быть причислен к данному классу, поскольку до остальных классов он еще дальше.

Определение принадлежности неизвестных объектов

Производной от расстояния является еще одна мера классификации — апостериорная вероятность принадлежности к классу. Априорная вероятность («до опыта») принадлежности «нового» объекта к классу равна численности «известных» объектов этого класса, деленной на все «известные» объекты. Эта вероятность известна и без дискриминантного анализа, «до опыта». Апостериорная вероятность («после опыта») вычисляется исходя из расстояний данного объекта до центроидов каждого класса в предположении, что он принадлежит к одному из этих классов. Для любого объекта, следовательно, сумма этих вероятностей по всем классам равна 1. И чем меньше расстояние этого объекта до центроида класса, тем выше апостериорная вероятность его принадлежности к этому классу. Отнесение объекта к классу на основе наибольшей из вероятностей, таким образом, эквивалентно использованию наименьшего расстояния до центроида этого класса.

Вычисленные расстояния или апостериорные вероятности для известных объектов позволяют определить точность классификации и проанализировать ошибки, а для неизвестных — отнести объекты к одному из классов.

Анализ дискриминантных переменных позволяет, если это необходимо, отсеять несущественные для предсказания дискриминантные переменные. Наиболее важными показателями в этом анализе являются: критерий F-Фишера, толерантность и статистика F-удаления. Значимость каждой переменной для разделения классов определяется по F -Фишера по модели дисперсионного анализа. Толерантность равна единице минус квадрат коэффициента множественной корреляции этой переменной со всеми остальными. Если толерантность равна нулю, то эта переменная является линейной комбинацией одной или нескольких других переменных и ее нельзя включать в анализ, равно как и переменные с очень малой толерантностью (скажем, меньше 0, 001). Статистика F- удаления оценивает ухудшение разделения классов при удалении данной переменной из набора. Следовательно, чем больше значение этой статистики, тем более значима данная переменная для различения классов. На величину статистики F -удаления влияет не только различительная способность самой этой переменной (как в модели дисперсионного анализа), но и ее связь с другими переменными: чем сильнее она связана с другими переменными, тем меньше статистика F -удаления, тем меньше значение данной переменной.

Компьютерные программы позволяют автоматически отсеять малозначимые для дискриминантного анализа переменные. Во-первых, программа (SPSS) автоматически исключает из анализа переменные с низкой толерантностью. Во-вторых, возможен пошаговый дискриминантный анализ. При пошаговом методе переменные удаляются из анализа или включаются в него на основе улучшения (ухудшения) качества различения классов (обычно — по - Вилкса). Критериями для включения и удаления переменной являются статистики F -включения и F -удаления, которые показывают степень улучшения и ухудшения различения классов при включении и удалении данной переменной. Численные значения этих статистик могут быть заданы пользователем программы.

Дополнением к задаче классификации является анализ расстояний между классами. Программы обычно вычисляют значения F -критерия Фишера и p- уровень статистической значимости расстояния. Анализ расстояний позволяет определить, насколько существенно различаются классы по выбранным для анализа дискриминантный переменным.

Несмотря на обилие статистических критериев и показателей качества классификации, основным ориентиром для исследователя должно все же являться сопоставление действительной классификации «известных» объектов и их классификации при помощи канонических функций. Таким образом, основным показателем качества является процент совпадения этих двух классификаций.

Дискриминантный анализ относится к наиболее сложным методам, поэтому здесь мы ограничились лишь минимумом сведений, необходимых для понимания его основ. Более детальную информацию о порядке интерпретации основных показателей дискриминантного анализа можно почерпнуть в последнем разделе этой главы, где разбирается конкретный пример применения этого метода.

⇐ Предыдущая 102 103 104 105 106107108 109 110 111 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.