Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Проверка гипотезы о независимости двух номинальных признаков






 

Ставится задача на основе выборочных данных, сформированных методом перекрестного отбора и представленных в виде двухфакторной таблицы сопряженности установить, есть ли связь между признаками X и Y.

Для решения этой задачи формулируются следующие гипотезы:

, , (признаки X и Y независимы);

(признаки X и Y зависимы).

Для проверки гипотезы используется критерий Пирсона , статистика которого имеет вид:

 

, (3.11)

 

где – теоретические частоты, т.е. те частоты, которые были бы при справедливости нулевой гипотезы.

Выведем на основе формулировки нулевой гипотезы формулу для расчета теоретических частот. Работая с выборкой, вероятности , , не известны. Заменяя их оценками, получаем: или .

Согласно теореме К. Пирсона и Р. Фишера статистика (3.11) при справедливости гипотезы , и отсутствии малых теоретических частот имеет распределение «Хи-квадрат» с числом степеней свободы [12, 15, 16, 42, 49, 50].

Альтернативой критерию Пирсона является информационный критерий или критерий -отношение правдоподобия [12, 15, 49], статистика которого имеет вид:

 

, (3.12)

 

Статистика (3.12) обладает теми же свойствами, что и статистика (3.11). На практике редко встречаются значительные расхождения между наблюдаемыми значениями статистик (3.11) и (3.12).

Замечания

1. Критерий Пирсона и информационный критерий рекомендуется применять при n > 20 [16] ( [40]) и отсутствии теоретических частот меньших 5.

2. Для таблиц сопряженности при n < 20 или при и наличии теоретических частот меньших 5 рекомендуется использовать точный критерий Фишера [12, 16, 42].

Точность критерия Пирсона значительно снижается при малых частотах в таблице сопряженности. В этом случае для таблиц Фишер предложил альтернативный метод, который стал именоваться точным критерием независимости Фишера. Он основан на рассмотрении лишь тех четырехклеточных таблиц, в которых маргинальные частоты , , , фиксированы и равны наблюдаемым значениям. Пусть одна из фиксированных маргинальных частот , , , достаточно мала. Тогда следует ожидать, что соответствующие частоты, дающие в сумме по строке или по столбцу эту маргинальную частоту, могут оказаться меньше 5. Распределение частот подчинено гипергеометрическому закону. Согласно этому закону вероятности получения в ячейках таблицы сопряженности разных наборов частот , , , могут быть вычислены по формуле:

 

, ; .

 

Критическая область состоит из тех, близких к нулю или максимальному возможному для выбранной клетки значению наблюдаемых частот, для которых сумма вероятностей не превосходит .

При вычислении вероятностей с помощью точного критерия Фишера при больших значениях факториалов сталкиваются с трудностями вычислительного характера. Чтобы этого избежать, можно воспользоваться нормальной аппроксимацией гипергеометрического закона:

 

.

 

Тогда статистика . Для построения двусторонней критической области необходимо решить уравнения . Получаем: , где – квантиль уровня стандартного нормального закона распределения.

3. Для таблиц сопряженности проверку гипотезы о независимости признаков рекомендуется осуществлять с помощью статистики с поправкой Йетса на непрерывность [12, 40], имеющую вид:

. (3.13)

 

4. Особый интерес представляет анализ таблиц сопряженности типа «до-после» с целью выявления влияния дихотомического качественного фактора на значение дихотомического результативного признака, например, влияния пропаганды на общественное мнение. При использовании схемы «до-после» ответы респондентов обычно представляются категориями типа «да-нет», «за-против», «положительно-отрицательно» и т.п. При этом принято положительный ответ обозначать знаком плюс, а отрицательный – знаком минус [40].

Пусть над одной и той же группой объектов производятся два эксперимента и необходимо установить, меняется ли распределение частот от одного эксперимента к другому. В этом случае исходные данные можно представить в виде таблицы сопряженности , однако составляющие её данные не являются независимыми [27]. Для выявления изменения соотношения частот в таблице сопряженности при изменении условий опыта используется критерий Мак-Нимара [27, 40]. Рассмотрим выборочную таблицу сопряженности:

 

До\После +
+
n

 

Для проверки гипотезы (условия опыта не влияют на результат) Мак-Нимар предложил статистику:

 

; (3.14)

 

Статистика (3.14) при справедливости гипотезы и распределена по закону «Хи-квадрат» с числом степеней свободы .

 

Меры связи для таблицы сопряженности

 

Рассмотрим два дихотомических признака X и Y. Признак X может принимать значения ; признак Y. Выборочные данные, содержащие значения признаков X и Y для n объектов наблюдения, представлены в виде двухфакторной таблицы сопряженности , имеющей вид:

 

\
n

 

Если гипотеза о независимости признаков X и Y отвергнута, т.е. признаки связаны между собой, необходимо количественно измерить силу этой взаимосвязи. Для описания связи предложено множество различных коэффициентов, называемых мерами связи.

Использование непосредственно статистики Пирсона в качестве меры связи неудобно, так как, во-первых, она зависит от числа строк, столбцов таблицы сопряженности, от объема выборки и, во-вторых, изменяется на интервале от нуля до бесконечности. Рассмотрим меры связи, основанные на статистике .

1. Фи-коэффициент (коэффициент Чупрова-Крамера)

Выборочное значение коэффициента рассчитывается по формуле:

 

, . (3.15)

Чем ближе значение коэффициента к 1, тем теснее связи между признаками Х и Y.

2. Коэффициент сопряженности Пирсона

Выборочное значение коэффициента рассчитывается по формуле:

 

, . (3.16)

 

3. Коэффициент контингенции Крамера

Выборочное значение коэффициента рассчитывается по формуле [16, 27]:

 

, . (3.17)

 

Справедливы формулы , . Коэффициент контингенции называют коэффициентом корреляции между Х и Y.

Если , то связь между признаками Х и Y «положительная», т.е. значение одного признака чаще сопровождается значением другого признака. Если , то связь между признаками Х и Y «отрицательная», т.е. значение одного признака чаще сопровождается значением другого признака.

4) - коэффициент Гудмена и Краскала

Выборочное значение коэффициента рассчитывается по формуле:

 

, . (3.18)

 

Справедлива формула . Коэффициент называют коэффициентом детерминации признаков Х и Y.

Часто один из двух признаков является исходным по отношению к другому. Пусть Y – результативный признак, X – факторный. Нас интересует вероятность того, что . Введем две характеристики:

 

– шансы появления при условии, что ;

 

– шансы появления при условии, что .

 

Найдем оценки шансов:

 

; .

 

Сопоставляя различными способами шансы и , можно получают различные меры связи, которые принято относить к группе мер связи, основанных на отношении преобладаний (шансов).

1. Коэффициент ассоциации Юла [16, 27]

 

, . (3.19)

 

Коэффициент ассоциации обладает свойствами коэффициента корреляции:

1. изменяется от -1 до +1;

2. если Q > 0, то связь «положительная», т.е. если , то вероятнее всего , если , то вероятнее всего ;

3. если Q < 0, то связь «отрицательная», т.е. если , то вероятнее всего , если , то вероятнее всего ;

4. если Q =0, то признаки независимы;

5. если Q =1, то связь функциональная «положительная», т.е. и ();

6. если Q =-1, то связь функциональная «отрицательная», т.е. и ().

Оценка коэффициента ассоциации , где апостериорная оценка дисперсии вычисляется по формуле . Это асимптотическое свойство может использоваться как при проверке значимости коэффициента ассоциации, так и при построении для него доверительного интервала.

Если зависимость между признаками не является функциональной, но одна из частот в клетке равна нулю, то , что дает преувеличенную оценку тесноты связи. В этих случаях целесообразно использовать коэффициент контингенции или коэффициент коллигации.

2. Коэффициент коллигации Юла [16, 27]

 

, . (3.20)

 

Коэффициенты ассоциации и коллигации связаны соотношением: . Свойства коэффициента коллигации аналогичны свойствам коэффициента ассоциации. Оценка коэффициента коллигации , где апостериорная оценка дисперсии вычисляется по формуле .

3. Отношение преобладаний (шансов) [15]

 

, . (3.21)

 

Эту характеристику связи ещё называют отношением перекрестных произведений. Если хотя бы одна из частот четырёхклеточной таблицы сопряженности равна нулю, то рассчитывается модифицированная характеристика связи:

 

.

 

Отношение перекрестных произведений принимает значения из диапазона , где значение 1 соответствует отсутствию связи. Это довольно необычно. Более привычный диапазон значений получается при работе с натуральным логарифмом отношения преобладаний или , который изменяется в пределах от , имея для случая отсутствия связи значение 0.

 

Меры связи для таблицы сопряженности

 

Рассмотрим меры связи, основанные на статистике Хи-квадрат.

1. Фи-коэффициент (коэффициент Чупрова-Крамера)

Выборочное значение коэффициента рассчитывается по формуле (3.15).

2. Коэффициент сопряженности Пирсона [15, 16, 27]

Выборочное значение коэффициента рассчитывается по формуле (3.16). Если связь между признаками отсутствует, то . Чем ближе значение P к 1, тем теснее связь. Однако максимальное значение данного коэффициента зависит от числа строк и столбцов таблицы сопряженности и определяется по формуле . Чтобы исправить этот недостаток, предлагаются следующие два коэффициента.

3. Коэффициент Чупрова

Выборочное значение коэффициента рассчитывается по формуле [15, 16, 27]:

 

. (3.22)

 

Если , то коэффициент в пределе достигает значения 1.

4. Коэффициент Крамера

Выборочное значение коэффициента рассчитывается по формуле [15, 16]:

 

. (3.23)

 

Предел коэффициента Крамера при росте числа наблюдений стремится к 1 независимо от числа строк и столбцов таблицы сопряженности. Для квадратных таблиц сопряженности () . В остальных случаях .

При большом объеме выборки для коэффициентов Пирсона, Чупрова и Крамера можно построить доверительные интервалы, пользуясь следующими асимптотическими свойствами:

 

, , .

Выборочные дисперсии оценок коэффициентов Пирсона, Чупрова и Крамера рассчитываются по формулам:

 

, , ,

 

где – формула для расчета апостериорной оценки дисперсии статистики .

Интерпретация значений коэффициентов Пирсона, Чупрова, Крамера сводится к следующему: квадрат коэффициента связи, выраженный в процентах, показывает насколько процентов изменение значения признака Y зависит от изменения значения признака Х или наоборот.

Коэффициенты сопряженности, основанные на статистике «Хи-квадрат», не позволяют описать зависимость категорий признака Y от категорий признака Х (и наоборот) в терминах теории вероятностей.

Рассмотрим коэффициенты связи Гудмена и Краскала , , . Эти коэффициенты имеют явную теоретико-вероятностную интерпретацию на всем диапазоне возможных значений от 0 до 1 и основаны на том, что если признаки Х и Y зависимы, то информация о том, какое значение принял один из них, должна улучшить точность предсказания значения другого признака [15, 16, 42].

Выборочное значение коэффициента рассчитывается по формуле:

 

, (3.24)

 

где – максимальная частота в i -ой строке;

– максимальная частота итоговой строки (максимальная маргинальная частота среди , ).

Коэффициент асимметричный, т.к. характеризует зависимость Y от Х. Он показывает насколько снижается вероятность ошибки предсказания категории признака Y при известной информации о принадлежности наблюдения к классу признака X по сравнению с ситуацией, когда такой информации нет.

Если для случайно выбранного объекта нет никакой информации о категории признака Х, то в качестве прогнозного значения признака Y выбирается его наиболее вероятная категория, т.е. категория, которой соответствует наибольшая маргинальная частота итоговой строки выборочной таблицы сопряженности. Если известна категория признака Х, то в качестве прогнозного значения Y выбирается та категория, которой соответствует наибольшая наблюдаемая частота в соответствующей строке.

При большом объеме выборки для коэффициента можно построить доверительный интервал, пользуясь следующим асимптотическим свойством:

 

.

 

Выборочная дисперсия статистики рассчитывается по формуле:

 

,

 

где – сумма только таких максимальных элементов строк , для которых значения I обеспечивают попадание в столбец, где находится наибольший итог .

Коэффициент обладает следующими свойствами:

1. если , то существует взаимно-однозначная зависимость Y от Х;

2. если , то признак Y не зависит от X, т.е. информация о категории признака Х не улучшает прогноза категории признака Y.

Недостатком коэффициента является то, что он обращается в 0, когда все принадлежат одному столбцу, в котором находится , но это не означает отсутствия зависимости Y от Х.

Коэффициент эквивалентен коэффициенту с учетом перемены строк и столбцов между собой. Коэффициент асимметричный, характеризует зависимость Х от Y и показывает насколько снижается вероятность ошибки предсказания категории признака Х при известной информации о категории признака Y по сравнению с ситуацией, когда такой информации нет. Выборочное значение коэффициента рассчитывается по формуле:

 

. (2.25)

 

Коэффициент обращается в 0, если максимальные частоты в столбцах принадлежат одной строке.

Если при анализе таблицы сопряженности неважно зависит Х от Y или наоборот, то рассчитывается коэффициент :

 

. (3.26)

 

Коэффициент используется для измерения усредненной (симметризованной) величины улучшения прогноза значений признаков и удовлетворяет неравенству: .

Рассмотрим коэффициенты связи Гудмена и Краскала , , . Эти коэффициенты лишены недостатка -мер. Их отличие от коэффициентов , , состоит в ином методе предсказания значения одного признака при известном значении другого. Категории прогнозируемого признака предсказываются случайным образом, соответственно вероятностям их появления в той или иной ситуации [15, 42].

Для характеристики зависимости признака Y от Х рассчитывается коэффициент :

 

. (3.27)

 

Для характеристики зависимости признака Х от Y рассчитывается коэффициент :

 

. (3.28)

 

Значение коэффициента , умноженное на 100%, показывает насколько процентов уменьшится неправильный прогноз категории признака Х для случайно взятого объекта при условном пропорциональном прогнозировании по сравнению с безусловным пропорциональным прогнозом.

Симметричный коэффициент связи рассчитывается по формуле:

 

. (3.29)

 

Коэффициент удовлетворяет неравенству: .

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.