Г. А. М. Гржибовский

Стр 1 из 2Следующая ⇒

АНАЛИЗ ТРЕХ И БОЛЕЕ НЕЗАВИСИМЫХ ГРУПП КОЛИЧЕСТВЕННЫХ ДАННЫХ

Национальный институт общественного здоровья, г. Осло, Норвегия

В статье рассматривается сравнение трех и более независимых групп количественных данных c помощью одномерного (однофакторного) дисперсионного анализа (One-Way ANOVA) и критерия Краскела-Уоллиса (Kruskal-Wallis test) с использованием пакета прикладных статистических программ SPSS. Особое внимание уделяется рассмотрению проблемы множественных сравнений и проверке необходимых условий для применения дисперсионного анализа. Кроме того, рассматриваются критерии для апостериорных сравнений при обнаружении статистически значимых различий в ходе дисперсионного анализа. Изложенный материал дает общие сведения о статистических критериях, применяемых для проверки гипотез о равенстве средних трех и более независимых групп, и призван вызвать интерес читателей журнала к прочтению специализированной литературы перед началом работы над будущими публикациями.

Ключевые слова: распределение, дисперсия, однофакторный дисперсионный анализ, критерий Краскела-Уоллиса, апостериорные сравнения.

В предыдущих выпусках журнала отмечалось, что выбор статистического критерия для проверки гипотез определяется типом и распределением данных [3, 4]. Особо подчеркивалось, что непарный критерий Стьюдента предназначен только для сравнения двух независимых групп при выполнении необходимых условий для применения параметрических критериев. В настоящей статье будет рассмотрен дисперсионный анализ, предназначенный для проверки статистических гипотез о равенстве средних для трех и более независимых групп количественных данных. Как и критерий Стьюдента, дисперсионный анализ – параметрический метод, поэтому будут рассмотрены необходимые условия для его применения. Также будет рассмотрен критерий Краскела-Уоллиса, который применяется в тех случаях, когда использовать дисперсионный анализ невозможно из-за несоблюдения условий для его применения.

К сожалению, в отечественной литературе до сих пор часто встречаются примеры применения непарного критерия Стьюдента для сравнения трех, четырех и даже пяти и более независимых групп. Причем сравниваются либо группы попарно, либо все группы с контрольной, в результате чего публикации пестрят большим количеством выражений типа «p < 0, 05_1-2, p < 0, 05_2-3, p < 0, 05_1-3» или звездочками, обозначающими наличие статистически значимых различий между сравниваемыми группами. Такое представление данных не приветствуется по причине малой информативности выражений типа «p < 0, 05» (вместо которых всегда нужно указывать абсолютные значения достигнутых уровней значимости (р), а еще лучше – доверительные интервалы для выявленных различий). Больше того, оно указывает на использование ошибочно завышенного критического уровня значимости при проведении проверки нескольких статистических гипотез и тем самым увеличивает вероятность случайного обнаружения статистически значимых различий там, где их в действительности нет. Данная проблема называется проблемой множественных сравнений, причем встречается она не только в работах начинающих исследователей, но и в статьях известных ученых. Опасность этой проблемы заключается в вероятности обнаружения ложнодостоверных различий, что приводит к декларированию наличия эффекта от нового лечения в случае, когда его нет, или в случае обнаружения вредоносного действия изучаемого фактора даже в ситуации, когда фактор в действительности никакого влияния на изучаемый исход не оказывает. Представление данных в виде «p < 0, 05» лишь усугубляет ситуацию, не позволяя грамотным читателям самим принимать решение о принятии или отвержении нулевой гипотезы на основании достигнутых уровней значимости.

В чем же суть проблемы множественных сравнений? В биомедицинской литературе принято считать, что нулевая гипотеза об отсутствии различий между сравниваемыми группами может быть отвергнута, если достигнутый уровень значимости (р) < 0, 05. Это означает, что мы в 5 % случаев готовы отвергнуть верную нулевую гипотезу, то есть принять решение о наличии различий там, где их на самом деле нет, что еще называется ошибкой 1 типа. Если изначально допустить, что истинных различий между сравниваемыми группами нет, то величина р покажет, с какой вероятностью мы можем обнаружить выявленные или еще более существенные различия в исследованиях с аналогичными объемами выборки.

Если мы принимаем традиционные 0, 05 за критический уровень значимости, то вероятность ошибки 1 типа составляет 5 %, значит, вероятность отсутствия этой ошибки составит 0, 95, или 95 %. Если мы проводим три сравнения (сравниваем попарно три группы, проверяем три статистические гипотезы), то вероятность отсутствия ошибки 1 типа в любом из сравнений составит 0, 95ⁿ, то есть 0, 95³= 0, 857, или 85, 7 %, а значит, вероятность сделать хотя бы одну ошибку 1 типа будет равна 1 – 0, 95ⁿ= 1 – 0, 857 = 0, 142, или 14, 2 % вместо декларируемых 5 %. В такой ситуации необходимо использовать меньший критический уровень значимости, который рассчитывается по формуле: p* = 1 – 0, 95^1/ⁿ, где n – количество производимых сравнений. Для данного примера p* = 1 – 0, 95^1/3 = 0, 0170, то есть различия между группами можно считать статистически значимыми только если p < 0, 0170. Из этого следует, что в публикациях, где встречается «p < 0, 05_1-2, p > 0, 05_2-3, p > 0, 05_1-3», совершенно невозможно сделать вывод о статистической значимости различий между группами 1 и 2, а потому результаты должны интерпретироваться читателем минимум как сомнительные.

Для ситуации с тремя сравниваемыми группами количество возможных попарных сравнений равно количеству изучаемых групп (таблица). Если групп больше, то количество возможных попарных сравнений можно рассчитать по формуле: n = 0, 5N(N – 1), где N – количество изучаемых групп. Например, если имеется 12 групп (например, при попарных сравнениях среднемесячных значений тех или иных показателей), то максимальное количество возможных сравнений составит n = 0, 5 · 12 · (12 – 1) = 66. Если оставить критический уровень значимости без изменений (0, 05), то верятность случайного обнаружения статистически значимых различий составит 1 – 0, 95⁶⁶= 0, 966, или 96, 6 %. Критический уровень значимости для данного примера при проведении всех 66 сравнений должен быть установлен на уровне 1 – 0, 95^1/66= 0, 00078, то есть статистически значимыми могут считаться только те различия, для которых p < 0, 00078,

12 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.