Главная страница Случайная страница Разделы сайта АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника |
Теория однофакторного дисперсионного анализа
При сформулированном выше допущении наш «чёрный ящик» выглядит (см. рисунок) очень просто. Здравый смысл и очевидные соображения подсказывают, что для вы- явления влияния фактора А на величину от- ИССЛЕДУЕМАЯ СИСТЕМА клика следует несколько раз (например, n раз) измерить этот отклик при разных уровнях Фактор А Отклик У фактора А (например, при а1, а2,.. а i,..., а n), получив при этом n штук (y 1, y 2, ….. yi…, yn), Рис. 7.3 по всей видимости, разных значений отклика. Очевидно, что каждое yi из этих значений будет определяться реальным средним значением Y (n) Ср = yi и прибавкой к нему ± Δ yi, обусловленной влиянием (если такое влияние имеет место) фактора А на данном (а i) уровне, и ошибкой ± έ ип измерительного прибора. Фиксируем этот факт математически: yi = Y Ср ± Δ yi ± έ ип. Далее Y (n) Ср будем обозначать символом Yn, а έ ип – символом έ n Соотношение yi = Yn ± Δ yi ± έ n равносильно (yi – Yn) = ± Δ yi ± έ n и говорит о том, что дисперсия σ 2 Генеральной совокупности слагается из двух составляющих: - σ έ 2 – дисперсии, обусловленной неточностью измерений έ n и - σ А2– дисперсии, обусловленной возможным влиянием фактора А. Аддитивность дисперсии позволяет записать: σ 2 = σ А2+ σ έ 2 или σ А2= σ 2– σ έ 2. На базе множества (yi – Y n), где i = 1, 2, 3… n, можно сформировать упомянутую выше исправленную выборочную дисперсию sи2 = [ (yi)2 – ( yi)2], которая является оценкой дисперсии σ 2 Генеральной совокупности реальных значений отклика (sи2 ~ σ 2), ибо σ n 2 ≡ σ 2). Но это – смешанзная оценка (sи2 ~ σ А2+ σ έ 2) потому, что в ней обе составляющие не разделены. Разделить составляющие этой смешанной оценки, ограничившись только этими n измерениями, невозможно. Предварительно следовало бы найти отдельно оценку s2иέ для дисперсии σ έ 2 и только потом можно искать σ А2 простым вычитанием: s2 – s2иέ. ~ σ А2 Для нахождения выборочной оценки s2иέ для дисперсии σ έ 2 необходимо создать такую выборку { ykj } m из Генеральной совокупности { yij }, в которой разброс значений был бы обусловлен только ошибками измерений. Это мог бы быть, например, набор { ykj } m из m значений отклика, полученных в одинаковых условиях эксперимента, включая и постоянство уровня фактора А (один из столбцов: а i = а k = Const, а j=1, 2, 3,.., m). Эта выборзка позволяет вычислить её (выборки) параметры Y k= ykj и s 2иέ m = (ykj – Y mk)2. Однако, найденную на базе такой выборки по соответствующей формуле исправленную выборочную дисперсию s2иέ m уже нельзя вычитать из sи2, ибо они не есть слагаемые одной оценки Генеральной дисперсии. Они – параметры разных выборок. Из этого следует, что в ходе эксперимента необходимо получить ещё одну выборку { yij }q – такую, на базе которой можно вычислить и s2иqέ , и sq2. Реализовать это можно следующим образом. Выполнив эксперимент, который был выше представлен первым и предполагал, что ykj = Y k ± Δ kj ± έ kj, и получив m значений отклика, нужно проделать эту же операцию n раз и получить n малых выборок типа{ yij } m, где j=1, 2, 3,.., m, и i=1, 2, 3,.., n. Получившаяся новая большая выборка { yij }q – выборка из Генеральной совокупности с объёмом q = nm. то есть для неё теперь Y(nm) Ср ≡ Yq = yij. В итоге мы можем записать: σ q2 = σ А 2 + σ έ 2, где: - σ έ 2 – дисперсия, обусловленная инструментальной погрешностью, которая не зависит от индекса измеряемого параметра, а σ q2 ≡ σ 2– общая дисперсия большой Генеральной совокупности { y }, выборочной оценкой для которой теперь будет s q2 = (Σ q): f q= (Σ nm): fnm = [ (yij)2 – ( yij )2 ] = = [СКq – КЧq]. где: - nm – объём большой выборки и потому выше: - f q= nm–1 ≡ fnm, - (Σ q) = СК nm– КЧ nm ≡ СКq – КЧq = (Σ nm) - СКq = (yij)2 ≡ (ynm)2 = СК nm и - КЧq = ( yij)2 ≡ ( ykm)2 = КЧ nm Общая дисперсия σ 2, как и всегда, выглядит составленной из дисперсии σ qип2 ≡ σ έ 2, которая обусловлена только случайными факторами, и дисперсии σ А2, которая обусловлена только изменениями уровня фактора А, то есть: σ 2= σ А2 + σ έ 2. Если теперь на базе любой части { ykj) m общей выборки { yij }q, которая получена при одном и том же значении фактора А, то есть на базе малой выборки { ykj) m при i=k, вычислить исправленную выборочную дисперсию s 2έ m = (ykj– Y k)2, тоона будет оценкой групповой исправленной дисперсии малой выборки. Таких оценок здесь будет n штук, и каждая из них будет характеризовать разброс значений отклика, обусловленный внутри своей малой выборки только случайными факторами. Но n штук малых выборок образуют большую выборку из единой Генеральной совокупности всех возможных значений отклика. В таких случаях математическая статистика позволяет усреднять групповые оценки s 2έ m, а результат усреднения s 2έ q – рассматривать в качестве выборочной оценки s 2έ q дисперсии σ έ q2≡ σ έ 2≡ σ вэ2, которую ещё называют дисперсией воспроизводимости эксперимента (s 2έ q ≡ s 2вэ ~ σ έ 2). Итак, s 2έ q ≡ s 2вэ = [s2έ m ], а s 2έ m = [ (ykj)2 – ( ykj)2]. То есть s 2 вэ = [ (ykj)2 – ( ykj)2] = = [ (ykj)2 – ( ykj)2] = [СКq – КЧq]. Количество степеней свободы дисперсии воспроизводимости f έ в= n (m- 1). Особо подчеркнём, что СКq= (ykj)2 = (yij)2, а корректирующий член КЧq “собирает ” со всей выборки средние квадраты откликов, вычисленные в каждом столбце. В связи с этим (в столбце фактор А остаётся неизменным) и КЧq можно обозначить КЧqА≡ . КЧА – корректирующий член, обусловленный фактором А. Действительно, КЧq= ( ykj)2 ≡ ( yij)2] = КЧqА ≡ . КЧА Всё это означает, что мы можем переписать выражение для выборочной оценки дисперсии воспроизводимости (повторим, что именно так в теории эксперимента часто называют дисперсию, обусловленную множеством сопровождающих эксперимент случайных факторов, включая ошибки измерений): s 2вэ ≡ s 2έ q = [СКq – КЧqА] = (Σ вэ): f вэ, где - f вэ= n (m-1), - (Σ έ )q = [СКq – КЧА] - СКq = (yij)2 и - КЧА = ( ykj)2. В этих условиях, в условиях одной большой выборки, где σ 2 = σ А 2 + σ έ 2, а σ έ 2 ≡ σ έ q, полученные выборочные оценки уже можно комбинировать, то есть выразить: s 2 – s 2вэ ~ σ qА2, то есть s 2 – s 2вэ ~ σ А 2, где s 2 ~ σ 2, s 2вэ ~ σ έ 2 и s 2 = [СКq – КЧq], а s 2вэ ≡ s 2έ q = [СКq – КЧА]. - s 2 = s q2 = (Σ q): f q = (Σ): f при (Σ q)≡ (Σ) = [СК – КЧ] и f q ≡ f = nm– 1; - s 2вэ≡ s 2έ q= (Σ έ q): f έ q = (Σ έ ): f έ при (Σ вэ) =[СКq – КЧq] = [СК – КЧА] и f вэ = n (m– 1). Таким образом, составляющие смешанной оценки для σ 2 разделены, а [СКq – КЧq] – [СКq – КЧА] ~ σ А 2 Но это ещё не вся информация, которую можно извлечь из результатов только что представленного здесь теоретически (мысленного) однофакторного эксперимента, в котором использовалась выборка объёмом q = m х n. На базе каждой из n введённых в рассмотрение выше малых выборок, кроме представленной выше собственной групповой дисперсии s 2έ m, можно вычислить групповое среднее значение отклика Ykm = ykj. Таких средних будет n штук, все они будут разными и отличающимися от всеобщего среднего – среднего большой выборки Y q= yij . Это означает, что будут существовать ещё и n штук разностей типа (Ym q –Y q), на базе которых можно вычислить некую (ещё одну) выборочную дисперсию s 2нвыб = (Ymk–Y q)2 = [ (Ymk)2 – ( Y q)2], которая является оценкой (s 2нвыб≡ s 2мг) межгрупповой дисперсии σ мг2 = σ А2+ σ ип2, обусловленной и ожидаемым влиянием фактора А и неизбежным в ходе эксперимента влиянием случайных факторов. В составе этой дисперсии составляющая от случайных ошибок σ ип = σ έ 2 – уменьшенная в m раз дисперсия σ ип ≡ σ έ 2 (σ мг2= σ А2+ σ έ 2) потому, что она входит в левую часть этого соотношения через вычисления группового среднего, при которых ( при вычислениях по формуле Ymk = ykj) такие ошибки усредняются. При справедливости соотношений: [ (Ymk)2 – ( Y q)2] ~ σ мг 2 и σ мг 2 = σ А2 + σ έ 2, очевидно, что S мг ~ σ А2 + σ έ 2 или [ (Ymk)2 – ( Y q)2] ~ σ А2 + σ έ 2 Переписав последнее соотношение в несколько ином виде, получаем: s 2 мг = [ (Ymk)2 – ( Y q)2] ~ mσ А2 + σ έ 2 или s 2мг ~ mσ А2 + σ έ 2, откуда следует более точная по сравнению с полученной на предыдущем листе выборочная оценка s 2А дисперсии σ А2, обусловленной возможным влиянием исследуемого фактора А: (s мг 2 – s έ 2) ~ σ А 2 Приглядимся более внимательно к выборочной оценке s 2мг для σ мг 2 s 2мг = [ (Ymk) 2 – ( Y q)2] Во-первых, как обычно, s 2 мг = (Σ мг): f мг) Здесь f мг = n– 1, следовательно, (Σ мг) = m [(Ymk)2 – ( Y q)2]. Во-вторых, (Ymk) 2 = ( ykj)2 = [ ( ykj)2]= КЧА . В-третьих, [(Y q)2 = (Y q)2( 1)2 = n 2 (Y q)2 = n ( yij)2 = =[ ( yij)2] = КЧq ≡ КЧq≡ КЧ. В итоге имеем: (Σ мг) = m [ [(Ymk)2 – ( Y q)2] = m { КЧА – КЧ } = [КЧА– КЧ] Вспомним теперь ранее полученные соотношения: (Σ q) ≡ (Σ) = [СК – КЧ] и (Σ έ ) = [СК – КЧА]. Сопоставив их с только что полученным (Σ мг) = [КЧА – КЧ], обнаруживаем: (Σ q) – (Σ έ ) = [СК – КЧ – СК + КЧА] = [КЧА – КЧ] = (Σ мг). Мы, следовательно, выяснили, что после вычисления выборочных оценок дисперсий mσ А2 + σ έ 2 и σ 2 можно непосредственно вычислить остаточную сумму (Σ мг), которая потребуется для последующего нахождения выборочной оценки s2вэ дисперсии воспроизводимости σ вэ2 и уточнить оценку для σ А2. Всё это означает, что представленный выше теоретически однофакторный эксперимент позволяет найти две (одна из которых уточняет другую) выборочные оценки для дисперсии σ А2, обусловленной влиянием фактора А. Следовательно, такой эксперимент способен решить основную задачу дисперсионного анализа – задачу разделения составляющих общей дисперсии, а только что рассмотренные соотношения позволяют выполнить все необходимые вычисления, используя измеренные в ходе опытов значения { ylj } отклика. Проблему решают три промежуточных интегральных параметра одной и той же выборки СК, КЧ, КЧА.
Планирование эксперимента при однофакторном дисперсионном анализе. Представленные в предыдущем параграфе теоретические соображения, казалось бы, полностью определяют план эксперимента при однофакторном дисперсионном анализе. Этот план должен выглядеть в форме прямоугольной таблицы (см. таблицы ниже), в План-матрица однофакторного эксперимента при дисперсионном анализе Уровни фактора А
соответствующие клеточки которой по ходу эксперимента будут вписываться измеренные значения отклика – элементы множества { yij }. Подготовка план-матрицы представляет собой очень малую (только формализованную в рамках приведённых в предыдущем параграфе теоретических рассуждений) часть планирования эксперимента. Большую часть планирования составляют операции, связанные с подготовкой объекта эксперимента, средств измерения, с обеспечением необходимых условий проведения опытов и сохранения их неизменными в ходе всего эксперимента, а также с правильным оформлением сопровождающей эксперимент документации (соответствующим образом оформленная методика, журнал регистрации хода и данных опытов, передача смен и т. п.). Эти аспекты планирования (традиционные и рутинные) здесь не рассматриваются. Более существенными для нас выглядят вопросы технологии обработки данных, которые получают в ходе опытов, и оформления итогов эксперимента в целом. Такие итоги оформляются в таблицу, макет которой приведён на следующем листе. Вначале представлены форма и содержание Итоговой таблицы, но не её окончательный вид и не тот вид, в котором она предстанет перед экспериментом. План эксперимента и Итоговую таблицу (см. следующий лист) целесообразно подготовить заблаговременно в форме единой электронной (например, в Exzele) рабочей таблицы. Первые слева колонки таблицы (в объёме представленной выше план-матрицы) следует оставить («зарезервировать») для последующего внесения в них (перенос из рабочего журнала после окончания эксперимента) измеренных в опытах значений { yij } отклика. До окончания эксперимента все m строк в n столбцах исходной таблицы будут оставаться незаполненными. Незаполненными до конца эксперимента будут оставаться третий и пятый столбцы Итоговой таблицы, (её макет представлен ниже), предназначенные для внесения Макет итоговой таблицы однофакторного эксперимента
Примечаие: f έ = flj - f А j = nm-1- n+1 = n (m-1) в нихпромежуточных и окончательных результатов обработки экспериментальных данных. Поэтому заготовленная в рамках единой электронной таблицы Итоговая таблица будет выглядеть иначе (См. ниже). В ней заполнены только те колонки, данные для которых уже известны на момент составления плана, – известны из представленного в параграфе 7.1 теоретического анализа, который, конечно же, всегда предшествует эксперименту. Что касается “ пустых» клеток таблицы, то они пусты только внешне. На самом деле в них в ходе программирования эксперимента и вносятся (в режиме записи «невидимых» формул) представленные выше на макете соотношения. По этим соотношениям электронная таблица подсчитает и автоматически внесёт в соответствующую клетку таблицы получившийся там результат обработки данных. Итоговая таблица однофакторного эксперимента
В нижней правой клетке должна «сработать» формула: s А2 = (s мг 2 – s έ q2) Однако, такой автоматизм следует программно подготовить. Рассмотрим, что для этого следует предусмотреть в этой же электронной таблице. В первой сроке третьего столбца Итоговой таблицы, как это показано на её макете, должна находиться итоговая сумм всеобщей дисперсии (Σ uj), которая вычисляется по формуле: (Σ lj) = [СК lj– КЧ lj ]. Именно эта формула и должна быть записана в этой, якобы “ пустой ” ячейке электронной таблицы. Тогда сумма появится в Итоговой таблице автоматически. Но для записи этой формулы в электронную таблицу нужно знать номера двух ячеек этой же электронной таблицы, в которых предварительно заготовлены СК lj и КЧ lj. Следовательно, в ходе подготовки плана следует предусмотреть ещё две рабочие ячейки, и в одну из них записать формулу СКi j = yuj 2, а в другую – КЧ lj = ( yuj)2. Такие же рассуждения справедливы и относительно формул, которые где-то надо записать, чтобы нужные во второй и третьей строках этого же столбца итоговые формулы ((Σ έ ) = [СК lj– КЧА] и (Σ мг) = [КЧА – КЧ lj ]) «сработали ” соответствующим образом. Все подобные формулы сложны и громоздки для использования в электронных таблицах. Поэтому на практике следует действовать иначе: вначале “ запасаться ” промежуточными величинами, которые считаются по относительно простым формулам. В данном случае поступают следующим образом. В строке электронной таблицы, следующей сразу после план-матрицы (на приведённой ниже таблице план-матрица обведена «жирной» линией, а строка помечена символом Аl) в каждой из n ячеек размещается одна та же формула А l = ylj, по которой считается сумма всех откликов соответствующего столбца (заметим, что в ячейках одного столбца исследуемый фактор А не изменяется, но вычисляемая сумма будет изменятся вместе с номером столбца и эти изменения будут обусловлены только изменением уровня фактора А, чем и объясняется использование здесь символа А l). В следующей строке аналогичным образом можно разместить (А l)2 и далее суммирование всех (А l)2, а в самой правой ячейке этой же строки можно разместить формулу для вычисления корректирующего члена. Ниже в рабочей таблице следует продублировать ячейки основной план-матрицы, разместив в каждой из них алгоритм возведения в квадрат значений отклика, измеренного в каждом опыте. Эти квадраты ({ yij 2}) потребуются в формуле, по которой электронная таблица в (n +2)ой ячейке этой последней строки вычислит и здесь же “ запасёт ” СК ij. Присмотревшись внимательно к дополненной таким образом исходной план-матрице, легко обнаружить, что в ней уже присутствуют не только все промежуточные величины, но и необходимые для вычисления представленных выше трёх итоговых сумм ((Σ ij), (Σ έ ) и (Σ мг)) их основные слагаемые КЧ ij, СК ij и КЧА. Номера именно этих трёх ячеек должны фигурировать в алгоритмах вычислений, которые будут вписываться в якобы «пустые» ячейки третьей колонки Итоговой таблицы эксперимента, подготавливаемой в ходе его планирования. Подготовка электронной таблицы для учёта и автоматизированной обработки опытных данных в ходе эксперимента при однофакторном дисперсионном анализе n– количество уровней фактора А, m – количество опытов на каждом уровне. Уровни фактора А
Рабочие оценки дисперсии (s 2 – s 2вэ) ~ σ А 2– грубая оценкаи (s мг 2 – s έ 2) ~ σ А 2 – уточнённая оценка) должны быть программно проверены на значимость по известным в математической статистике табличным критериям проверки гипотез за пределами Итоговой таблицы.
|