Разделы сайта

Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Оценка погрешностей определения коэффициентов корреляции

⇐ ПредыдущаяСтр 27 из 108Следующая ⇒

Коэффициенты корреляции рассчитываются по выборкам и соответственно имеют статистический характер. Фактически они являются функциями случайных величин.у, х_ь..., л; #. В связи с этим правомерен вопрос о достоверности расчета коэффициентов по приведенным соотношениям. Ниже приводится ряд формул, позволяющих оценить указанную достоверность. Формулы

получены методами математической статистики на основе ряда весьма существенных допущений, основным из которых является предположение о нормальности частных распределений величин у, х_{,..., х_кв генеральной совокупности. Несмотря на грубость такого допущения в большинстве реальных ситуаций, получаемые на его основе выводы относительно достоверности выборочных оценок коэффициентов корреляции приемлемы с практической точки зрения.

Стандартная (среднеквадратическая) ошибка определения выборочного значения коэффициента парной корреляции при достаточно большой выборке (Л^> 50) может быть оценена по формуле

1-/-2 При малых выборках (Л" < 30)

Стандартные ошибки определения коэффициента множественной корреляции г у, х\,..., х_кн корреляционного отношения Л могут быть оценены по формулам

в случае #> 50

ад:

1-^2

в случае #00

| 1-Л²

где Ы— объем выборки; К— число факторов.

Значение стандартной ошибки позволяет оценить достоверность расчета коэффициентов корреляции. Грубая оценка может быть получена в соответствии с «правилом трех сигм»: если \)\» Зо>, то выборочная оценка коэффициента корреляции приемлема. Для более полных оценок погрешностей необходим учет закона распределения коэффициентов корреляции.

При больших выборках (7У> 50) можно приближенно полагать, что выборочный коэффициент парной корреляции г распределен по нормальному закону. При таком предположении до-

верительный интервал для оценки коэффициента корреляции г₀ в генеральной совокупности определяется из соотношения

г-{_рс_г< г₀< г + 1_ро_п где р — уровень доверительной вероятности.

Величина 1_Р определяется из уравнения:

Ф(0 =р, (9.2)

где Ф(?) — функция Лапласа (интеграл вероятностей):

х²

Ф(')=-7=/'~^ТЛ-

л/2я о

Решение уравнения (9.2) находится с помощью таблиц значений функции Лапласа (см. Приложение к данной главе).

Приведенные соотношения могут быть использованы для ориентировочной оценки доверительных интервалов для г₀ в случае Л" < 50, а также для грубых оценок доверительных интервалов для сводного коэффициента корреляции и корреляционного отношения из генеральной совокупности.

Для некоторых частных случаев могут быть получены более точные соотношения.

При малом объеме выборки (ЛК 30) и достаточно сильной корреляции (|а) > 0, 7) закон распределения выборочного коэффициента парной корреляции существенно отличается от нормального. В этом случае может быть использована статистика вида

2=-Ы

1+г 1-г

Р. Фишером установлено, что статистика ^подчиняется закону, близкому к нормальному, со следующими параметрами: математическое ожидание:

М(2)=±Ы

> о

\-г₀) 2(ЛГ-1)'

дисперсия:

В{2)=а]~ ¹

где г₀ — коэффициент корреляции в генеральной совокупности.

С учетом сказанного доверительный интервал для коэффициента /о определяется из соотношения (при Ж 30, \г\ > 0, 7)

г 1 _ г 1

где ^т11~^у_1 ⁺⁽р дг_з' ^г,2-^у_1 ~¹р~]у^Т> /• —выборочный коэффициент корреляции; /,, —величина, определяемая по уравнению (9.2).

Помимо приведенных выше соотношений для определения доверительного интервала, с вероятностью р содержащего значение коэффициента корреляции из генеральной совокупности, в математической статистике выведены формулы для проверки значимости тех или иных гипотез.

Например, для проверки гипотезы о коэффициенте парной корреляции г₀ = 0 (то есть предположения о том, что коэффициент корреляции из генеральной совокупности с доверительной вероятностью р не отличается значимо от нуля) в случае большого объема выборки (И> 50) используется критерий вида

где 1_р имеет тот же смысл, что и в соотношении (9.2).

При выполнении неравенства сформулированная гипотеза считается верной. В противном случае она отвергается, то есть считается, что коэффициент корреляции значимо отличается от нуля.

При объеме выборки Ы< 30 для проверки той же гипотезы строится статистика

V¹-'-²

распределенная по закону Стьюдента с числом степеней свободы ^ = N-2.

Критерий подтверждения гипотезы г₀ = 0 имеет вид

где 1_р _и — Р-процентное (Р— 100/)) значение статистики I, определяемое по соответствующим таблицам для распределения Стьюдента с заданной доверительной вероятностью р и числу степеней свободы у (см. Приложение к данной главе).

9.3. ОЦЕНКА ЗНАЧИМОСТИ ПРЕДСТАВЛЕНИЯ ПРОИЗВОДСТВЕННОЙ ФУНКЦИИ, ПОЛУЧЕННОГО ПО РЕЗУЛЬТАТАМ ВЫБОРОЧНЫХ НАБЛЮДЕНИЙ

Обобщенно задачу, указанную в заголовке данного подраздела, можно понимать как оценку соответствия сглаженной зависимости у=/{х\,..., х%), используемой в качестве производственной функции, реальной стохастической зависимости результата производства у от производственных факторов х_ъ..., х_К. Частично этот' вопрос мы уже затронули выше, дав содержательную интерпретацию коэффициентов корреляции и корреляционного отношения. Рассмотрим теперь его более подробно.

•Анализ выборочных коэффициентов корреляции позволяет сделать некоторые выводы относительно целесообразности использования сглаженных регрессионных зависимостей результата производства у от производственных факторов х_и..., х_к. Сначала целесообразно совместно оценить корреляционное отношение К и сводный коэффициент корреляции ^гу, х\,.-, хк' Если К< 0, 3 и ^гу; _Х\,..., х_к < 0, 3 (см. приведенную выше градацию тесноты связи по значению коэффициента корреляции), констатируется либо отсутствие значимой связи у с х_ь..., х^, либо неполнота исходной информации (малость выборки). В противном случае далее отдельно оценивается коэффициент множественной корреляции ^г_у; _х\, -, хк' При достаточной его величине (например, ^гу; х\,..., хк -0)8) можно предположить, что зависимость у от х_ь..., х_к близка к линейной и, следовательно, производственную функцию можно представить в форме линейной регрессии; при

этом, однако, уровень «достаточности» величины ^гу; _Х\, -, хк ^опР^е" деляется чисто произвольно. При промежуточных значениях коэффициента корреляции О^г^ _Хл, < 0, 8 признаком линейного характера регрессии может служить близость значений К и

^гу\х\, -, хк'

При использовании приведенных рекомендаций следует учесть, что в случае сравнительно большого числа производственных факторов (К> 3) реальный нелинейный характер влияния одного из них на у при расчете коэффициента множественной корреляции может быть замаскирован линейным характером влияния других. В этом случае дополнительную информацию может дать анализ всей матрицы коэффициентов парной корреляции.

Последнее замечание подчеркивает вспомогательный характер рассмотренной процедуры определения допустимого класса функций при построении регрессии у на х_и..., х_к.

Рассмотрим теперь вопрос о степени влияния производствен-

пых факторов Хх,..., хк на результат производства у. При этом случайной будем считать только величину у, а величины х\,..., х_к— неслучайными независимыми переменными.

В математической статистике указанный вопрос решается на основе анализа дисперсий отклонений сглаженных значений

У³ ⁼/[^х(> ■ ••> ^хк) от среднего наблюдаемого у[Х> ре_Г), а также отклонений наблюдаемых величин у-¹' от сглаженных значений, то есть от линии регрессии (Д, _ст):

Помимо указанных дисперсий вводится их сумма:

В случае линейной регрессии указанная сумма равна выборочной дисперсии величины у:

По смыслу введенных дисперсий чем больше отношение /Ррег/Аэбщ. ^тем большую роль в изменении наблюдаемых значений у играет зависимость результатов производства от факторов х\,..., х_к. В пределе при 1\> ег/А> бщ ⁼ 1, ^Т0 ^есть при Дзст ⁼ О, все наблюдаемые точки лежат на линии (поверхность) регрессии — отклонения [у³-У³) равны нулю и, значит, линия (поверхность) регрессии полностью описывает зависимость у от х_{,..., х_к. В противном случае величина

_п -°рег

7)—'

называемая коэффициентом детерминации, характеризует, какая доля изменений величины у обусловлена изменением факторов х_и..., х_к. Соответственно отношение В_0С1/О_о6щ = 1 — В характеризует долю изменений величины у, обусловленных действием неучтенных факторов. Если, например, 5=0, 9, то говорят, что порядка 90 % изменений величины у вызвано изменением производственных факторов х_ь..., х_к, а около 10 % — влиянием неучтенных факторов.

Из определения суммы дисперсий 2)_общ следует, что в случае линейной регрессии коэффициент детерминации равен квадрату

корреляционного отношения, то есть В = К². Более того, можно показать, что в этом случае

В=К²=г²

у; х\,..., х_к>

где величина ^г_у; х\,..., хк формально рассчитывается по соотношению для выборочного коэффициента множественной корреляции, хотя при принятом выше предположении (х_и..., х_к — неслучайные независимые переменные) таковым не является.

Сохраняя указанное предположение, рассмотрим вопрос о доверительных границах, в которых расположены истинные (из генеральной совокупности) значения у с учетом разброса наблюдаемых значений у относительно линии регрессии и ошибок определения положения самой линии. Ограничимся случаем линейной регрессии для однофакторной зависимости у= а_{ + а₂х. В этом случае доверительные границы для у при заданном уровне доверительной вероятности р определяются соотношением

у{х)-^5^х)-1_р^йу{х)< у(х)+р_у(х)-(_р^,

где 4, „ — значение случайной величины I, имеющей распределение Стьюдента с V = N — 2 степенями свободы, соответствующее заданному уровню р доверительной вероятности; О_у(х) —дисперсия у при заданном значении х.

Дисперсия В_у является функцией независимой переменной х и определяется соотношением

^пу(^х)⁼⁵у

N,. ^

1 (х-х)

где выборочная оценка $у дисперсии отклонения случайной независимой величины у от линии регрессии по определению равна:

при у-¹=а₁+а₂х-'.

Соотношение для дисперсии получено с учетом погрешностей определения коэффициента регрессии а_{ и свободного члена а₂ в уравнении регрессии (у = щ + а₂х).

20 I--------------- с! --------------------------------------------------

25 30 35 40 45 50

Рис. 10. Доверительные границы для функции регрессии у (задача 8.1)

Для иллюстрации на рисунке 10 показаны доверительные границы для у при уровне доверительной вероятности р = 0, 9, построенные по данным задачи 8.1.

Остановимся кратко на проблеме достаточности числа наблюдений N.

С формальной точки зрения при построении регрессионной

зависимости у=/(а1,..., а^; х1,..., х^) с М параметрами число наблюдений УУ должно быть не менее М. В противном случае система нормальных уравнений (при сведении их к линейным алгебраическим) будет вырожденной. Таким образом, минимальное ограничение на N таково: N> М. Однако с учетом требования статистической достоверности получаемых результатов ограничения на N существенно жестче. Действительно, несмещенная выборочная оценка для дисперсии отклонений случайной величины у от поверхности регрессии определяется соотношением

Следовательно, при N-* М дисперсия стремится к бесконечности, что говорит о статистической недостоверности регрессионной зависимости. Для получения достаточно надежных оценок параметров уравнения регрессии желательно выполнение неравенства N> М+ 50. На практике (в случае малых выборок) стремятся хотя бы обеспечить выполнение условия N> М+ 10.

Более строго вопрос о достаточном числе наблюдений N должен решаться с учетом содержания конкретной статистической задачи, так как оно зависит от вида выборки и от того, для оценки какой характеристики случайной величины она используется. Приведем формулы для расчета Я, если оценивается среднее значение у наблюдаемой случайной величины у. При этом предполагается, что уже проведена серия Я_ш пробных наблюдений над величиной у, которые позволяют оценить ее среднеквадрати-ческий разброс:

В этом случае требуемое число наблюдений N задается следующими соотношениями: для бесповторной выборки

^А²₊< ²_рс²_у'

для повторной выборки

, 2„2

д²

где! _р — величина, определяемая из уравнения (9.2) по заданной доверительной вероятности р; А — допустимая ошибка определения у с доверительной вероятностью, р; Л^ — число возможных значений величины у в генеральной совокупности.

Последняя из приведенных формул может использоваться, в частности, если случайная величина у может принимать любое значение в заданном интервале (то есть Л^ = °°).

Рассмотрим следующий пример: используя данные, приведенные в последнем столбце таблицы 13 в качестве результатов пробных наблюдений (Л^, = 12), оценить число наблюдений, при котором ошибка определения средней урожайности пшеницы в хозяйстве с доверительной вероятностью р = 0, 95 не превысит А = 1 ц с 1 га. В данном случае среднеквадратический разброс урожайности в пробных наблюдениях а\, = 3, 65 ц с 1 га; величина 1_р, соответствующая вероятности р = 0, 95, равна 1, 96 (см. приложение). По формуле для бесповторной выборки имеем

^(■, 96)'.(3, 65)^_5о

(О²

Таким образом, для достижения заданной точности оценки средней урожайности пшеницы число наблюдений должно быть не менее 50.

9.4. ПРИМЕРЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА

Основываясь на приведенной выше методике, проведем корреляционный анализ исходных данных и результатов решения рассмотренных выше задач, а также оценим ряд дисперсионных характеристик. Основные результаты расчетов представлены в таблице 25; их анализ показывает следующее.

⇐ Предыдущая 22 23 24 25 262728 29 30 31 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.