Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Коэффициент детерминации R2 линейной регрессионной модели. Скорректированный R2. Значимость коэффициента детерминации.






Коэффициент детерминации. Рассчитав параметры уравнения регрессии, описывающего зависимость объясняемой величины от значения объясняющей, нужно каким-либо образом оценить взаимосвязь между этими переменными. Определение характеристик связи между ними и есть задача корреляционного анализа. Фактически с его помощью оценивается, насколько вариация значений показателя-результата непосредственно определяется показателем-фактором.

Для оценки степени соответствия линии регрессии выборочным данным обычно применяется коэффициент детерминации R?.

Для того, чтобы иметь возможность его рассчитать, надо найти: общую сумму квадратов отклонений, сумму квадратов отклонений, объясняемую регрессией. Кроме того, для характеристики степени соответствия значений Y, рассчитанных с помощью найденного уравнения регрессии, действительной динамике зависимой переменной определяют и остаточную сумму квадратов отклонений.

Общая сумма квадратов отклонений (ОСК) – это сумма квадратов разностей между выборочными (наблюдаемыми) значениями зависимой переменной Yi и средней из наблюдений в выборке Yср.:

ОСК =? (Yi – Yср.)2. (2.35)
Сумма квадратов отклонений, объяснимая регрессией (СКР) – это сумма квадратов разностей между прогнозируемыми на основе найденного уравнения регрессии значениями Yi’ и средней из наблюдений в выборке Yср.:

СКР =? (Yi’ – Yср.)2. (2.36)
Остаточная сумма квадратов (СКО) – это сумма квадратов разностей между выборочными (наблюдаемыми) значениями Yi и рассчитанными на основе найденного уравнения регрессии Yi’:

СКО =? (Yi – Yi’)2. (2.37)
Для этих величин верно равенство

ОСК = СКО + СКР. (2.38)
Отношение СКР к ОСК показывает пропорцию изменения Y, объясняемого изменением X, и называется коэффициент детерминации R?:
R? =

=

СКР? (Yi’ – Yср.)2
ОСК? (Yi – Yср.)2

или
. (2.39)

= 1 –

R? = 1 –

СКО? (Yi – Yi’)2
ОСК? (Yi – Yср.)2

В случае парной регрессии R? представляет собой квадрат коэффициента корреляции зависимой и независимой переменными.
Коэффициент детерминации принимает значения от 0, когда факторы X не оказывают никакого влияния на зависимую переменную, до 1, когда изменения зависимой переменной Y полностью объяснимы влиянием факторов модели.

Рассчитаем R? для наших примеров с зависимостью между производством молока и поголовьем крупного рогатого скота в Тюменской области (полином 1-ой степени) и с зависимостью между уровнем естественного прироста и уровнями брачности и смертности в области. Для первой зависимости R? равен

? 0, 8837.

R? =

?

? (Yi’ – Yср.)2 115455, 75
? (Yi – Yср.)2 130648, 49

Данное значение коэффициента детерминации показывает, что для данной выборки в Тюменской области изменение объема производства молока в значительной степени объяснимо изменением поголовья крупного рогатого скота: в 88, 37 % случаев. Поскольку эта регрессионная зависимость парная, то извлекши корень из показателя R?, можно найти коэффициент корреляции между этими двумя рядами данных, он примерно равен 0, 9401.

Рассчитаем коэффициент детерминации для второй зависимости:
? 0, 9462.

R? =

?

? (Yi’ – Yср.)2 695, 56
? (Yi – Yср.)2 735, 11

Полученное значение коэффициента детерминации показывает, что изменение уровня естественного прироста в довольно сильной степени объяснимо изменением уровней брачности и смертности в области: в 94, 62 % случаев.

Однако в многофакторной регрессии коэффициент детерминации корректируют с учетом числа независимых переменных, рассчитывают скорректированный R? – R? ’:

R? ’ = 1 – (1 – R?)

n – 1
n – m

где n – число наблюдений, m – число независимых переменных. Рассчитаем R? ’ для нашей двухфакторной модели:

? 0, 9432.

R? ’ = 1 – (1 – 0, 9462)•

20 – 1
20 – 2

Величина скорректированного R? может служить одним из критериев включения независимой переменной в модель: он должен уменьшится по сравнению с R? ’ модели, где отсутствует переменная, добавленная позже, если добавленная в модель переменная незначима, или увеличится при ее значимости. Однако рациональной основой для включения или невключения переменной в модель служат теоретические предпосылки, на базе которых строится модель, и переменная, которая должна быть включена в модель в соответствии с ними, должна быть учтена в модели.

Коэффициент детерминации является R? случайной величиной, поскольку Y – случайная переменная. Критерий проверки значимости R? имеет F-распределение. Это распределение обладает двумя степенями свободы: одно значение в числителе критерия проверки (обозначается v1), второе – в знаменателе (v2). В критерии проверки для R? числителю соответствует степень свободы 1 и знаменателю – n – 2 степеней свободы. Сам критерий проверки для R? рассчитывается так:? 316, 5725. (2.41) (2.40)

? 0, 9462?

R??

1 – R? 1 – 0, 9462
n – 2 18

Табличное критическое значение в F-таблице для степеней свободы v1 = 1 и v2 = 18 при уровне значимости 0, 001 (0, 1 %) равно 15, 38, следовательно, данное значение R? является значимым при данном уровне значимости. Для скорректированного R? критерий проверки вычисляется так:

? 316, 5725. (2.42)

?

F =

R? n – k 0, 9462 20 – 2
1 – R? k –1 0, 0538 2 – 1

где n – число наблюдений, k – число независимых переменных в уравнении регрессии. Этот критерий проверки имеет F- распределение с со степенями свободы v1 = k – 1 и v2 = n – k. Критическое значение F-критерия со степенями свободы 1 и 18 при уровне значимости 0, 001 (0, 1 %) равен 15, 38, что меньше полученного нами, поэтому наш скорректированный R? является значимым.

Также для множественной регрессии имеет смысл рассчитать частные коэффициенты детерминации dx1 и dx2. Но перед этим определим парные коэффициенты корреляции между переменными модели: ryx1, ryx2, rx1x2. Их рассчитывают для определения тесноты связи между переменными модели и делается это предварительно, поскольку на основе значения парных коэффициентов корреляции можно принять решение о включении или невключении факторной переменной в модель (см темы 4, 10). Парные линейные коэффициенты корреляции определяются на основе формулы:


r = (xy)ср. – xср.уср.
? х•? у

где? х и? у – среднеквадратические отклонения выборочных значений показателей х и у, для которых рассчитывается коэффициент корреляции, от выборочной средней. Величина среднеквадратического отклонения выборочного значения какого-либо показателя (например, х), как вы помните из курса статистики, равна квадратному корню из его дисперсии:

? х = v? х2 = v

? (x – xср)2
n

Зная это, определим парные коэффициенты корреляции между показателями естественного прироста, брачности и смертности: ryx1=0, 9435; ryx2 = –0, 7196; rx1x2 = –0, 5537.

После этого можно для зависимости одной результирующей переменной от двух факторных рассчитать коэффициент множественной корреляции по следующей формуле:

Ryx1x2 = v

ryx1 + ryx2 – 2 ryx1 ryx2 rx1x2
1 – rx1x2
Этот коэффициент колеблется в пределах от 0 до 1 (колебания значений переменной Y абсолютно не зависят или полностью зависят от изменения значений факторов X), чем его значение ближе к 1, тем полнее учтены все факторы, влияющие на Y.

В общем случае формула коэффициента множественной корреляции выглядит так:

То есть величину Ryx1x2 можно узнать путем извлечения квадратного корня из R2: Ryx1x2 =? 0, 9727.

Теперь мы можем рассчитать частные коэффициенты детерминации для нашей двухфакторной модели. В многофакторных моделях с их помощью анализируется теснота связи между результативной и одной из факторных переменных при неизменном значении остальных факторов. Он показывает, на сколько в процентном соотношении изменится значение зависимой переменной при изменении данного фактора и неизменных прочих:, (2.46)

dxj = ryxj · aj ·

? xj
? у

где ryxj – парный коэффициент корреляции факторной переменной j и зависимой переменной Y, aj – оценка соответствующего коэффициента регрессии при данном факторе в уравнении регрессии,? xj и? у – среднеквадратические отклонения значений рассматриваемого фактора и Y.

Таким образом, частные коэффициенты детерминации для нашей модели равны:

? 0, 7416,

? 0, 9435 · 2, 8316 ·

dx1 = ryx1 · a1 ·

? x1 1, 7267
? у 6, 2201

? 0, 2046.

? –0, 7196 · (–1, 3318) ·

dx2 = ryx2 · a2 ·

? x2 1, 3280
? у 6, 2201

То есть при неизменной смертности изменение естественного прироста на 74, 16 % объясняется изменением брачности, а при неизменной брачности 20, 46 % изменения естественного прироста объяснимо изменением смертности. В этих формулах величины

? xj = aj ·

(2.47)

? xj
? у

– это так называемые частные бетта-коэффициенты, показывающие, на какую долю своего среднеквадратического отклонения изменится в среднем результирующая переменная при изменении одного из факторов на величину его среднеквадратического отклонения и неизменных прочих факторах.







© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.