Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Оценка значимости параметров линейной регрессии и корреляции.






В следствии того как уравнение линейной регрессии обнаружено, делается оценка значимости как уравнения в целом, но и отдельных его характеристик. Оценка значимости уравнения регрессии в общем дается при помощи F-критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, другими словами b=0, и, значит, фактор x не оказывает влияния на результат y.

Конкретному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной y от среднего значения на две части – «объясненную» и «остаточную»:

Общая сумма квадратов отклонений равна сумма квадратов отклонений, объясненная регрессией плюс остаточная сумма квадратов отклонений. Общая сумма квадратов отклонений индивидуальных значений результативного признака y от среднего значения вызвана влиянием множества причин. Условно разграничим всю совокупность причин на две категории: изучаемый фактор x и другие факторы. Если фактор не оказывает воздействия на итог, то линия регрессии на графике параллельна оси 0x и . Тогда вся дисперсия результативного показателя обусловлена действием иных факторов, и общая сумма квадратов отклонений совпадает с остаточной. Если же остальные факторы не оказывают большое влияние на результат, то y связан с x функционально, и остаточная сумма квадратов равна нулю. В данном случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов. Так как не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс, как обусловленный воздействием фактора х, то есть регрессией y и x, так и вызванный действием прочих причин. Пригодность линии регрессии для прогноза находится в зависимости от того, какая часть общей вариации признака y приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор x оказывает существенное влияние на результат y. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Каждая сумма квадратов отклонений связана с числом степеней свободы df, другими словами с числом свободы независимого варьирования признака. Число степеней свободы соединено с числом единиц совокупности n и с числом характеризуемых по ней констант. Применительно к исследуемой задаче число степеней свободы должно показать, какое количество независимых отклонений из n возможных потребуется для образования данной суммы квадратов. При расчете объясненной, или факторной, суммы квадратов используются теоретические (расчетные) значения результативного признака , найденные по линии регрессии: В линейной регрессии

(2.11)

В этом не трудно убедиться, обратившись к формуле линейного коэффициента корреляции: Из формулы видно, что

(2.12)

где - дисперсия признака y, обусловленная фактором x;

- общая дисперсия признака y.

Соответственно сумма квадратов отклонений, обусловленных линейной регрессией, составит:

Поскольку при заданном объеме наблюдений по x и y факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. К этому же выводу придем, если рассмотрим содержательную сторону расчетного значения признака y, то есть . Величина определяется по уравнению линейной регрессии:

Параметр a можно найти как Подставив выражение параметра a в линейную модель, получим:

(2.13)

Отсюда видно, что при данном наборе переменных x и y расчетное значение является функцией лишь одного параметра – коэффициента регрессии. В соответствии с этим и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Присутствует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, то есть .

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения, то есть критерий F:

(2.14)

F-статистика используется для проверки нулевой гипотезы

Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Если несправедлива, то факторная дисперсия превышает остаточную в несколько раз. Британским статистиком Снедекором разработаны таблицы критических значений F-отношений при различных уровнях значимости нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном расхождении их для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F- отношения признается достоверным, если оно больше табличного. Тогда нулевая гипотеза об отсутствии взаимосвязи признаков отклоняется и делается вывод о существенности этой связи: отклоняется.

Если же величина F окажется меньше табличной, то вероятность нулевой гипотезы выше заданного уровня и она не может быть отклонена без риска сделать неправильный вывод и наличии связи. В этом случае уравнение регрессии считается статистически незначимым: не отклоняется. Величина F-критерия связана с коэффициентом детерминации. Значение F-критерия можно выразить следующим образом:

. (2.15)

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка: . Стандартная ошибка коэффициента регрессии параметра рассчитывается по формуле:

(2.16)

Отношение коэффициента регрессии к его стандартной ошибке дает t-статистику, которая подчиняется статистике Стьюдента (n-2) степеням свободы. Эта статистика применяется для проверки статистической значимости коэффициента регрессии и для расчета доверительных интервалов.

Для оценки значимости коэффициента регрессии его величину сравнивают с его стандартной ошибкой, то есть определяют фактическое значение t-критерия Стьюдента: (2.17)

которое затем сравнивают с табличным значением при определенном уровне значимости α и числе степеней свободы (n-2).

Стандартная ошибка параметра a определяется по формуле:

(2.18)

Процедура оценивания значимости данного параметра не отличается от рассмотренной выше для коэффициента регрессии: вычисляется t-критерий:

(2.19)

Его величина сравнивается с табличным значением при df=n-2 степенях свободы.

Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции :

(2.20)

 

Фактическое значение t-критерия Стьюдента определяется как:

(2.21)

Данная формула свидетельствует, что в парной линейной регрессии ибо, как уже указывалось, Кроме того, следовательно, .

Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о значимости линейного уравнения регрессии. [И. И. Елисеева с. 63]

Средняя ошибка аппроксимации.

Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии, то есть y и Чем меньше эти отличия, тем ближе теоретические значения к эмпирическим данным, тем лучше качество модели. Величина отклонений фактических и расчетных значений результативного признака по каждому наблюдению представляет собой ошибку аппроксимации. В отдельных случаях ошибка аппроксимации может оказаться равной нулю. Отклонения несравнимы между собой, исключая величину, равную нулю. Для сравнения используются величины отклонений, выраженные в процентах к фактическим значениям.

Поскольку может быть величиной как положительной, так и отрицательной, ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю. Отклонения можно рассматривать как абсолютную ошибку аппроксимации, а - как относительную ошибку аппроксимации. Для того чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, находят среднюю ошибку аппроксимации как среднюю арифметическую простую.

(2.22)

[И. И. Елисеева с. 106]






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.