Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Краткие теоретические сведения. Регрессионный анализ проводится с целью определения аналитического выражения связи зависимой случайной величины Y (называемой также результативным признаком)






 

Регрессионный анализ проводится с целью определения аналитического выражения связи зависимой случайной величины Y (называемой также результативным признаком) с независимыми случайными величинами X 1, X 2, … Xm (называемыми также факторами).

Форма связи результативного признака Y с факторами X 1, X 2, … Xm получила название уравнения регрессии. В зависимости от типа выбранного уравнения различают линейную и нелинейную (криволинейную) регрессию (в последнем случае возможно дальнейшее уточнение – квадратичная (параболическая), экспоненциальная, логарифмическая …).

В зависимости от числа взаимосвязанных признаков различают парную и множественную (многофакторную) – регрессию.

Регрессионный анализ обычно проводят в следующей последовательности:

1. Выбор вида уравнения регрессии.

2. Определение параметров регрессии.

3. Определение степени взаимосвязи результативного признака и факторов, проверка общего качества уравнения регрессии.

4. Проверка статистической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов.

Для проведения регрессионного анализа в табличном процессоре Microsoft Excel предусмотрен режим Регрессия в надстройке Пакет анализа.

Основное содержание рассмотренных этапов регрессионного анализа будет рассмотрено на примере множественной линейной регрессии.

Уравнение линейной множественной регрессии имеет вид:

, (1)

где – теоретические значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнение регрессии; x 1, x 2, … xm – значения факторных признаков; a 1, a 2, … am – параметры уравнения (коэффициенты регрессии).

Параметры уравнения регрессии определяются наиболее распространенным методом – методом наименьших квадратов. Сущность данного метода заключается в нахождении параметров модели ai, при которых минимизируется сумма квадратов отклонений эмпирических (фактических значений) результативного признака от теоретических, полученных по выбранному уравнению регрессии, т.е.

(2)

где S – функция параметров ai; n – число наблюдений; m – число факторов в уравнении регрессии.

Для определения параметров ai находится минимум функции S (приравниваются нулю соответствующие частные производные):

(3)

Для определения степени вероятностной (стохастической) взаимосвязи результативного признака Y и факторов X необходимо рассчитать следующие дисперсии:

1. Общую дисперсию результативного признака Y, отображающую влияние как основных, так и остаточных факторов:

, (4)

где – среднее значение результативного признака.

2. Факторную дисперсию результативного признака Y, отображающую влияние только основных факторов:

. (5)

3. Остаточную дисперсию результативного признака Y, отображающую только влияние остаточных факторов:

. (5)

При корреляционной связи результативного признака и факторов выполняется соотношение

, при этом .

Для анализа общего качества уравнения линейной многофакторной регрессии используют обычно множественный коэффициент детерминации R 2, называемый также квадратом коэффициента множественной корреляции R

. (6)

Множественный коэффициент детерминации определяет долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель.

Так как в большинстве случаев уравнение регрессии приходится стоить на основе выборочных данных, то возникает вопрос об адекватности построенного уравнения генеральным данным. Для этого проводится проверка статистической значимости коэффициента детерминации R 2 на основе F -критерия Фишера:

. (7)

Примечание: если в уравнении регрессии а 0 = 0, то числитель в выражении (7) будет равен n – m.

При выполнении статистической гипотезы Н 0: R 2 = 0 величина F имеет F -распределение с k = m и l = n – m – 1 числом степеней свободы. Гипотеза Н 0 отвергается, если Fр > Fкрпр, a.

При значениях R 2 > 0, 7 считается, что вариация результативного признака Y обусловлена в основном влиянием включенных в регрессионную модель факторов X.

Для оценки адекватности уравнения регрессии часто также используют показатель средней ошибки аппроксимации:

. (8)

В том случае, если часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости (т.е. значения данных коэффициентов меньше их стандартной ошибки), эти коэффициенты исключают из уравнения регрессии. Поэтому проверка адекватности построенного уравнения регрессии наряду с проверкой значимости коэффициента детерминации R 2 включает в себя также и проверку значимости каждого коэффициента регрессии.

Значимость коэффициентов регрессии проверяется с помощью t -критерия Стьюдента:

, (9)

где sаi – стандартное значение ошибки для коэффициента регрессии аi.

В случае выполнения гипотезы Н0: аi = 0 величина t имеет распределение Стьюдента с k = nm – 1 числом степеней свободы. Гипотеза Н 0 отвергается, если . Кроме того, зная значение tкр, можно найти границы доверительных интервалов для коэффициентов регрессии:

(10)

Режим работы Регрессия служит для расчета параметров уравнения линейной регрессии и проверки его адекватности исследуемому процессу.

В диалоговом окне данного режима (рис. 12) задаются следующие параметры:

1. Входной интервал Y – вводится ссылка на ячейки, содержащие данные по результативному признаку; диапазон должен состоять из одного столбца.

 

Рис. 12

 

2. Входной интервал X – вводится ссылка на ячейки, содержащие факторные признаки; максимальное число входных диапазонов (столбцов) равно 16.

3. Метки в первой строке / Метки в первом столбце – флажок устанавливается в активное состояние, если первая строка (столбец) содержит заголовки.

4. Уровень надежности – флажок устанавливается в активное состояние, если в поле, расположенном напротив него, необходимо ввести уровень надежности, отличный от уровня 0, 95 %, применяемого по умолчанию. Установленный уровень надежности используется для проверки значимости коэффициента детерминации и коэффициентов регрессии.

5. Константа-ноль – флажок устанавливается в активное состояние, если требуется, чтобы линия регрессии прошла через начало координат (т.е. а 0 = 0).

6. Выходной интервал / Новый рабочий лист / Новая рабочая книга. В положении Выходной интервал активизируется поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона. Размер выходного диапазона будет определен автоматически и на экране появится сообщение в случае возможного наложения выходного диапазона на исходные данные. В положении Новый рабочий лист открывается новый лист, в который начиная с ячейки А1 вставляются результаты анализа. Если необходимо задать имя открываемого рабочего листа, его вводят в поле, расположенное напротив соответствующего положения переключателя. В положении Новая рабочая книга открывается новая книга, на первом листе которой начиная с ячейки А1 вставляются результаты анализа.

7. Остатки – флажокустанавливается в активное состояние, если требуется включить в выходной диапазон столбец остатков.

8. Стандартизованные остатки – флажокустанавливается в активное состояние, если требуется включить в выходной диапазон столбец стандартизованных остатков.

9. График остатков – флажок устанавливается в активное состояние, если требуется вывести на рабочий лист точечные графики зависимости остатков от факторных признаков xi.

10. График подбора – флажок устанавливается в активное состояние, если требуется вывести на рабочий лист точечные графики зависимости теоретических результативных значений от факторных признаков xi.

11. График нормальной вероятности – флажок устанавливается в активное состояние, если требуется вывести на рабочий лист точечный график зависимости наблюдаемых значений y от автоматически формируемых интервалов персентилей (процентиль – это квантиль, выраженный в процентах [4]). График строится на основе генерируемой таблицы «Вывод вероятности».

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.