Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Модель парной линейной регрессии






Уравнение парной (простой) регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем в целом по совокупности наблюдений. В каждом отдельном случае величина y складывается из двух слагаемых:

,

где yi – фактическое значение i –го наблюдения результативного показателя,

- расчетное значение i –го наблюдения результативного показателя, найденное из уравнения регрессии,

— численная оценка i -го остатка, которая представляет разность для каждого i -го наблюдения между эмпирическим значением yi и расчетным значением .

Под простой регрессией мы понимаем одностороннюю стохастическую зависимость результативной переменной только от одного фактора:

.

Если исходя из соображений профессионально-теоретического характера в сочетании с исследованием расположения точек на диаграмме рассеяния предполагается линейный характер зависимости, то эту зависимость выражают с помощью функции линейной регрессии:

.

Это общее уравнение для простой линейной регрессии.

Неизвестные параметры регрессии a и b подлежат оценке по определенной процедуре. Будем называть a – постоянная регрессии. Параметр a определяет точку пересечения прямой регрессии с осью ординат (рис. 4.1.1). Коэффициент b будем называть коэффициентом регрессии. Если через a обозначить угол, которая прямая регрессии образует с осью абсцисс, то b= tga (рис.4.1.1).

Классический подход к оцениванию параметров линейной регрессии, как указывалось в разделе 4.1.2, основан на методе наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров a и b, при которых сумма квадратов отклонений фактических значений результативного показателя y от расчетных значений минимальна:

(4.1.6)

Поскольку представляет собой прямую линию, то графическая сущность МНК состоит в следующем: из всего множества линий выбирается такая, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной.

Аналитически условие (4.1.6) означает, что находится минимум функции

С этой целью вычисляются частные производные функции по каждому из неизвестных параметров a и b и приравниваются к нулю:

;

;

Преобразуя последнюю систему, получим следующую систему нормальных уравнений для оценки параметров a и b:

Решая данную систему, находим искомые оценки параметров:

(4.1.7)

(4.1.8)

Чтобы более четко представлять методику расчета коэффициентов регрессии, статистических характеристик и их интерпретацию, представляется целесообразным первоначально провести расчеты в ручном режиме с использованием приведенных в разделе формул. В этой связи может оказаться полезной рабочая таблица 4.1.2, где представлены расчеты на данных примера 4.1.1.

Таблица 4.1.2

Схема рабочей таблицы вычисления оценок параметров уравнения регрессии

I xi yi xiy i ei
  16, 3 52, 8 265, 69 860, 64 2787, 84 51, 358 1, 442 2, 079 0, 722
  16, 8 48, 4 282, 24 813, 12 2342, 56 52, 438 -4, 038 16, 305 0, 122
  18, 5 54, 2 342, 25 1002, 7 2937, 64 56, 11 -1, 91 3, 648 1, 823
  16, 3   265, 69     51, 358 -1, 358 1, 844 0, 722
  17, 9 54, 9 320, 41 982, 71 3014, 01 54, 814 0, 086 0, 007 0, 563
  17, 4 53, 9 302, 76 937, 86 2905, 21 53, 734 0, 166 0, 028 0, 063
  16, 1 53, 1 259, 21 854, 91 2819, 61 50, 926 2, 174 4, 726 1, 102
  16, 2 52, 4 262, 44 848, 88 2745, 76 51, 142 1, 258 1, 583 0, 902
            52, 87 0, 13 0, 017 0, 022
  16, 7 52, 9 278, 89 883, 43 2798, 41 52, 222 0, 678 0, 460 0, 202
  17, 5 53, 1 306, 25 929, 25 2819, 61 53, 95 -0, 85 0, 723 0, 123
  19, 1 60, 1 364, 81 1147, 91 3612, 01 57, 406 2, 694 7, 258 3, 803
Сумма   205, 8 638, 8 3539, 64 10977, 41 34091, 66 638, 33 0, 47 38, 68 10, 17
Среднее 17, 15 53, 23 294, 97 914, 78 2840, 97 53, 19 0, 04 3, 22 0, 85

 

Применяя формулы (4.1.7) и (4.1.8) к примеру 4.1.1, получим:

,

.

Запишем уравнение регрессии:

. (4.1.9)

Отсюда становится очевидной экономическая интерпретация расчетных значений . Значения регрессии указывают среднее значение зависимой переменной y при заданномзначениифактора x= xi в предположении, что единственной причиной изменения переменной y является переменная x. Разброс наблюдаемых значений переменной y вокруг расчетных обусловлен влиянием множества факторов, которые в модель не включены.

Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции . Существуют разные модификации формулы линейного коэффициента корреляции. Например, соотношение (4.1.10) представлено в форме, удобной для интерпретации: коэффициент тем больше, чем больше синхронности в движении показателей y и x в одном или противоположных направлениях; если такая синхронность отсутствует, то значение коэффициента снижается:

, (4.1.10)

где — средние значения соответственно y и x,

стандартные отклонения соответственно y и x.

Формула (4.1.11) часто используется в рабочих расчетах

(4.1.11)

 

Как известно, линейный коэффициент корреляции находится в границах: . Если , то можно говорить о наличии тесной линейной связи между показателями.

Для данных примера 4.1.1 величина линейного коэффициента корреляции составила: .

Коэффициент рассчитан с использованием рабочей таблицы 4.1.2. Полученный коэффициент больше 0, 7, что означает наличие зависимости объемов производства и инвестиций. О степени тесноты связи между показателями можно судить и по диаграмме рассеяния — по ширине разброса точек. Если точки расположены близко друг к другу в виде узкой полоски, то можно утверждать о наличии относительно тесной связи. Если точки разбросаны широко по диаграмме, то имеется слабая связь.

Следует иметь ввиду, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых показателей в ее линейной форме. Поэтому близость абсолютной величины линейного коэффициента корреляции к нулю еще не означает отсутствие связи между показателями. При иной спецификации модели связь может оказаться достаточно тесной.

Для оценки качества подбора линейной функции рассчитывается коэффициент детерминации, которыйхарактеризует долю дисперсии результативного показателя y, объясняемую регрессией, в общей дисперсии результативного показателя. В такой интерпретации коэффициент детерминации характеризует, в какой степени разброс значений y вокруг средней объясняется функцией регрессии и, следовательно, зависимостью от фактора x. Значение коэффициента детерминации позволяет проверить, не упущен ли какой-либо фактор, оказывающий заметное влияние на показатель y. Значения находятся в интервале [0, 1]. Если 0, 7, то следует искать другие факторы, влияющие на результативный показатель y и вводить их в функцию регрессии.

Среди различных формул расчета данного коэффициента выделим следующие формулы:

(4.1.12)

. (4.1.13)

 

Формула (4.1.13) для расчета как квадрат коэффициента корреляции удобна как рабочая формула при нахождении статистических характеристик в ручном режиме:

В примере 4.1.1:

=0, 74*0, 74=0, 55< 0, 7.

Это означает, что рассмотрение только одного фактора — инвестиций, влияющего на объем производства, недостаточно: требуется введение в модель дополнительного фактора.

Качество подбора функции регрессии в экономическом анализе обычно оценивают с помощью стандартных ошибок или дисперсий остатков и оценок параметров регрессии.

Стандартная ошибка уравнения регрессии S характеризует остаточную сумму квадратов отклонений и для однофакторной линейной регрессии определяется по формуле:

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров a и b определяется его стандартная ошибка по формулам:

(4.1.14)

(4.1.15)

Для нашего примера 4.1.1 величины стандартных ошибок составили соответственно:

S= =1, 97

=0, 6

=10, 6

Значения стандартных ошибок получены с использованием рабочей таблицы 4.1.2.

Величина стандартных ошибок совместно с t-распределением Стьюдента при (n-2) степенях свободы применяется для проверки статистической значимости коэффициента регрессии.

С этой целью формулируется гипотеза о статистической значимости коэффициента регрессии следующим образом:

Нулевая гипотеза — ;

Альтернативная гипотеза — .

В том случае, если H0 принимается, то есть основания считать, параметр регрессии b статистически незначим. При отклонении нулевой гипотезы коэффициент регрессии статистически значим. В данном случае рассматривается двусторонняя критическая область, т.к. важным является отличие от нуля коэффициента регрессии, а сам коэффициент может быть как положительным, так и отрицательным. Для оценки статистической значимости коэффициента регрессии b (a) его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение t-статистики (), которое затем сравнивается с табличным значением при определенном уровне значимости a и числе степеней свободы (n-2). Нулевая гипотеза отклоняется на основании данного критерия, если .

В рассматриваемом примере фактические значения t-критерия для коэффициентов регрессии составили:

= 1, 5, 3, 5

При a=0, 05(для двустороннего критерия) и числе степеней свободы 10 табличное значение . Так как , то, следовательно гипотезу о несущественности коэффициента регрессии b можно отклонить, в то время как < 2, 23, что не позволяет отклонить нулевую гипотезу относительно коэффициента a.

При оценке значимости коэффициента регрессии на начальном этапе можно использовать «грубое» правило, позволяющее не прибегать к таблицам: если , или, что то же самое, если отношение стандартной ошибки параметра и самого параметра меньше 30%: , то это свидетельствует о статистической значимости параметра регрессии b. Для числа наблюденийбольше 10, это грубое правило практически всегда работает.

Таким образом проверка гипотез о значимости коэффициентов регрессии равносильна проверке статистической значимости регрессора и, следовательно, желательности включения его в модель.

Удобно уравнение регрессии с набором диагностических тестов записывать в следующем виде:

0, 55 S=1, 97 (4.1.16)

Станд.Ош. (10, 6) (0, 6)
t-статист. (1, 5) (3, 5)

 

Оценивая построенную регрессию в целом, можно заключить, что введенный в модель фактор (инвестиции) является статистически значимым (т.к. t-статистика коэффициента регрессии больше 3), однако одного фактора недостаточно для объяснения колебаний результативного показателя – объем производства. Вполне возможно, что неадекватной является форма связи между показателями, т.к. по небольшому количеству точек на диаграмме рассеяния достаточно сложно установить наилучшую форму связи.

Вначале попробуем улучшить характеристики модели (4.1.16) за счет изменения формы связи.

 

Пример 4.1.2. Для данных примера 4.1.1. построить регрессионные модели по нелинейным формам связи.

Решение. 1) Рассчитаем параметры степенной функции . Данную функцию можно привести к линейному виду путем логарифмирования обеих частей:

Далее проводим логарифмическое преобразование исходных рядов наблюдений:

 

 

Предприятие Логарифм инвестиции Логарифм объема производства
i Ln(xi) Ln(yi)
  2, 791 3, 967
  2, 821 3, 879
  2, 918 3, 993
  2, 791 3, 912
  2, 885 4, 006
  2, 856 3, 987
  2, 779 3, 972
  2, 785 3, 959
  2, 833 3, 970
  2, 815 3, 968
  2, 862 3, 972
  2, 950 4, 096

 

И к уже преобразованным данным применяем формулы (4.1.7)-(4.1.15) для расчета параметров регрессии и статистических характеристик. В результате расчетов получаем следующую регрессионную модель:

(3, 5) (3, 3)

Выполнив потенцирование, находим вид искомой функции:

2) Построению показательной функции также предшествует процедура линеаризации переменных путем логарифмирования обеих частей уравнения:

. В соответствии с видом данной функции требуется логарифмическое преобразование ряда y, в то время как ряд x остается неизменным.

Предприятие Инвестиции Логарифм объема производства
i xi Ln(yi)
  16, 3 3, 967
  16, 8 3, 879
  18, 5 3, 993
  16, 3 3, 912
  17, 9 4, 006
  17, 4 3, 987
  16, 1 3, 972
  16, 2 3, 959
    3, 970
  16, 7 3, 968
  17, 5 3, 972
  19, 1 4, 096

 

После расчета характеристик и параметров для таким образом преобразованных рядов, получаем:

(16, 5) (3, 4)

Выполнив потенцирование, находим вид искомой функции:

3) Уравнение равносторонней гиперболы линеаризуется при замене : . В соответствии с видом данной функции требуется преобразование ряда x — (), а ряд y остается неизменным:

Предприятие Обратная к инвестиции Объем производства
i 1/xi yi
  0, 061 52, 8
  0, 060 48, 4
  0, 054 54, 2
  0, 061  
  0, 056 54, 9
  0, 057 53, 9
  0, 062 53, 1
  0, 062 52, 4
  0, 059  
  0, 060 52, 9
  0, 057 53, 1
  0, 052 60, 1

 

Используя формулы (4.1.7) – (4.1.15), получаем следующую регрессионную модель:

(8, 0) (-3, 3)

 

Сравнивая статистические характеристики нелинейных регрессий, заключаем, что за счет изменения формы связи нам не удалось увеличить коэффициент детерминации. Коэффициенты по всем формам связи ниже критического уровня 0, 7. В следующем параграфе мы попробуем улучшить характеристики модели за счет введения в нее дополнительного фактора.

Оценивая линейное уравнение регрессии, мы предполагаем выполнимость предпосылок МНК. Для получения по МНК наилучших результатов необходимо, чтобы выполнялся ряд предпосылок относительно остатков ei. В параграфе 4.1.2 представлена математическая формулировка этих предпосылок. Исследование поведения остатков актуально при построении регрессии на временных рядах, где последовательность наблюдений имеет существенное значение и вероятность зависимости остатков наиболее высока. При построении регрессионной модели на пространственных данных последовательность наблюдений не имеет значения, поэтому в данном случае анализ остатков не проводится.

Характерной особенностью линейной регрессии является экономическая интерпретируемость коэффициента парной регрессии b. Постоянная уравнения регрессии a не имеет четкой экономической интерпретации.

Несложно доказать, что коэффициент парной регрессии b указывает среднюю величину изменения переменной y при изменении фактора х на одну единицу. Параметр b представляет собой абсолютное усредненное на данных ретропериода изменение результативного показателя при изменении фактора на одну единицу, коэффициент парной регрессии имеет единицу измерения – отношение размерности зависимой переменной к размерности фактора. В представленной интерпретации прослеживается тесная зависимость коэффициента парной регрессии и среднего за наблюдаемый период коэффициента эластичности. Напомним, что последний характеризует на сколько процентов изменится результативный показатель y при изменении фактора х на 1% и рассчитывается по формуле:

(4.1.17)

При построении регрессионной модели для целей прогнозирования особое значение имеет знак коэффициента парной регрессии: знак «+» указывает на прямую зависимость y и x ( с увеличением значение факторавозрастает и значение результативного показателя), знак “-“ характеризует обратную зависимость показателей. Важным представляется обоснованность описанного уравнением характера связи с точки зрения экономической теории. Если полученная зависимость сомнительна, то от данного уравнения, даже несмотря на его удовлетворительные статистические характеристики, лучше отказаться: на прогнозный период имеет смысл распространять зависимости, не противоречащие основным положениям экономической теории.

В примере 4.1.1 b =2, 16 указывает, что при увеличении инвестиций на 1 тыс. у.е. объем производства увеличивается на 2, 16 тыс.шт.

С помощью уравнения регрессии можно решать не только задачи анализа, но и прогнозирования. При этом информация, представленная регрессионной моделью, может использоваться в разных способах прогноза. Представим эти способы на данных примера 4.1.1. Вообще говоря, использование модели (4.1.16) для прогноза не является корректным в силу низкого коэффициента детерминации. В данном случае использование модели носит в большей мере демонстративный характер.

Пусть задача прогнозирования формулируется следующим образом.

 

Пример 4.1.3. По группе однородных предприятий исследована зависимость между объемами производства и инвестициями, которая описывается регрессионной моделью вида . Требуется оценить объем производства на предприятии, вошедшем в группу однородных, если объем инвестиций на предприятии составит 20 тыс.у.е. Отметим, что в отчетном периоде инвестиции составляли 19 тыс.у.е., а объем производства 58 тыс.шт.

Решение задачи 4.1.3. (с пособ 1 — на основе уравнения регрессии). Самый простой способ прогноза предполагает подстановку значений фактора на прогнозный период в уравнение регрессии:

59, 4 (тыс.шт.)

Ответ. Если условия производства на предприятии не изменятся, то при объеме инвестиций 20 тыс. у.е. объем производства составит 59, 4 тыс.шт.

 

Отметим, что при получении решения мы использовали постоянную регрессии, уровень статистической значимости которой неудовлетворительный. Поэтому имеет смысл воспользоваться способом прогнозирования, который не использует постоянную регрессии, а ориентируется на экономический смысл параметра регрессии.

 

Решение задачи 4.1.3. (способ 2 — с использованием экономического смысла параметра регрессии). Исходя из отчетных данных предприятия, можно найти ожидаемый прирост инвестиций в прогнозном периоде Ñ x = 20-19=1(тыс.у.е.). Ориентируясь на экономический смысл параметра регрессии: изменение объема производства при изменении инвестиции на одну единицу, легко можно найти прирост объема производства в прогнозном периоде: Ñ y =2, 16*1=2, 16 (тыс.шт.). Поскольку в отчетном периоде объем производства составлял 58 тыс.шт., то в прогнозном периоде объем производства составит y = 58+2, 16=60, 16 (тыс.шт.).

Решение задачи 4.1.3. (способ 3 — с использованием коэффициента эластичности). Рассчитаем средние значения инвестиций и объема производства в представленной выборке предприятий (см. рабочую табл.4.1.2): =17, 15, =53, 2, с последующим расчетом коэффициента эластичности Э = 2, 16*(17, 15/53, 2)=0, 7. Определим ожидаемый темп прироста инвестиций в прогнозном периоде . Используя коэффициент эластичности, ожидаемый темп прироста объема производства составит . Далее легко рассчитать ожидаемый объем производства y =58*1, 037=60, 15 (тыс.шт.).

 

Выбор способа прогнозирования в каждом конкретном случае определяется пользователем исходя из его опыта прогнозирования. Если конкретные соображения по поводу способа прогнозирования отсутствуют, то можно взять среднюю по всем способам прогнозирования. В нашем примере мы более склоняемся к выбору второго или третьего способа прогнозирования в силу статистической незначимости параметра а, тем более, что прогнозные значения по последним вариантам практически совпадают.

Отметим, что в практике прогнозирования наиболее часто предпочтение отдается линейной регрессии в силу экономической интерпретируемости параметров регрессии и возможности, по этой причине, экспертной корректировке параметра в силу изменений в прогнозном периоде условий экономической конъюнктуры. Экономической интерпретации поддаются параметры некоторых нелинейных форм связи.

Пусть экономическая зависимость моделируется степенной формой связи . Прологарифмировав обе части, имеем логарифмическое представление формы связи . В данной модели b1 определяет эластичность переменной y по переменной x. Действительно, продифферинцировав левую и правую части уравнения по x, получим:

или .

Наиболее часто степенная форма связи используется при описании функций спроса на товары и услуги, а также при описании производственных функций.

Поддаются экономической интерпретации параметры полулогарифмических функций. Функции вида (показательная) и называются полулогарифмическими функциями. Такие функции используют в тех случаях, когда необходимо оценить зависимость абсолютного показателя от относительного или относительного показателя от абсолютного, например, бюджет дефицита от темпов роста ВВП, или темпы роста инфляции от объема денежной массы.

Логлинейная модель широко используется в банковском и финансовом анализе. Продифферинцировав левую и правую части уравнения по x, получим:

или .

Отсюда ясен экономический смысл параметра регрессии b, который показывает относительное изменение зависимого показателя y при абсолютном приросте независимого показателя x на единицу.

Линейнологарифмическая модель используется в тех случаях, когда необходимо исследовать влияние процентного изменения независимой переменной на абсолютное изменение зависимой переменной. Продифферинцировав левую и правую части уравнения по x, получим:

или .

Отсюда ясен экономический смысл параметра регрессии b, который показывает абсолютное изменение зависимого показателя y при приросте независимого показателя x на 1 %.

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.