Разделы сайта

Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Анализ и прогноз

Стр 1 из 2Следующая ⇒

Самым простым и распространенным методом анализа и прогноза является статистический регрессионный анализ. Освоение базовых принципов регрессионного анализа сделаем на примере простейшей парной линейной регрессии.

Парная регрессия – это уравнение связи двух переменных у и х:

где y ‑ зависимая переменная (результативный признак); x ‑ независимая, объясняющая переменная (признак ‑ фактор).

Линейная парная регрессия: .

Построение уравнения регрессии сводится к оценке ее параметров (в приведенных выше уравнениях регрессии – параметры a и b). Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.

Для линейных уравнений решается следующая система относительно a и b:

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции :

где – среднее значение y, – среднее значение x , .

Линейный коэффициент корреляции изменяется в пределах .

Равенство коэффициента нулю свидетельствует об отсутствии линейной связи. Равенство коэффициента ‑ 1 или +1 показывает наличие функциональной связи. Знак «+» указывает на прямую связь (увеличение или уменьшение одного признака сопровождается аналогичным изменением другого признака), знак «‑» указывает на связь обратную (увеличение или уменьшение одного признака сопровождается противоположным по направлению изменением другого признака). Показателям тесноты связи можно дать качественную оценку (табл. 1).

Таблица 1.

Количественная мера тесноты связи	Качественная характеристика силы связи
Неустойчивая связь
до 0, 5	Очень низкая
0, 5-0, 6	Низкая
0, 6-0, 7	Заметная
Устойчивая связь
0, 7-0, 8	Средняя
0, 8-0, 9	Высокая
0, 9 и более	Очень высокая

Для расчета парного коэффициента корреляции можно воспользоваться статистической функцией Excel КОРРЕЛ.

КОРРЕЛ (массив 1; масси в2),

где массив 1 – это ячейка интервала значений, массив 2 – это второй интервал ячеек со значениями.

Оценку качества построенной модели определяет коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации.

Коэффициент детерминации :

Коэффициент детерминации принимает значения от 0, когда факторы x не оказывают никакого влияния на зависимую переменную, до 1, когда изменения зависимой переменной y полностью объяснимы влиянием факторов модели.

Функциональная связь возникает при значении равном 1, а отсутствие связи ‑ 0. При значениях показателей тесноты связи меньше 0, 7 величина коэффициента детерминации всегда будет ниже 50%. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

Средняя ошибка аппроксимации ‑ среднее отклонение расчетных значений от фактических:

Допустимый предел значений ‑ не более 8 ‑ 10%.

Оценка значимости уравнения регрессии проводится с помощью F-критерия Фишера. F- критерий Фишера заключается в проверке гипотезы Н₀ о статистической незначимости уравнения регрессии. Для этого выполняется сравнение фактического F_факт и критического (табличного) F_табл значений F- критерия Фишера.

F_факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:

где n – число единиц совокупности; m – число параметров при переменных (для линейной регрессии m = 1).

F _табл – максимально возможное значение критерия под влиянием случайных факторов при степенях свободы k ₁ = m, k ₂ = n – m – 1 (для линейной регрессии m = 1) и уровне значимости a.

Уровень значимости a – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно величина a принимается равной 0, 05 или 0, 01.

Если F_табл < F_факт, то Н₀ ‑ гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F_табл > F_факт, то гипотеза Н₀ не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t -критерий Стьюдента. Выдвигается гипотеза Н₀ о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t -критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:

Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:

Сравнивая фактическое и критическое (табличное) значения t -статистики ‑ t_табл и t_факт ‑ принимаем или отвергаем гипотезу Н₀.

Если t_табл < t_факт то Н₀ отклоняется, т.е. a, b и r_xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х.

Если t_табл > t_факт то гипотеза Н₀ не отклоняется и признается случайная природа формирования а, b или r_xy.

Точечный прогноз заключается в получении прогнозного значения , которое определяется путем подстановки в уравнение регрессии: соответствующего (прогнозного) значения : .

Для выделения области наиболее вероятного местонахождения уравнения регрессии, и соответственно не точки, а области прогноза, вычисляется диапазон от нижней до верхней границы доверительной области:

где ; ;

- остаточное отклонение регрессии, - среднее значение x,

- табличное значение статистики Стьюдента с заданным уровнем достоверности α и известной степенью свободы n -2 для линейного уравнения регрессии.

Для определения параметров линейной регрессии в Excel используется встроенная статистическая функция ЛИНЕЙН.

Порядок вычислений следующий:

· выделить область пустых ячеек 5x2 (5 строк и 2 столбца);

· вставить функцию ЛИНЕЙН, задать значение константы и статистики равными единице.

· ввести формулу как формулу массива, для чего нужно нажать клавишу F 2 а затем комбинацию клавиш Ctrl+Shift+Enter.

В таблице 2 показано, в каком порядке возвращается при вычислении функции ЛИНЕЙН дополнительная регрессионная статистика.

Таблица 2.

Значение коэффициента b	Значение коэффициента a
Среднеквадратичное отклонение se_b	Среднеквадратичное отклонение se_a
Коэффициент детерминации R²	se_y
F- статистика	Число степеней сводобы df
Регрессионная сумма квадратов ss_рег.	Остаточная сумма квадратов ss_ост.

Пример.

Торговое предприятие имеет несколько филиалов. Исследуется зависимость годового оборота отдельного филиала от размера торговой площади.

№ филиала	Товарооборот y, млн.руб.	Торговая площадь x, тыс. кв.м.
	2, 93	0, 31
	5, 27	0, 98
	6, 85	1, 21
	7, 01	1, 29
	7, 02	1, 12
	8, 35	1, 49
	4, 33	0, 78
	5, 77	0, 94
	7, 68	1, 29
	3, 16	0, 48
	1, 52	0, 24
	3, 15	0, 55

Требуется:

1. Построить графически линейное уравнение парной регрессии у от х.

2. Определить линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.

3. Рассчитать коэффициент детерминации.

4. Определить F- критерий Фишера.

5. Оценить статистическую значимость коэффициентов регрессии.

6. Выполнить точечный прогноз у при прогнозном значении х, составляющем 115% от среднего значения.

7. Вычислить и построить графически доверительную область для прогноза.

Решение.

Для определения параметров воспользуемся статистической функцией ЛИНЕЙН табличного процессора Microsoft Excel.

В таблице 3. представлены результаты вычисления функции ЛИНЕЙН.

Таблица 3.

1. Запишем полученное уравнение парной регрессии:

2. Для вычисления парного коэффициента воспользуемся статистической функцией КОРРЕЛ. Полученное значение показывает, что между годовым оборотом и размером торговой площади существует очень высокая прямая функциональная связь.

Для расчета средней ошибки аппроксимации дополним таблицу входных данных следующими расчетными полями (табл. 4.).

Таблица 4.

№ филиала	Товарооборот y, млн.руб.	Торговая площадь x, тыс. кв.м.
	2, 93	0, 31	2, 22	0, 71	0, 241
	5, 27	0, 98	5, 72	-0, 45	0, 086
	6, 85	1, 21	6, 92	-0, 07	0, 011
	7, 01	1, 29	7, 34	-0, 33	0, 047
	7, 02	1, 12	6, 45	0, 57	0, 081
	8, 35	1, 49	8, 39	-0, 04	0, 004
	4, 33	0, 78	4, 68	-0, 35	0, 081
	5, 77	0, 94	5, 51	0, 26	0, 044
	7, 68	1, 29	7, 34	0, 34	0, 044
	3, 16	0, 48	3, 11	0, 05	0, 015
	1, 52	0, 24	1, 86	-0, 34	0, 223
	3, 15	0, 55	3, 48	-0, 33	0, 104
Средняя ошибка аппроксимации	8, 18%

Расчетные значения вычисляются по полученному уравнению парной регрессии: путем подстановки соответствующих значений x.

Для расчета воспользуемся математической формулой определения модуля числа, например, для первой строчки:

= ABS (0, 71/2, 93) = 0, 241.

Средняя ошибка аппроксимации рассчитывается как среднее значение с помощью статистической функции СРЗНАЧ.

Качество построенной модели оценивается как хорошее, так как полученное значение не превышает 8 – 10%.

3. Запишем значение коэффициента детерминации (3 строка, первый столбец, табл. 5.1.3.). Коэффициент детерминации показывает, что 97% вариации объясняется факторами, включенными в уравнение регрессии, а 3% ‑ прочими факторами.

4. Значение F_факт находится на пересечении четвертой строки и первого столбца таблицы 3. F_факт = 311, 08. Определим F _таблпри заданном уровне значимости a = 0, 05 с помощью функции Excel FРАСПОБР.

= FРАСПОБР (0, 05; 1; 10) = 4, 964.

Сравним F_факт и F_факт, F_факт > F _табл ®гипотеза о случайной природе оцениваемых характеристик отклоняется. Полученное уравнение статистически значимое и надежное.

5. Определим статистическую значимость коэффициентов регрессии. По результатам значений таблицы 3 se_b = 0, 3; se_a = 0, 29. Следовательно, . Критическое значение t _таблпри заданном уровне значимости a = 0, 05 найдем с помощью статистической функции Excel СТЬЮДРАСПОБР.

= СТЬЮДРАСПОБР (0, 05; 10) = 2, 22.

Сравним t_табл и t_факт:

· 17, 4 > 2, 22, следовательно, значение параметра b не случайно отличается от нуля и сформировалось под влиянием систематически действующего фактора х;

· 2, 1 < 2, 22, следовательно, признается случайная природа формирования значение параметра a.

6. Выполним прогноз товарооборота у при прогнозном значении торговой площади х, составляющем 115% от среднего значения. Рассчитаем прогнозное значение . Для этого рассчитаем среднее значение торговой площади всех филиалов с помощью функции СРЗНАЧ. Получим , следовательно, . Вычислим прогнозное значение млн. руб.

12 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.