Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Порядок выполнения работы






1. Запустите программу STATISTICA 6.0.

2. Откройте файл исходных данных.

3. Запустите модуль Множественная регрессия (Multiple Regression).

 

Рисунок 4.1 – Запуск модуля “ Множественная регрессия”

 

При этом появится окно следующего вида:

 

Рисунок 4.2 – Окно модуля “ Множественная регрессия”

 

4. Определите переменные будущей модели. Выберите одну любую переменную в качестве зависимой переменной и несколько (ориентировочно 7 – 8) в качестве независимых переменных. Для этого изучите массив данных и априорно установите, какие переменные могут влиять на выбранную зависимую переменную. Оцените связи по корреляционным матрицам, используя результаты предыдущей лабораторной работы. В качестве независимых переменных следует выбирать только те переменные, которые имеют высокий коэффициент корреляции.

Отметьте выбранные переменные. Для этого нажмите на кнопку Переменные (Variables). При этом появится окно вида, представленного на рисунке 4.3.

 

Рисунок 4.3 – Пример выбора зависимых и независимых переменных

 

В левой половине окна выбираются Зависимые переменные (Dependent var.), а в правой - Независимые переменные (Independent variable list). Следует отметить, что списки зависимых и независимых переменных не должны перекрываться, т.е. в списках не могут быть выбраны одни и те же переменные. При возникновении такой ситуации программа STATISTICA 6.0 выдаст соответствующее предупреждение: Списки перекрываются (Lists Overlap).

Нажмите ОК в окне выбора переменных, а затем на стартовой панели. При этом появится окно результатов Результаты Множественной регрессии (Multiple Regression Results) с оценками параметров модели. Просмотр результатов возможен как в численном, так и графическом виде. Окно результатов анализа имеет информационную и функциональную часть:

 

Рисунок 4.4 – Пример окна результатов множественной регрессии

5. В информационной части окна содержатся краткие сведения о результатах анализа.

Первый столбец содержит:

ü Зависимые переменные (Dependent) - список зависимых переменных;

ü Число регистров (No. of Cases) – число наблюдений, по которым была построена модель.

Второй столбец содержит:

ü Коэффициент множественной корреляции (Multiple R);

ü Коэффициент детерминации (R?);

ü Скорректированный коэффициент детерминации (Adjusted R?).

Третий столбец содержит:

ü Значения F-критерия (F);

ü Число степеней свободы для F-критерия (df);

ü Уровень значимости (p).

Далее приводится краткая статистика анализа:

ü Стандартная ошибка оценки (Standard error of estimate);

ü Оценка свободного члена регрессии (Intercept) – это значение в формулах (1) – (5);

ü Стандартная ошибка оценки свободного члена (Std. Error);

ü Значение t-критерия в зависимости от числа степеней свободыt(df);

ü Уровень значимости – p.

Два последних значенияиспользуются для проверки гипотезы о равенстве нулю свободного члена регрессии.

 

Далее под чертой идут коэффициенты регрессии (beta). Это – стандартизованные коэффициенты регрессии. Коэффициенты beta являются коэффициентами, которые получаются путем стандартизации всех переменных, т.е. делается их среднее равным 0, а стандартное отклонение равное 1. Одно из преимуществ beta -коэффициентов (по сравнению с B -коэффициентами, см. ниже) заключается в том, что beta -коэффициенты позволяют сравнить относительные вклады каждой независимой переменной в предсказание зависимой переменной. Значимые beta- коэффициенты выделяются красным цветом, о чем сообщает надпись Значимые beta-коэффициенты выделены (Significant beta’s are highlighted), которая находится внизу информационного окна.

 

Функциональная часть окна состоит из нескольких вкладок. В каждой из них находятся кнопки, используемые для оценки результатов регрессии.

На первой вкладке – Быстро (Quick) – находится кнопка:

ü Расчет: результаты регрессии (Summary: Regression results).

На второй вкладке – Дополнительно (Advanced) – находятся кнопки:

ü Расчет: результаты регрессии (Summary: Regression results);

ü Анализ дисперсии (Analysis of variance – ANOVA(Overall goodness of fit));

ü Ковариация и корреляция регрессионных коэффициентов (Covariance of Coefficients);

ü Текущая матрица выметания (Current sweep matrix);

ü Частные корреляции (Partial correlations);

ü Избыточность (Redundancy);

На третьей вкладке – Остатки / Предположения / Предсказания (Residuals / Assumptions / Prediction) – находятся кнопки:

ü Предсказание зависимой переменной (Predict dependent variable);

ü Предварительный анализ остатков (Perform Residual analysis);

ü Описательные статистики (Descriptive Statistics).

 

6. Предварительный анализ результатов регрессии начинается с изучения данных информационного окна – с оценки значений коэффициентов множественной корреляции и детерминации. Значения коэффициента детерминации в пределах R? =0.5÷ 1 считаются хорошими. Далее обратите внимание на значения F- критерия (F) и уровня значимости (p). Сделайте вывод о значимости регрессии. В случае если Fрас > Fα (k1, k2) построенная регрессия значима. Значение Fα (k1, k2), где ( – число наблюдений, – число независимых переменных плюс 1) следует взять из таблицы “Табличные значения критерия Фишера” (см. приложение 1).

 

Получите результаты регрессии в табличном виде. Для этого нажмите кнопку Расчет: результаты регрессии (Summary: Regression results). В результате получится таблица следующего содержания:

 

Рисунок 4.5 – Пример таблицы результатов анализа

 

В таблице приводятся оценки свободного члена (Intercept), все стандартизованные коэффициенты регрессии (beta) и их стандартные ошибки, все нестандартизованные коэффициенты регрессии (B-коэффициенты, т.е. ) и их стандартные ошибки, значения t -критерия и p -уровень значимости для каждого коэффициента.

 

Далее анализируют коэффициенты beta для каждой независимой переменной. Если они являются значимыми, то соответствующие независимые переменные необходимо учесть в дальнейшем. Оценивают значимость коэффициентов регрессии по предпоследней колонке, где даны расчетные значения t- критерия. В случае если t(df)> tα (k), то данная независимая переменная значима. Значения tα (k) – табличное значение критерия Стьюдента следует брать из приложения 2. Если независимая переменная не значима, то ее следует исключить и пересчитать уравнение регрессии без этой независимой переменной. (Следует вернуться к пункту 4 и исключить эту независимую переменную из списка переменных).

7. На следующем этапе оценивают дисперсию регрессии функциональная кнопка Анализ дисперсии (Analysis of variance – ANOVA(Overall goodness of fit)), которая находится на вкладке Дополнительно (Advanced). При нажатии на эту кнопку получите таблицу следующего содержания:

Рисунок 4.6 – Пример таблицы с оценкой дисперсии регрессии

Из полученной таблицы видно (см. первый столбец – Суммы дисперсий (Sums of Squares)), какая часть дисперсии приходится на уравнение регрессии (Regress), а какая на остатки (Residual). Чем меньше доля дисперсии остатков в общей дисперсии (Total), тем регрессионное уравнение лучше.

Определите долю дисперсии остатков в процентах. Для этого следует разделить значение остатки (Residual) на значение общей дисперсии (Total) и умножить на 100%.

Далее изучают возможность наличия мультиколлинеарности независимых переменных. Для этого вызывают корреляционную матрицу – функциональная кнопка Ковариация и корреляция регрессионных коэффициентов (Covariance of Coefficients), которая находится на вкладке Дополнительно (Advanced) окна регрессионного анализа (см. рис. 4.7).

 

Рисунок 4.7 – Вызов корреляционной матрицы для оценки мультиколлинеарности

 

В результате будет построена корреляционная матрица регрессионных коэффициентов, которая имеет вид, представленный на рисунке 4.8.

 

Рисунок 4.8 – Пример корреляционной матрицы регрессионных коэффициентов

 

По таблице изучают взаимные связи между независимыми переменными с коэффициентами корреляции близкими к единице.

Явление мультиколлинеарности возникает, если между независимыми переменными существуют почти функциональные линейные связи. В этом случае корреляционная матрица будет плохо обусловленной, оценки коэффициентов регрессии неустойчивы, и уравнение регрессии нельзя применять для прогноза зависимой переменной вне области определения независимых переменных. Если проблема мультиколлинеарности возникает, это означает, что, по крайней мере, одна из переменных является совершенно лишней при наличии остальных переменных с высокими коэффициентами парной корреляции, т.е. возникает эффект избыточности. Чтобы исключить влияние мультиколлинеарности из уравнения регрессии следует отбросить в дальнейшем лишние независимые переменные.

На следующем этапе оценивают долю влияния каждой независимой переменной (всех оставшихся после предварительного анализа) на зависимую переменную. Для этого перейдите на вкладку Остатки / Предположения / Предсказания (Residuals / Assumptions / Prediction):

Рисунок 4.9. – Вкладка Остатки /Предположения / Предсказания

 

Нажмите кнопку Описательные статистики (Descriptive Statistics). При этом откроется окно следующего вида:

 

Рисунок 4.10 – Окно “ Описательные статистики”

 

Постройте таблицу корреляций. Для этого нажмите кнопку Корреляции (Correlations). В результате получится таблица следующего содержания:

 

Рисунок 4.11 – Пример таблиці корреляций

 

С помощью данных этой таблицы отсортируйте независимые переменные по доле их влияния на зависимую переменную. Обратите внимание, что все зависимые переменные для удобства вынесены в конец таблицы. Перепишите независимые переменные и их коэффициенты корреляции в порядке убывания абсолютных величин этих коэффициентов (см. последнюю строку или последний столбец таблицы). Сохраните эту информацию для отчета (см. таблицу 4.1).

 

Таблица 4.1. – Пример таблицы коэффициентов корреляции для разных переменных

Переменная Коэффициент корреляции
Var5 0, 322607
Var2 0, 281153
Var1 -0, 135269
Var8 -0, 074434
Var10 0, 065616
Var7 -0, 035504
Var9 0, 014185

Примечание: Для сортировки независимых переменных по доле их влияния на зависимую переменную можно пользоваться опцией Частные корреляции (Partial correlations) и сортировку вести по частным коэффициентам корреляции.

8. Далее проведите оценку регрессии по шагам. Из отобранных после предварительной оценки независимых переменных возьмите самую значимую независимую переменную, которая имеет самый высокий парный коэффициент корреляции (с самой высокой долей влияния на зависимую переменную). По алгоритму (см. п.п. 4 – 5) постройте уравнение парной регрессии. Оцените дисперсию, коэффициент детерминации и стандартную ошибку оценки. На втором шаге добавьте следующую по рангу значимую независимую переменную и постройте уравнение множественной регрессии от двух переменных. Тоже оцените дисперсию, коэффициент детерминации и стандартную ошибку оценки. Сравнивают данные величины, полученные на первом и втором шаге, и если есть явное их улучшение (увеличение RI, уменьшение дисперсии и ошибки), то используйте в качестве регрессионного уравнения второе уравнение. На следующем шаге добавьте из списка, полученного в п. 7, следующую значимую независимую переменную и пересчитайте уравнение регрессии и т.д. Окончательное уравнение регрессии возьмите тогда, когда на следующем шаге не будет явного улучшения дисперсии, коэффициента детерминации и стандартной ошибки оценки. На каждом шаге следует проследить за исключением эффекта мультиколлинеарности. Сохраните полученные на каждом шаге результаты (информационную часть окна Результаты множественной регрессии (Multiple Regression Results)) для отчета.

Окончательные результаты (на последнем шаге) также сохраните для отчета. Для этого перейдите на вкладку Быстро (Quick) и нажмите кнопку Расчет: Результаты регрессии (Summary: Regression Results). При этом получится таблица следующего содержания:

 

Рисунок 4.12 – Пример таблицы “ Результаты регрессии”

 

В этой таблице нестандартизованные коэффициенты B используются в уравнении (4.1), представленном на стр. 36. В качестве коэффициента используется свободный член (Intercept). В качестве коэффициентов регрессии используются соответствующие коэффициенты B, для выбранных переменных. Например, для приводимой выше таблицы, регрессионное уравнение будет иметь вид:

Y=0, 295803+0, 084512*Var2+0, 031389*Var5-0, 000526*Var8+0, 004860*Var10;

При составлении уравнения следует учитывать только значимые коэффициенты регрессии – в STATISTICA 6.0 эти коэффициенты отмечаются красным цветом. Регрессионное уравнение также следует привести в отчете.

9. После получения регрессионного уравнения следует оценить адекватность модели, которая основывается на анализе остатков. Для этого нажмите кнопку Предварительный анализ остатков (Perform residual analysis), которая находится на вкладке Остатки / Предположения / Предсказания (Residuals / Assumptions / Prediction). На экране появится диалоговое окно Анализ остатков (Residual analysis), которое имеет несколько вкладок. Группы функциональных кнопок, которые находятся на каждой вкладке, перечислены ниже:

На первой вкладке – Быстро (Quick) – находятся кнопки:

ü Расчет: регрессия и предсказания (Summary: Residuals & predicted);

ü (Normal plot of residuals).

На второй вкладке – Дополнительно (Advanced) – находятся кнопки:

ü Расчет: регрессия и предсказания (Summary: Residuals & predicted);

ü Описательная статистика (Descriptive statistics);

ü Итоговый результат регрессии (Regression summary);

ü Статистика ДурбинаВатсона (Durbin-Watson statistics).

На третьей вкладке – Остатки (Residuals) – находятся кнопки:

ü Гистограмма остатков (Histogram of residuals);

ü График остатков (Casewise plot of residuals);

ü Остатки зависимых переменных (Residuals vs. independent var.);

ü Гистограмма наблюдений (Histogram of observed).

На четвертой вкладке – Предсказания (Predicted) – находятся кнопки:

ü Гистограмма предсказаний (Histogram of predicted);

ü График предсказаний (Casewise plot of predicted);

ü Предсказания зависимых переменных (Predicted vs. independent var.).

На пятой вкладке – Диаграммы рассеивания (Scatterplots) – находятся кнопки:

ü Предсказанные значения и остатки (Predicted vs. residuals);

ü Предсказанные значения и квадратичные остатки (Predicted vs. square residuals);

ü Предсказанные и наблюдаемые значения (Predicted vs. observed);

ü Наблюдаемые значения и остатки (Observed vs. residuals);

ü Наблюдаемые значения и квадратичные остатки (Observed vs. square residuals);

ü Остатки и удаленные остатки (Residuals vs. deleted residuals);

ü Корреляции для двух переменных (Bivariate correlation);

ü Частные графики остатков (Partial residual plot).

На шестой вкладке – Вероятностные графики остатков (Probability Plots) – находятся кнопки:

ü Нормальный график остатков (Normal plot of residuals);

ü Полунормальный график остатков (Half-normal plot);

ü Нормальный график без тренда (Detrendet normal plot).

На седьмой вкладке – Выбросы (Outliers) – находится кнопка:

ü График выбросов (Casewise plot of outliers).

На восьмой вкладке – Сохранить (Save) – находится кнопка:

ü Сохранить остатки и предсказанные значения (Save Residuals & predicted).

Рисунок 4.13 – Пример результатов анализа для исходных данных

 

10. Проведите графический анализ остатков, используя кнопки Наблюдаемые значения и остатки (Observed vs. residuals) и Предсказанные значения и остатки (Predicted vs. residuals), которые находятся на вкладке – Диаграммы рассеивания (Scatterplots). Постройте обе диаграммы рассеивания.

 

Рисунок 4.14 – Пример результатов графического анализа остатков с использованием диаграмм рассеивания

 

По диаграммам рассеивания оцените корреляцию остатков и значений и . Если корреляция слабая (т.е. остатки независимы), то на каждой диаграмме будет наблюдаться «облако рассеивания». Постройте диаграмму рассеивания Предсказанные и наблюдаемые значения (Predicted vs. observed). В случае сильной корреляции экспериментальные точки на ней будут ложиться на прямую линию в области доверительных интервалов. Анализ всех этих графиков дает возможность визуально оценить независимость остатков.

 

Рисунок 4.15 – Пример диаграммы рассеивания Предсказанные и наблюдаемые значения

 

11. Изучите нормальность распределения остатков. Нажмите кнопку Нормальный график остатков (Normal plot of residuals), которая находится на вкладке Вероятностные графики остатков (Probability Plots). На экране получим вероятностный график с экспериментальными точками (см. рис. 4.16). Чем больше точек находится возле прямой, тем лучше нормальный закон описывает распределение остатков:

 

Рисунок 4.16 – Пример вероятностного графика с экспериментальными точками для изучения нормальности распределения остатков

 

Аналогичным образом визуально это можно оценить и по гистограмме, которая строится по нажатию кнопки Гистограммы остатков (Histograms of residuals) – вкладка Остатки (Residuals):

Рисунок 4.17 – Пример гистограммы остатков для визуальной оценки распределения данных по нормальному закону

В конце анализа следует сохранить остатки – кнопка Сохранить остатки и предсказанные значения (Save Residuals & predicted), которая находится на вкладке Сохранить (Save). При нажатии на эту кнопку откроется стандартное окно выбора переменных. В этом окне следует отметить все независимые переменные, которые использовались для построения регрессионного уравнения. После выбора переменных появится таблица следующего содержания:

 

 

Далее следует распечатать таблицу описательных статистик остатков (см. таблицу 4.2). Для этого нажмите кнопку Расчет: регрессия и предсказания (Summary: Residuals & predicted), которая находится на вкладке Быстро (Quick):

Таблица 4.2 – Пример заполненной таблицы описательных статистик

 

Для получения численных оценок следует использовать данные этой таблицы по остаткам для оценки гипотез – например, на нормальный закон распределения остатков по критерию Хи -квадрат, оценок корреляционных связей остатки – наблюдаемые или предсказанные значения и т.д. (лабораторные работы №2, №4).

12. Если предполагается нелинейный вид регрессии, то следует линеаризовать переменные, преобразовав их под конкретный вид зависимости (1) – (5). Дальше следует строить линейное регрессионное уравнение по принципу, описанному выше.

13. Вернитесь в окно Результаты Множественной регрессии (Multiple Regression Results) и нажмите кнопку Предсказание зависимой переменной (Predict dependent variable). При этом появится окно следующего вида:

 

Рисунок 4.18 – Окно для указания коэффициентов при независимых переменных уравнения регрессии

 

В появившихся полях этого окна укажите коэффициенты при независимых переменных для полученного уравнения регрессии. Нажмите ОК. В результате появится таблица с прогнозными данными: средним значением зависимой переменной, ее максимальным и минимальным значением с учетом доверительных границ:

 

Рисунок 4.19 – Внешний вид таблицы с прогнозными данными

 

Данная опция может использоваться для построения прогнозов по регрессионному уравнению.

14. Используйте полученные данные, таблицы и графики для написания отчета и формулировки выводов по работе.

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.