Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






  • Сервис онлайн-записи на собственном Telegram-боте
    Тот, кто работает в сфере услуг, знает — без ведения записи клиентов никуда. Мало того, что нужно видеть свое расписание, но и напоминать клиентам о визитах тоже. Нашли самый бюджетный и оптимальный вариант: сервис VisitTime.
    Для новых пользователей первый месяц бесплатно.
    Чат-бот для мастеров и специалистов, который упрощает ведение записей:
    Сам записывает клиентов и напоминает им о визите;
    Персонализирует скидки, чаевые, кэшбэк и предоплаты;
    Увеличивает доходимость и помогает больше зарабатывать;
    Начать пользоваться сервисом
  • Регрессионный анализ






    Регрессионный анализ тесно связан с методами корреляционного и дисперсионного анализа. В отличие от дисперсионного анализа, с помощью которого исследуется зависимость количественного признака от одного или нескольких качественных признаков, и в отличие от корреляционно анализа, который изучает направление и силу статистической связи признаков, регрессионный анализ изучает вид зависимости признаков, т.е. параметры функции зависимости одного признака от другого или нескольких качественных признаков, в регрессионном анализе исследуется зависимость (количественного или качественного признака) от одного или нескольких количественных признаков. Прогноз в этом случае лучше поддается содержательной интерпретации, становится более ясным воздействие отдельных факторов, лучше понимается природа изучаемого явления.

    Регрессии создают базу для расчетного экспериментирования с целью получения ответов на вопросы: «Что будет, если..?».

    Регрессионный анализ предполагает решение двух задач:

    1. Выбор независимой переменной, влияющей на зависимую величину, определение формы уравнения регрессии. Данная задача является путем анализа изучаемой взаимосвязи.

    2. Оценивание параметров – решается с помощью того или иного статистического метода обработки данных наблюдения.

    Регрессионный анализ – один из методов статистического моделирования. Моделью в данном случае является уравнение регрессии.

    Методы регрессионного анализа можно классифицировать следующим образом:

    1. По количеству независимых признаков: однофакторный, или простой (один независимый признак); многофакторный (два независимых признака и более).

    2. По типу математической зависимости: линейный; нелинейный; логистический; экспоненциальная регрессия и т.д.

    Однофакторная регрессионная модель является методом анализа двух признаков – независимого и зависимого.

    Этапами построения регрессионной модели являются: анализ ассоциации зависимого признака с каждым из независимых путем оценки корреляции и построения двумерных графиков; отбор наиболее сильных ассоциаций; построение регрессионного уравнения.

     

    Условия применения метода линейного регрессионного анализа:

    · число объектов исследования должно быть в несколько раз больше числа прогностических (объясняющих) признаков);

    · все анализируемые признаки должны быть количественными и нормально распределенными;

    · независимые признаки могут быть количественными и/или качественными;

    · взаимосвязи между каждым из данных независимого признака и зависимым признаком линейны в интервале изучаемых значений;

    · каждое значение зависимого признака независимо от любого другого значения независимого признака;

    · величина отклонений (вариаций) между фактически и прогнозируемым значением зависимой переменной, есть случайная величина с нормальным распределением и нулевым математическим ожиданием;

    · все значения отклонений (вариации) между фактически и прогнозируемым значением зависимой переменной не коррелированны между собой и имеют одинаковую дисперсию.

    Покажем, что для проведения регрессионного анализа может сделать средство Регрессия Пакета Анализа.

    В отдельных таблицах оно вычисляет следующее:

    • методом наименьших квадратов – коэффициенты линейной (относительно этих коэффициентов) функции регрессии; вид функции регрессии определяется структурой исходных данных; (Зам. Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов)
    • коэффициент детерминации и связанные с ним величины (таблица регрессионная статистика); ·
    • дисперсионную таблицу и критериальную статистику для проверки значимости регрессии (таблица Дисперсионный анализ); ·
    • для каждого коэффициента регрессии – среднеквадратическое отклонение и другие его статистические характеристики, позволяющие проверить значимость этого коэффициента и построить для него доверительные интервалы; ·
    • значения функции регрессии и остатки – разности между исходными значениями переменной Y и вычисленными значениями функции регрессии (таблица Ввод остатка); ·
    • вероятности, соответствующие упорядоченным по возрастанию значениям переменной Y (таблица Вывод вероятности).

    Кроме того, средство строит три типа графиков, которые будут показаны ниже.

    Пусть входной интервал Х состоит из k диапазонов-столбцов, содержащих значения { xi 1}, { xi 2},..., { xik } переменных Х1, Х2,..., Х k. В каждом диапазоне содержится одинаковое количество значений. Входной интервал Y, состоящий из одного диапазона-столбца, должен содержать такое же количество значений. Средство вычисляет коэффициенты функции регрессии вида

    Диалоговое окно средства Регрессия показано на рис..

    В поле Входной интервал Y вводится адрес диапазона, содержащего значения зависимой переменной Y. Диапазон должен состоять из одного столбца.

    В поле входной интервал Х вводится адрес диапазона, содержащего значения переменной Х. Диапазон должен состоять из одного или нескольких столбцов, но не более чем из 16 столбцов.

     

    Если указанные в полях Входной интервал Y и Входной интервал Х диапазоны включают заголовки столбцов, то необходимо установить флажок опции Метки– эти заголовки будут использованы в выходных таблицах, сгенерированных средством Регрессия.

    Флажок опции Константа - следует установить, если в уравнении регрессии константа b принудительно полагается равной нулю.

    Опция Уровень надежности устанавливается тогда, когда необходимо построить доверительные интервалы для коэффициентов регрессии с доверительным уровнем, отличным от 0, 95, который используется по умолчанию. После установки флажка опции Уровень надежности становится доступным поле ввода, в котором вводится новое значение доверительного уровня.

    В области Остатки имеются четыре опции: Остатки, Стандартизированные остатки, Графику остатков и график подбора. Если установлена хотя бы одна из них, то в выходных результатах появится таблица Вывод остатка, в которой будут выведены значения функции регрессии и остатки – разности между исходными значениями переменной Y и вычисленными значениями функции регрессии.

    В области Нормальная вероятность имеется одна опция – График нормальной вероятности; ее установка порождает в выходных результатах таблицу Вывод вероятности и приводит к построению соответствующего графика.

    В таблице Регрессионная статистика приводятся следующие данные

    Множественный R – корень из коэффициента детерминации R 2, приведенного в следующей строке. Другое название этого показателя – индекс корреляции, или множественный коэффициент корреляции.

    R–квадрат коэффициент дерминации R2; вычисляется как отношение регрессионной суммы квадратов к полной сумме квадратов. Величина показывает, какая часть (доля) вариации объясняемой переменной обусловлена вариацией объясняющей переменной (). Чем ближе к единице, тем лучше регрессия аппроксимирует эмпирические данные. Если , то между и существует линейная функциональная зависимость. Если , то объясняемая переменная не зависит от данного набора объясняющих переменных.

    Имеющуюся расчетную величину R2расч необходимо сравнить с табличными (критическими) значениями R2крит для соответствующего уровня значимости (0, 05) (см. приложение 1). Если окажется, что R2расч> R2крит, то с упомянутой степенью вероятности (95%) можно утверждать, что анализируемая регрессия является значимой.

     

    Нормированный R–квадрат скорректированный (адаптированный, поправленный(adjusted)) коэффициент детерминации.

    где – число наблюдений, – число объясняющих переменных.

    Недостатком коэффициента детерминации является то, что он увеличивается при добавлении новых объясняющих переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать . В отличие от скорректированный коэффициент может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенное влияние на зависимую переменную.

    Стандартная ошибка регрессии , где – необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

    Наблюдения – количество значений переменной Y.

    Дисперсионная таблица

    В столбце SS приводятся суммы квадратов, в столбце df – число степеней свободы, в столбце MS –дисперсии. В столбце F вычислено значение критериальной статистики для проверки значимости регрессии. Это значение вычисляется как отношение регрессионной дисперсии к остаточной.

    F и Значимость F позволяют проверить значимость уравнения регрессии, т.е. установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

    По эмпирическому значению статистики F проверяется гипотеза равенства нулю одновременно всех коэффициентов модели. Значимость F – теоретическая вероятность того, что при гипотезе равенства нулю одновременно всех коэффициентов модели F-статистика больше эмпирического значения F.

    Уравнение регрессии значимо на уровне , если , где - табличное значение F -критерия Фишера (, см. приложение 2).

    На уровне значимости гипотеза отвергается,

    если Значимость , и принимается, если Значимость .

    В следующей таблице, в столбце Коэффициенты, записаны вычисленные значения коэффициентов функции регрессии, при этом в строке Y - пересечение записано значение свободного члена .

    В столбце Стандартная ошибка вычислены среднеквадратические отклонения коэффициентов.

    В столбце t-статистика записаны отношения значений коэффициентов к их среднеквадратическим отклонениям. Это значения критериальных статистик для проверки гипотез о значимости коэффициентов регрессии.

    t -статистика соответствующего коэффициента .

    – критическая точка распределения Стьюдента, (см. приложение 3).

    Если , то коэффициент считается статистически значимым.

    Если , то коэффициент считается статистически незначимым. Это означает, что фактор линейно не связан с зависимой переменной . Его наличие среди объясняющих переменных не оправдано со статистической точки зрения. Поэтому после установления того факта, что коэффициент незначим, рекомендуется исключить из уравнения регрессии переменную . Это не приведет к существенной потере качества модели, но сделает ее более корректной.

    В столбце P-Значение вычисляются уровни значимости, соответствующие значениям критериальных статистик.

    Если вычисленный уровень значимости меньше заданного уровня значимости (0, 05), то принимается гипотеза о значимом отличии коэффициента от нуля; в противном случае принимается гипотеза о незначимом отличии коэффициента от нуля.

    P-Значение – вероятность, позволяющая определить значимость коэффициента регрессии .

    Для уровня значимости :

    Если P-Значение , то коэффициент незначим, следовательно, гипотеза принимается.

    Если P-Значение , то коэффициент значим, следовательно, гипотеза отвергается.

    В столбцах 95% и 95% приводятся границы доверительных интервалов с доверительным уровнем 0, 95. Эти границы вычисляются по формулам

    Нижние 95% = Коэффициент - Стандартная ошибка×

    Верхние 95% = Коэффициент + Стандартная ошибка×

    Здесь –квантиль порядка распределения Стьюдента с (n – k – ­ 1) степенью свободы. В данном случае a = 0, 95. Аналогично вычисляются границы доверительных интервалов в столбцах 90, 0% и 90, 0%. Отметим, что если в диалоговом окне Регрессия не устанавливать опцию Уровень надежности, то будут повторены столбцы 95% и 95%.

    Рассмотрим таблицу Вывод остатка из выходных результатов средства.

    Напомним, что эта таблица появляется в выходных результатах только тогда, когда установлена хотя бы одна опция в области Остатки диалогового окна Регрессия.

    В столбце Наблюдение приводятся порядковые номера значений переменной Y.

    В столбце Предсказанное Y вычисляются значения функции регрессии для тех значений переменной Х, которым соответствует порядковый номер i в столбце Наблюдение. В столбце Остатки содержатся разности (остатки) , а в столбце Стандартные остатки – нормированные остатки, которые вычисляются как отношения , где –среднеквадратическое отклонение остатков. Квадрат величины вычисляется по формуле , где среднее остатков. Здесь величину можно вычислить как отношение двух значений из дисперсионной таблицы: суммы квадратов остатков и степени свободы из строки Итого.

    По значениям таблицы Вывод остатков средство Регрессия строит два типа графиков: графики остатков и графики подбора (если установлены соответствующие опции в области диалогового окна). Графики строятся для каждого компонента переменной Х в отдельности. На графиках остатков отображаются остатки, т.е. разности между
    исходными значениями Y и вычисленными по функции регрессии для каждого значения компонента переменной Х. На графиках подбора отображаются как исходные значения Y, так и вычисленные значения функции регрессии для каждого значения компонента переменной Х.

    Последней таблицей выходных результатов средства является таблица Вывод вероятности. Она появляется, если в диалоговом окне Регрессия установлена опция График нормальной вероятности. Значения в столбце Перцентиль вычисляются следующим образом. Вычисляется шаг , первое значение равно h/2, последнее равно 100– ­ h /2. Начиная со второго значения каждое последующее значение равно предыдущему, к которому прибавлен шаг h. В столбце Y приведены значения переменной Y, упорядоченные по возрастанию. По данным этой таблицы строится так называемый график нормального распределения. Он позволяет визуально оценить степень линейности зависимости между переменными Х и Y






    © 2023 :: MyLektsii.ru :: Мои Лекции
    Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
    Копирование текстов разрешено только с указанием индексируемой ссылки на источник.