Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Порядок выполнения лабораторной работы. Лабораторная работа выполнена по данным нулевого варианта с помощь пакетов Statistica, Excel.






 

Лабораторная работа выполнена по данным нулевого варианта с помощь пакетов Statistica, Excel.

1) Проверка гипотезы о нормальном законе распределения каждой компоненты вектора

Так как параметры нормального закона распределения не известны и объем выборки большой (n =50), то для проверки нормального закона распределения случайных величин , , можно воспользоваться критерием c 2–Пирсона.

Для реализации критерия c 2–Пирсона с помощью пакета Statistica необходимо после ввода данных выбрать пункт меню «Statistics», подпункт «Distribution Fitting» (рисунок 2.17).

 

Рисунок 2.17 – Пункты меню для проверки гипотезы о законе распределения

 

На появившейся форме (рисунок 2.18) выбрать нормальный закон распределения (Normal) и нажать кнопку «ОК».

 

Рисунок 2.18 – Форма выбора вида закона распределения

 

Далее с помощью кнопки «Variables» поочередно (сначала Х1) выбрать признак для анализа и нажать кнопку «ОК» (рисунок 2.19).

 

Рисунок 2.19 – Форма выбора признака для анализа

 

Выбрать страницу «Parameters» и в поле «Number of categories» установить наиболее подходящее число интервалов (для объема выборки 50 единиц по формуле Стерджесса получаем ) (рисунок 2.20).

 

Рисунок 2.20 – Выбор числа интервалов

 

Далее выбрать страницу «Quick» и нажать кнопку «Plot of observed and expected distribution» (рисунок 2.21).

 

Рисунок 2.21 – Страница «Quick»

 

Результаты проверки гипотезы , , о нормальном законе распределения случайной величины представлены на рисунке 2.22.

 

Рисунок 2.22 – Результаты проверки гипотезы о нормальном законе распределения случайной величины

 

На рисунке представлена гистограмма частот выборочного распределения, график гипотетического закона распределения (кривая). Вверху графика представлено наблюдаемое значение статистики (Chi-Square test=2, 47), число степеней свободы (df=1) и наблюдаемый уровень значимости нулевой гипотезы (р =0, 1162). Так как p > , то нулевая гипотеза о нормальном законе распределения признака принимается.

Аналогичные результаты получены для признаков и (рисунки 2.23–2.24).

 

Рисунок 2.23 – Результаты проверки гипотезы о нормальном законе распределения случайной величины

 

Рисунок 2.24 – Результаты проверки гипотезы о нормальном законе распределения случайной величины

 

Так как наблюдаемые уровни значимости во втором и третьем случаях также больше , то нулевые гипотезы о нормальном законе распределения случайных величин и также принимаются.

Таким образом, необходимое условие многомерного нормального закона распределения выполнено.

2) Построение корреляционного поля и проверка гипотезы о линейной регрессионной зависимости признаков

Графики корреляционного поля для каждой пары признаков, построенные в пакете Excel, представлены на рисунках 2.25-2.27.

 

Рисунок 2.25 – Корреляционное поле для первого и второго признаков

 

Рисунок 2.26 – Корреляционное поле для первого и третьего признаков

Рисунок 2.27 – Корреляционное поле для второго и третьего признаков

 

Во всех трех случаях «облако» точек имеет вытянутую форму. Наиболее ярко линейная зависимость проявляется для первого и второго признаков.

Проверим гипотезу о линейной регрессионной зависимости каждой пары признаков с помощью статистики , распределенной при справедливости выдвинутого предположения по закону Фишера с числом степеней свободы , , где – оценка корреляционного отношения признаков, – оценка коэффициента детерминации, n – объем выборки, m – число групп (интервалов) признака, выступающего в качестве результативного.

Как известно, в двумерном случае коэффициент детерминации равен квадрату коэффициента корреляции признаков. Рассчитать выборочные значения коэффициентов корреляции для каждой пары признаков можно с помощью пакета Statistica, выбрав пункты меню «Statistics», «Basic Statistics/Tables» (рисунок 2.28).

 

Рисунок 2.28 – Пункты меню для расчета выборочных значений коэффициентов корреляции

 

В появившейся на экране форме (рисунок 2.29) необходимо выбрать пункт «Correlation matrices» и нажать кнопку «ОК».

 

Рисунок 2.29 – Форма «Basic Statistics/Tables»

 

Далее на форме, представленной на рисунке 2.30, нажать кнопку «One variable list» для отбора признаков для анализа.

 

Рисунок 2.30 – Форма расчета коэффициентов корреляции

Для расчета коэффициентов корреляции между каждой парой признаков в окне, представленном на рисунке 2.31, необходимо указать первые три признака и нажать кнопку «ОК».

 

Рисунок 2.31 – Окно выбора признаков для расчета коэффициентов корреляции

 

Затем в форме, представленной на рисунке 2.30, нажать кнопку «Summary: Correlations». Результаты расчета корреляционной матрицы представлены на рисунке 2.32.

 

Рисунок 2.32 – Результаты расчета корреляционной матрицы

 

Таким образом, выборочные значения коэффициентов детерминации составили:

 

, , .

 

Для вычисления выборочных значений корреляционных отношений необходимо на основе интервальных вариационных радов каждого из признаков составить корреляционные таблицы. Интервальные вариационные ряды можно построить на основе рисунков 2.22-2.24. Корреляционная таблица для первого и второго признаков имеет вид:

 

  [13; 15, 25) [15, 25; 17, 5) [17, 5; 19, 75) [19, 75; 22) [22; 24, 25) [24, 25; 26, 5) [26, 5; 28, 75)
[4; 6)    
[6; 8)          
[8; 10)                
[10; 12)            
[12; 14)      
[14; 16)    
[16; 18]    
               

 

Выборочное значение корреляционного отношения на рассчитывается по формуле [44]:

 

,

 

где – выборочное значение дисперсии ;

– выборочное значение факторной дисперсии;

– среднее арифметическое значение ;

– среднее значение при условии, что значения принадлежат i -му интервалу;

m – число интервалов в интервальном вариационном ряду .

Значения и можно взять из результатов расчета корреляционной матрицы (рисунок 2.328): , . Условные средние значения составляют: , , , , , , . Тогда , .

Аналогичным образом рассчитаны выборочные значения , .

Результаты проверки гипотез о линейной регрессионной зависимости признаков представлены в таблице 2.1.

 

Таблица 2.1 – Результаты проверки гипотезы о линейной регрессионной зависимости признаков

Нулевая гипотеза
0, 48 0, 53 0, 91
0, 0004 0, 0288 0, 25
0, 11 0, 1468 0, 37

 

Критическое значение статистики во всех трех случаях составляет . Таким образом, можно сделать вывод в пользу линейной регрессионной связи каждой пары случайных величин вектора .

3) Реализация статистических критериев проверки многомерного нормального закона распределения

Для реализации критерия асимметрии Мардиа, критерия эксцесса Мардиа и критерия Хенце-Цирклера воспользуемся надстройкой AtteStat пакета Excel. Для запуска модуля проверки нормального закона распределения необходимо выбрать пункты меню «AtteStat», «Модуль NDC – Проверка нормальности», «Проверка нормальности» (рисунок 2.33). В появившейся форме, представленной на рисунке 2.34, указать «Интервал выборки», «Интервал вывода», выбрать критерии, используемые в многомерном случае, и нажать кнопку «Выполнить расчет». Результаты реализации критериев Мардиа и Хенце-Цирклера представлены на рисунке 2.35.

 

Рисунок 2.33 – Запуск модуля проверки нормального закона распределения в пакете Excel

 

Рисунок 2.34 – Форма проверки нормального закона распределения

 

Рисунок 2.35 – Результаты проверки многомерного нормального закона распределения

 

Результаты реализации критерия асимметрии Мардиа, критерия эксцесса Мардиа и критерия Хенце-Цирклера подтверждают гипотезу о нормальном законе распределения случайного вектора .

Таким образом, все полученные результаты указывают на то, что случайный вектор распределен по нормальному закону.

 

Вопросы к защите лабораторной работы

 

1. Дайте определение непараметрических статистических гипотез и опишите алгоритм их проверки

2. Охарактеризуйте критерии согласия Колмогорова-Смирнова, Мизеса (), -Пирсона

3. В чем состоит необходимое условие многомерного нормального закона распределения и как его проверить на практике?

4. Что такое корреляционное поле признаков и для чего оно строится?

5. Что характеризуют коэффициент детерминации и квадрат корреляционного отношения?

6. Опишите алгоритм расчета выборочного значения корреляционного отношения в двумерном случае

7. Опишите алгоритм проверки гипотезы о линейной зависимости двух признаков

8. Какие существуют статистические критерии проверки многомерного нормального закона распределения?

9. Какие результаты обычно выдаются в статистических пакетах при проверке статистических гипотез и каким образом на основе них сформулировать вывод относительно ?

 

 


3 Корреляционный анализ компонент многомерного случайного вектора признаков

3.1 Корреляционный анализ количественных признаков

Корреляционный анализ – это совокупность методов оценки корреляционных характеристик и проверки статистических гипотез о них по выборочным данным, извлеченным из многомерной нормально распределенной генеральной совокупности с плотностью распределения , для которой, как известно, функция регрессии является линейной.

К основным задачам корреляционного анализа относятся:

1. оценивание параметров распределения генеральной совокупности и основных числовых характеристик связи, рассмотренных в теории корреляции;

2. проверка статистических гипотез о значимости связи.

Дополнительной задачей корреляционного анализа является оценка уравнения регрессии, где в качестве результативного выбирается признак, являющихся следствием других признаков (факторов).

Постановка задачи многомерного корреляционного анализа состоит в следующем: на основе выборочных данных объемом n, извлеченных из k -мерной нормально распределенной генеральной совокупности и представленных в виде матрицы X типа «объект-свойство», проанализировать связь между компонентами случайного вектора .

Рассмотрим основные этапы корреляционного анализа [12, 25].

1) Оценивание параметров распределения генеральной совокупности.

Так как случайный вектор распределен по нормальному закону (), то необходимо оценить вектор математических ожиданий и ковариационную матрицу . Вопросы оценивания параметров нормально распределенной генеральной совокупности были рассмотрены в параграфе 2.1.

Далее в корреляционном анализе рассчитываются апостериорные оценки количественных характеристик связи, описанных в параграфе 1.4, посвященном теории корреляции. Априорные оценки будут использоваться в основном при решении задач интервального оценивания и проверки статистических гипотез о значимости связи. Записывать априорные оценки будем также как и во второй главе в виде функции от случайной выборки .

2) Расчет оценки корреляционной матрицы

Апостериорную оценку корреляционной матрицы будем обозначать :

 

,

 

где выборочное значение коэффициента корреляции между i -ым и j -ым признаками рассчитывается по формуле , , .

Для расчета в матричном виде вводится в рассмотрение матрица центрировано-нормированных значений исходных признаков , где , , . Тогда апостериорная оценка корреляционной матрицы рассчитывается следующим образом:

 

. (3.1)

Зная оценку ковариационной матрицы , оценку корреляционной матрицы можно рассчитать, разделив последовательно элементы i -ой строки и i -го столбца матрицы на , . Или в матричном виде:

 

.

 

После нахождения оценки корреляционной матрицы, расчет оценок остальных характеристик связи будет осуществляться по тем же формулам, что и в теории корреляции, с одним лишь различием: вместо корреляционной матрицы R будет использоваться её оценка .

3) Расчет оценок частных коэффициентов корреляции

Апостериорная оценка частного коэффициента корреляции между i -ым и j -ым признаками, очищенного от влияния остальных (k -2)-х компонент вектора , обозначается и рассчитывается по формуле:

 

, (3.2)

 

где - алгебраическое дополнение к элементу с индексами (s, p) матрицы .

4) Проверка значимости коэффициентов корреляции и частных коэффициентов корреляции

Для проверки значимости коэффициента корреляции выдвигаются гипотезы:

(коэффициент корреляции незначим);

(коэффициент корреляции значим).

Для проверки гипотезы используется статистика , которая при условии справедливости нулевой гипотезы распределена по закону Стьюдента с числом степеней свободы .

Для проверки значимости частного коэффициента корреляции выдвигаются гипотезы:

(частный коэффициент корреляции незначим);

(частный коэффициент корреляции значим).

Для проверки гипотезы используется статистика , которая при условии справедливости нулевой гипотезы распределена по закону Стьюдента с числом степеней свободы .

После проверки значимости коэффициентов корреляции и частных коэффициентов корреляции проводится сравнительный анализ выборочных значений этих коэффициентов и дается интерпретация парной связи признаков.

5) Построение доверительных интервалов для значимых коэффициентов корреляции и частных коэффициентов корреляции

Пусть частный коэффициент корреляции значим. Ставится задача с вероятностью построить доверительный интервал для . Для решения этой задачи сначала стоится доверительный интервал для . Для этого над оценкой частного коэффициента корреляции осуществляется z -преобразование Фишера по формуле:

.

 

Статистика распределена по нормальному закону: . Тогда для построения доверительного интервала для используется статистика:

 

 

Далее решается уравнение , из которого получают – квантиль уровня стандартного нормального закона распределения. Из неравенства находят доверительный интервал для :

 

.

 

Обозначим левую границу доверительного интервала для через , а правую – через . Для получения доверительного интервала для над левой и правой границами доверительного интервала для осуществляют преобразование, обратное z -преобразованию Фишера. Левая граница доверительного интервала для является решением уравнения , правая граница доверительного интервала для является решением уравнения .

Аналогичным образом строится доверительный интервал для значимого коэффициента корреляции . При этом используется статистика .

6) Расчет оценок коэффициентов детерминации и множественных коэффициентов корреляции

Апостериорная оценка коэффициента детерминации для j -го признака обозначается и рассчитывается по формуле:

 

, (3.3)

 

где – обозначение апостериорной оценки остаточной дисперсии для j -го признака, рассчитываемой по формуле

Апостериорная оценка множественного коэффициента корреляции для j -го признака обозначается и рассчитывается по формуле:

 

. (3.4)

 

7) Проверка значимости коэффициентов детерминации

Для проверки значимости коэффициента детерминации выдвигаются гипотезы:

(коэффициент детерминации незначим, т.е. признаки не оказывают значимого влияния на );

(коэффициент детерминации значим, т.е. существует хотя бы один из признаков , оказывающих значимое влияние на ).

Для проверки гипотезы используется статистика , которая при условии справедливости нулевой гипотезы распределена по закону Фишера-Снедекора с числом степеней свободы , .

8) Оценка уравнения регрессии

Оценка уравнения регрессии для j -го признака имеет вид:

 

,

 

где апостериорные оценки коэффициентов уравнения регрессии рассчитываются по формуле или .

Уравнение регрессии для j -го признака значимо, если значим коэффициент детерминации . О значимости коэффициентов уравнения регрессии судят по результатам проверки значимости частных коэффициентов корреляции, т.е. коэффициент значим, если значим частный коэффициент корреляции .

3.2 Корреляционный анализ порядковых переменных: ранговая корреляция

 

Методы ранговой корреляции – это система понятий и методов, позволяющих исследовать связь между двумя или несколькими ранжировками одного и того же множества объектов [12]. Ранжировка – это результат ранжирования объектов, т.е. приписывания условных числовых меток, обозначающих место объекта в совокупности всех объектов, упорядоченных по степени проявления анализируемого свойства.

Постановка задачи корреляционного анализа порядковых переменных состоит в исследовании связи между порядковыми случайными величинами на основе выборочных данных, представленных в виде матрицы X:

 

,

 

где – ранг i -го объекта по j -му свойству, , .

Рангом i -го объекта по j -му свойству называется условная числовая метка, обозначающая место этого объекта в ряду из всех n объектов, упорядоченных по убыванию степени проявления j -го свойства.

При упорядочении объектов по j -му свойству могут встретиться ситуации, когда два или более объектов являются неразличимыми с точки зрения степени проявления в них этого свойства. В этом случае каждому из объектов этой однородной группы приписывают ранг, равный среднему арифметическому значению тех мест, которые они делят, а полученные таким образом ранги называют «объединенными» или «связными».

Решение поставленной задачи сводится к оценке ранговых коэффициентов корреляции и проверке их значимости. К основным ранговым коэффициентам корреляции относятся ранговый коэффициент корреляции Спирмена, ранговый коэффициент корреляции Кендалла и коэффициент конкордации [12, 25].

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.