Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Анализ данных 2 страница






, (1.2)

 

где функция , называемая плотностью распределения случайного вектора, удовлетворяет условиям

 

и , (1.2)

 

то случайный вектор называется непрерывным.

Закон распределения дискретного случайного вектора может быть задан с помощью функции

 

,

называемой распределением вероятностей, где , – возможные значения случайной величины , , .

Зная функцию распределения , плотность распределения или распределение вероятностей k -мерного случайного вектора , можно построить частные (маргинальные) законы распределения подсистем l () случайных величин [12, 44]. Например, функция распределения случайного вектора выражается следующим образом:

 

, (1.4)

 

а плотность распределения или распределение вероятностей случайного вектора :

 

(1.5)

 

Зная закон распределения k -мерного случайного вектора , можно ввести условные законы распределения. Например, условная плотность распределения (условное распределение вероятностей) двумерного случайного вектора определяется следующим образом:

 

, (1.6)

 

где .

Компоненты случайного вектора независимы (по определению), если или .

Важную роль в многомерном статистическом анализе играет нормальный закон распределения. Случайный вектор распределен по нормальному закону, если его плотность распределения имеет вид:

 

, (1.7)

 

где параметрами многомерного нормального закона распределения являются вектор математических ожиданий

 

 

и ковариационная матрица

 

,

 

где .

Рассмотрим двумерный случай: пусть случайный вектор распределен по нормальному закону. Тогда его плотность распределения можно записать в виде:

 

 

Замечание: обратите внимание на выполнение задания 17, связанное с построением линий уровня двумерного нормально распределенного случайного вектора.

Обозначим , . Вычислим плотность распределения случайной величины :

 

.

 

Таким образом, случайная величина распределена по нормальному закону с параметрами и . Аналогично можно показать, что случайная величина распределена по нормальному закону с параметрами и .

Найдем условную плотность распределения случайной величины при условии :

 

.

 

Получили плотность нормального закона распределения с параметрами и .

 

1.4 Теория корреляции

 

Пусть и – две компоненты случайного вектора с плотностью распределения или распределением вероятностей . В качестве характеристики стохастической зависимости случайных величин и используется ковариация:

. (1.8)

 

Вычисляется ковариация по формуле:

 

 

При этом плотность распределения или распределение вероятностей определяется следующим образом:

 

 

Рассмотрим основные свойства ковариации.

1. Симметричность ковариации:

 

.

 

2. Ковариация случайной величины с самой собой есть дисперсия:

 

.

 

3. Ковариация равна математическому ожиданию произведения случайных величин минус произведение их математических ожиданий:

 

 

4. Константы выносятся за знак ковариации:

 

.

 

5. .

 

6. Если случайные величины и независимы, то . Однако равенство нулю ковариации является необходимым, но недостаточным условием независимости случайных величин.

Рассмотрим пример. Пусть двумерный случайный вектор распределен равномерно внутри круга радиусом r с центром в начале координат. Это означает, что его плотность распределения имеет вид:

 

 

где константа С, найденная из условия нормированности (1.2), равна .

Выясним, зависимы или нет случайные величины , и вычислим .

Проверим выполнено ли условие: . Для этого найдем плотности распределения случайных величин , :

 

;

.

 

Таким образом, плотности распределения случайных величин , имеют вид:

 

и

 

Так как , то случайные величины , не являются независимыми.

Вычислим ковариацию случайных величин , . Для этого найдем математические ожидания случайных величин:

 

,

 

так как подынтегральная функция нечетная. Аналогично . Тогда:

 

.

Получили, что , однако случайные величины и не являются независимыми.

В общем случае про случайные величины и , для которых , говорят, что они некоррелированы. Однако если случайный вектор распределен по нормальному закону, то некоррелированность означает независимость.

7. Достаточным условием наличия стохастической зависимости между и является отличие от нуля ковариации, т.е. если , то и зависимы.

Ковариации между всеми парами компонент случайного вектора образуют ковариационную матрицу:

 

,

 

где - дисперсия случайной величины , .

Матрица является симметричной и неотрицательно определенной.

Обозначив через вектор математических ожиданий, а через – вектор центрированных случайных величин, получим, что

 

,

 

где под математическим ожиданием матрицы понимают матрицу, элементы которой являются математическими ожиданиями соответствующих элементов. Так рассчитывается следующим образом:

 

 

Ковариация в силу зависимости от масштаба измерения случайных величин и является неудобной характеристикой стохастической связи двух случайных величин. По этой причине вводится понятие коэффициента корреляции:

 

, (1.9)

 

где – среднее квадратическое (стандартное) отклонение случайной величины , .

Коэффициенты корреляции между всеми парами компонент случайного вектора образуют корреляционную матрицу:

 

.

 

Корреляционную матрицу R можно вычислить на основе ковариационной матрицы следующим образом: делим последовательно элементы i -ой строки и i -го столбца матрицы на , . Или в матричном виде:

 

.

 

Аналогично шестому свойству ковариации равенство нулю коэффициента корреляции является необходимым, но недостаточным условием независимости случайных величин и . Рассмотрим ещё несколько свойств коэффициента корреляции.

1. Коэффициент корреляции равен ковариации центрировано-нормированных случайных величин, т.е. если , , то

2. Коэффициент корреляции принимает значения от -1 до +1, т.е. .

3. Коэффициент корреляции тогда и только тогда, когда между и существует линейная функциональная зависимость, т.е. можно записать, например, что , где , .

Исходя из третьего свойства, коэффициент корреляции вроде бы претендует на то, чтобы количественно характеризовать меру линейной связи и , однако сохраняет ли это свойство коэффициент корреляции, если его значение отлично от ?

Для ответа на этот вопрос рассмотрим наилучшую линейную аппроксимацию случайной величины случайной величиной в смысле минимума дисперсии: , где – случайная величина, которая учитывает влияние на случайную величину других факторов. Вычислим дисперсию:

 

 

Таким образом, получаем: . Минимум этой квадратичной функции существует. Для нахождения точки минимума а, воспользуемся необходимым условием существования экстремума функции:

 

.

 

Коэффициент b найдем из требования . Таким образом, .

При таких значениях a и b дисперсия достигает своего минимального значения, равного . Получаем, чем ближе коэффициент корреляции по абсолютной величине к единице, тем меньше дисперсия, а, следовательно, тем теснее линейная связь между и . В силу этого коэффициент корреляции рассматривают как характеристику линейной связи между случайными величинами.

Дисперсия характеризует вариацию случайной величины относительно её наилучшей линейной аппроксимации случайной величиной и называется остаточной дисперсией.

Наилучшая линейная аппроксимация случайной величины случайной величиной имеет вид:

 

. (1.10)

 

Пусть случайный вектор распределен по нормальному закону. Тогда функция регрессии на случайную величину является линейной (доказательство приведено в параграфе 1.3):

 

, (1.11)

 

т.е. наилучшая линейная аппроксимация и функция регрессии совпадают.

Если закон распределения случайного вектора отличен от нормального, то на выражение следует смотреть как на линейную аппроксимацию функции регрессии.

Качество линейной аппроксимации случайной величины случайной величиной характеризуется остаточной дисперсией , которая зависит от масштаба измерения случайных величин. Данное обстоятельство делает эту характеристику неудобной для использования. Кроме того, связь между случайными величинами и может быть нелинейной. В связи с этим вводится корреляционное отношение . Для построения корреляционного отношения используются понятия факторной дисперсии и остаточной дисперсии , где – условная дисперсия случайной величины относительно случайной величины . Можно показать, что [44].

Согласно свойству условной дисперсии можно записать:

 

.

 

От левой и правой части полученного равенства возьмём математическое ожидание и используя свойства математического ожидания и условного математического ожидания, получаем:

 

.

 

Вычтем из обеих частей последнего равенства:

 

.

 

Используя свойства математического ожидания и условного математического ожидания, преобразуем факторную дисперсию следующим образом:

 

 

Подставляя данный результат в предыдущее выражение, получаем или . Разделим левую и правую части этого равенства на . Получим: или . Введем понятие корреляционного отношения следующим образом:

 

 

или (1.12)

 

.

 

Следует отметить, что корреляционные отношения и , вообще говоря, не совпадают [44].

Рассмотрим некоторые свойства корреляционного отношения:

1) ;

2) тогда и только тогда, когда функционально (не обязательно линейно) зависит от .

Доказательство. Равенство корреляционного отношения единице () эквивалентно равенству остаточной дисперсии нулю (). В свою очередь тогда и только тогда, когда , а это означает, что при каждом значении случайной величины случайная величина принимает всего одно значение, т.е. является функцией от .






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.