Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Общие статистические сведения






 

Перед тем, как непосредственно перейти к построению регрессионных моделей и привести более строгое определение регрессионного уравнения, рассмотрим некоторые основные статистические понятия.

Объектом статистического изучения служит совокупность единиц, обладающих некоторыми общими свойствами. В примере 4.1.1. – это группа предприятий, производящих однотипную продукцию. Вся подлежащая изучению совокупность однородных единиц называется генеральной совокупностью. В зависимости от степени полноты охвата наблюдением изучаемой совокупности различают сплошное и выборочное наблюдение. При сплошном наблюдении обследованию подвергают все без исключения единицы генеральной совокупности. Если обследованию подлежит только часть или несколько частей статистической совокупности. то такое наблюдение называют выборочным. Часть элементов совокупности, отобранных по какому-либо заранее сформулированному правилу, образуют выборку.

Статистические совокупности состоят обычно из большого числа единиц и поэтому трудно обозримы. Для сравнения совокупностей удобно пользоваться некоторыми обобщающими характеристиками, выражающими в сжатой форме наиболее существенные особенности распределения совокупности.

Простейшей характеристикой совокупности являются различные виды средних, чаще всего среднеарифметическое:

,

где - i -е значение совокупности, состоящей из n -элементов, .

При сравнении нескольких совокупностей их средние по величине могут совпасть. Хотя отдельные значения в различных совокупностях могут существенно отличаться друг от друга как по величине, так и по структуре. Отдельные значения могут быть тесно сгруппированы вокруг среднего, либо, наоборот, сильно удалены от него. Среднее не отражает вариацию показателей. В качестве меры вариабельности отдельных значений часто используется дисперсия или стандартное отклонение :

,

.

Во многих случаях для анализа тех либо других экономических процессов важен порядок получения статистических данных. Но при рассмотрении пространственных данных порядок их получения не играет существенной роли. Кроме того, результаты выборочных наблюдений x1, x2, …, xn, записанные в порядке их регистрации, бывают труднообозримы и неудобны для дальнейшего анализа. Поэтому часто проводят группировку наблюдений.

Если значение x i встретилось в выборке n i раз, то величина n i называется частотой значения x i, а величина — относительной частотой значения xi, которая также может быть интерпретирована как оценка вероятности появления значения xi. Полагая, что количество различных значений в выборке равно k (k £ n), наблюдаемые значения можно сгруппировать в статистический ряд, представленный в таблице:

 

Таблица

Статистический ряд наблюдений

X х1, x2, …….., xk
ni n1 n2 , …….., nk
, ……..,

 

По статистическому ряду можно построить эмпирическую функцию распределения , где nx — число значений случайной величины X, меньших, чем x; n — объем выборки. Вообще говоря, наглядно статистический ряд может быть представлен в виде полигона частот.

В общем случае совокупность всех возможных значений случайной величины и соответствующих им вероятностей составляет распределение случайной величины, которое может быть задано в виде ряда распределения, функции распределения и плотности распределения вероятностей.

 

Пример. Анализируется прибыль Х (%) предприятий отрасли. Обследованы n=100 предприятий, данные по которым занесены следующий статистический ряд:

Х          
ni          
0, 05 0, 2 0, 4 0, 25 0, 1

 

Необходимо построить эмпирическую функцию распределения F *(x) и ее график.

 

 
 

 

 


Рис. График эмпирической функции распределения.

 

Наглядно статистический ряд может быть представлен в виде полигона частот или полигона относительных частот:

 

               
 
   
 
 
   
Рис. Полигон частот.
 
Рис. Полигон относительных частот.

 


По результатам выборочных обследований вычисляют статистические характеристики, например, средние, дисперсия и др. По величине этих характеристик делают вывод о соответствующих параметрах генеральной совокупности. В этой связи возникают две статистические проблемы: оценивание параметров генеральной совокупности и проверка гипотез относительно оценок этих параметров.

При исследовании различных параметров генеральной совокупности на основе выборки возможно лишь получение оценок этих параметров. Эти оценки строятся на основе ограниченного набора данных и могут изменяться от выборки к выборке. Процесс нахождения оценок по определенному правилу будем называть оцениванием. Цель любого оценивания – получение наиболее точного значения оцениваемой характеристики. В этом смысле оценки должны обладать определенными свойствами. Мы рассмотрим самые важные из них несмещенность, состоятельность, эффективность. Если математическое ожидание оценки параметра равно значению оцениваемого параметра, то оценку называют несмещенной. Оценка называется состоятельной, если с увеличением объема выборки ( ¥) оценка сходится по вероятности к оцениваемому параметру. Оценка называется эффективной, если она имеет минимальную вариацию.

После определения оценок обычно встает вопрос об их качестве и статистической значимости, проверка которой осуществляется по схеме статистической проверки гипотез.

На практике возникает необходимость статистической проверки гипотез относительно закона распределения; числовых значений параметров анализируемой стохастической системы; об общем виде модели, описывающей статистическую зависимость.

По своему назначению и характеру решаемых задач статистические критерии чрезвычайно разнообразны. однако их объединяет общность логической схемы, по которой они строятся. Кратко суть схемы состоит в следующем.

Выдвигается нулевая (основная) гипотеза H0, подлежащая проверке. Наряду с нулевой рассматривают гипотезу H1, которая будет приниматься, если отклоняется H0. Такая гипотеза называется альтернативной. Например, если проверяется гипотеза о равенстве параметра q некоторому значению q0, т.е. H0: q=q0, то в качестве альтернативной могут рассматриваться следующие гипотезы: H1(1): q¹ q0; H1(2): q> q0; H1(3): q< q0; H1(4): q=q1(q1¹ q0).

Сущность проверки статистической гипотезы заключается в том, чтобы установить, согласуются или нет данные наблюдений и выдвинутая гипотеза. Можно ли расхождение между гипотезой и результатом выборочных наблюдений отнести за счет случайной погрешности. Эта задача решается с помощью специальных методов математической статистики.

При проверке гипотезы выборочные данные могут противоречить гипотезе H0. Тогда она отклоняется. Если же статистические данные согласуются с выдвинутой гипотезой, то она не отклоняется. Статистическая проверка гипотез связана с риском ошибки, при которой будет отвергнута правильная нулевая гипотеза (ошибка 1-го рода). Максимально допустимое значение вероятности совершить ошибку такого рода принято обозначать буквой a и ее называют уровнем значимости. Обычно значения a задают заранее круглыми числами (a=0, 1; a=0, 05; a=0, 01). Если a=0, 05, то это означает, что исследователь не хочет совершить ошибку 1-го рода более чем в 5 случаях из 100.

Для проверки статистической гипотезы используют критерий, распределение статистики которого известно. Множество всех возможных значений статистики критерия разбивают на два непересекающихся подмножества: одно из них содержит значения статистики критерия, при которых нулевая гипотеза отклоняется, другое – при которых она не отклоняется. Совокупность значения статистики критерия, при которых нулевую гипотезу отклоняют, называют критической областью. Различают двустороннюю критическую область – она определяется в случае, когда альтернативная гипотеза имеет вид H1: q¹ q0; правостороннюю критическую область — она определяется в случае, когда альтернативная гипотеза имеет вид H1: q> q0; левостороннюю критическую область — она определяется в случае, когда альтернативная гипотеза имеет вид H1: q< q0.

Прежде, чем перейти к формулировке задач статистического исследования зависимостей, введем следующие обозначения переменных:

— независимые показатели, или факторы, или объясняющие переменные;

- зависимый показатель, или результирующий, или объясняемый;

- остаточная компонента, отражающая влияние неучтенных на входе факторов.

Общая задача статистического исследования зависимости может быть сформулирована следующим образом: по результатам n наблюдений { исследуемых показателей построить такую функцию , которая позволила бы наилучшим образом восстанавливать значения результирующей переменной по заданным значениям объясняющих переменных . Данная формулировка предполагает ответить на следующие вопросы:

1). каково математическое выражение (или структура модели) зависимости между и , записанное в терминах , , .

2). в соответствии с каким критерием качества аппроксимации значений с помощью функции мы будем определять наилучший способ восстановления значений результирующего показателя по значениям факторов.

В примере 4.1.1 значения результирующего показателя – объем производства - зависят не только от соответствующих значений инвестиций , но еще от ряда неконтролируемых факторов, поэтому при каждом фиксированном значении , соответствующие значения результирующего показателя неизбежно подвержены некоторому случайному разбросу. В этом случае объясняющая переменная играет роль неслучайного параметра, от которого зависит закон распределения вероятностей исследуемого результирующего показателя . Удобной математической моделью такого рода зависимостей является разложение вида:

(4.1.1)

Модель (4.1.1) строится таким образом, что математическое ожидание случайного остатка равно нулю, поэтому функция описывает поведение условного среднего в зависимости от . При каждом выборе значений объясняющих переменных условное математическое ожидание величины становится функцией от :

. (4.1.2)

Уравнением регрессии называется уравнение (4.1.2), которое задает зависимость среднего значения (математического ожидания) объясняемой переменной от значений объясняющих переменных.

В моделях регрессии классического типа обычно используются факторы, независимые между собой и в предположении, что ошибка модели имеет свойства белого шума — процесса с нулевым математическим ожиданием, постоянной конечной дисперсией и нулевой корреляцией между остатками

В основу любой регрессионной модели кладется выборка (набор наблюдений) значений объясняющих переменных и объясняемой переменной .

После выбора экспериментальных данных для нахождения величины объясненной части требуется знание условных распределений случайной величины y. Точное знание этого практически невозможно. На основе предельных теорем теории вероятностей во многих случаях можно предполагать, что распределение y является нормальным. Эта гипотеза часто принимается в теории.

В классической теории в качестве функции регрессии рассматривается линейная функция. Из предыдущих рассуждений ясно, что линейная регрессия представляет собой линейную функцию между условным математическим ожиданием зависимой переменной и объясняющими переменными . В этом случае соотношение (4.1.1) имеет вид

, (4.1.3)

в котором – значение i -го наблюдения объясняемой переменной, — значения i -го наблюдения объясняющих переменных (факторов), — случайная составляющая i -го наблюдения, которая включает неучтенные факторы, случайные ошибки и неточности наблюдений. В классической теории в (4.1.3) относительно и делаются следующие предположения:

1. Факторы являются детерминированными (неслучайными) величинами. Вектор , является случайным вектором (т.е. — случайные величины).

2. Математическое ожидание , i =1, 2, …, n. Это условие означает, что величина не имеет систематических ошибок.

3. Дисперсия случайных величин постоянна, т.е. , для всех i =1, 2, …, n.

4. Случайные величины для i ¹ j (i, j =1, 2, …, n) не коррелированы, т.е. .

5. Случайная величина имеет n -мерный нормальный закон распределения. В частности, каждое имеет нормальный закон распределения с нулевым математическим ожиданием и дисперсией .

6. Ранг матрицы , столбцы которой, начиная со второго, являются выборками значений факторов, равен m+1, n > m+1.

 

Уравнение регрессии (теоретическое уравнение регрессии) в этом случае имеет вид

. (4.1.4)

На практике функция регрессии (т.е. значения параметров ) нам неизвестна. Наша цель: на основе выборки значений (наблюдений) факторов и переменной y дать статистические оценки () параметров () и установить их качество. Выборочной оценкой уравнения регрессии (эмпирическое уравнение регрессии) будет уравнение

,

для заданной выборки значений объема n – это уравнение имеет вид:

, . (4.1.5)

Для нахождения оценок , по методу наименьших квадратов (МНК) рассматривается сумма квадратов отклонений

,

которая по условию (4.1.5) является функцией от .

Значения находятся из условий (системы нормальных уравнений)

,

при которых функция S принимает минимальное значение.

Для того, чтобы полученные таким образом оценки были несмещенными и состоятельными, в классической теории должны выполняться приведенные выше предположения (1)-(6).

При выполнении этих предпосылок вектор является несмещенной оценкой вектора , т.е. . А его дисперсия будет наименьшей в классе всех несмещенных, линейных (по y) оценок вектора b.

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.