Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Проверка выборки на стохастичность






Министерство образования и науки Российской Федерации

Невинномысский технологический институт

(филиал) федерального государственного автономного образовательного учреждения

высшего профессионального образования

«СЕВЕРО-КАВКАЗСКИЙ ФЕДЕРАЛЬНЫЙ университет»

 

Кафедра информационных систем, электропривода и автоматики

 

 

рассчётно-графическая работа

 

По дисциплине: Высшая математика

 

Автор работы: Асеева С. А.

Специальность: 140400.61

Группы Н-ЭЭН-121-б-о-12

 

Руководитель работы: Пашковский А. В.

Работа зачтена с оценкой________

 

 

Невинномысск, 2013.

Вариант 1

Из текущей продукции автомата, обрабатывающего ролики, взята выборка объемом 100 шт. Ролики измерены по диаметру микрометром с ценой деления 0, 01 мм. Результаты этих измерений приводятся ниже.

19, 93 19, 87 19, 87 19, 89 19, 95 19, 92 19, 94 19, 89
19, 95 19, 93 19, 97 19, 92 19, 93 19, 86 19, 88 19, 95
19, 88 19, 94 19, 93 19, 94 19, 96 19, 94 19, 92 19, 87
19, 93 19, 89 19, 95 19, 93 19, 94 19, 94 19, 92 19, 96
19, 89 19, 92 19, 94 19, 93 19, 93 19, 94 19, 95 19, 88
19, 97 19, 96 19, 95 19, 88 19, 92 19, 95 19, 89 19, 94
19, 92 19, 95 19, 92 19, 97 19, 95 19, 93 19, 89 19, 92
19, 95 19, 88 19, 91 19, 97 19, 91 19, 96 19, 93 19, 91
19, 90 19, 91 19, 92 19, 90 19, 96 19, 90 19, 90 19, 93
19, 97 19, 90 19, 88 19, 91 19, 97 19, 92 19, 91 19, 91
19, 90 19, 89 19, 91 19, 89 19, 97 19, 91 19, 89 19, 91
19, 92 19, 91 19, 90 19, 88 19, 90 19, 92 19, 90 19, 98
19, 91 19, 99 19, 91 19, 92        

(Xi-19)*100-80, получаем

               
               
               
               
               
               
               
               
               
               
               
               
               

 

Проверка выборки на стохастичность

Пред тем как подвергнуть результаты наблюдений соответствующей статистической обработке, необходимо убедиться, что они образуют случайную выборку.

С этой целью воспользуемся критерием «восходящих» и «нисходящих» серий. В этом критерии исследуется последовательность знаков – плюсов и минусов. Исходным пунктом является выборка х 1, х 2, … х n (в приведенном примере значения признака).

На i – ом месте этой выборки ставится плюс, если Х i+1 X i > 0, минус, если х i+1 x i < 0.(Если х in = х i, то значение х i пропускается).

В приведенном таблице мы получим следующую последовательность знаков:

-++-+-+-+-+-++-+-++---+-+-+-+-++-++-+---++-+-+-+---++-++-+-+-++-+-++--++----+-+--++---++-+-+-+

Под «серией» будем понимать последовательность подряд идущих плюсов или минусов. В частности, «серия» может состоять только из одного плюса или одного минуса, тогда ее протяженность равна единице.

Общее число, серий в выборке обозначим через n(n), протяженность самой длинной серии – t(n).

Для нашего таблицы n =100; n(n) =66; t(n) = 4.

При уровне значимости a = 0, 05 количественное выражение правила проверки на случайность следующее:

t(n) < t0(n),

58, 14

Так как выполнено и второе неравенство, то в приведенном задание выборка случайная.


 

2.2 Построение эмпирической функции распределения

При большом объеме выборки (порядка сотен) простая статистическая совокупность престает быть удобной формой записи статистического материала - она становится громоздкой и мало наглядной. Для придания большей компактности элементы выборки объединяют в группы (интервалы), число которых колеблется от 5 до 40, в зависимости от объема выборки.

Некоторые авторы для определения числа интервалов рекомендуют пользоваться эмпирическими формулой

Просматривая результаты испытаний, выбираем наибольшее и наименьшее наблюдаемые значения признака X (x max, x min) и находим величину размаха варьирования

.

Зная число интервалов и размах варьирования R, находим длину каждого интервала h по формуле

.

При этом не рекомендуется, чтобы значение признака попадало на границу интервала. Чтобы избежать этого, длину интервала увеличивают или уменьшают, изменяя число интервалов.

В рассмотренном задание:

х min = 6; x max = 19; R = xmax – хmin = 13.

Значение К =10 подсчитано по формуле

Тогда

h = 1, 3 h*=1, 33.

Далее приступаю к заполнению таблицы 1.

В колонке 1 записаны полученные интервалы, расположенные в порядке возрастания значений признака.

В колонке 2 отмечено наличие признака, попавшего в рассматриваемый интервал (для облечения подсчета количества значений признака их группируют по 5). Количество m (абсолютная частота признака) записывают в колонку 3.

В колонке 4 записывают относительные частоты значений признака.

Таблица 1

Интервалы Наличие признака в интервале Абсолютные частоты Относительные частоты
1 2 3 4
5, 90 – 7, 23 IIII   0, 020
7, 23 – 8, 56 IIII II   0, 035
8, 56 – 9, 89 IIII IIII   0, 045
9, 89 – 11, 22 IIII IIII IIII IIII II   0, 110
11, 22 – 12, 55 IIII IIII IIII   0, 070
12, 55 -13, 88 IIII IIII I   0, 055
13, 88 – 15, 21 IIII IIII IIII IIII   0, 095
15, 21 – 16, 24 IIII   0, 025
16, 24 – 17, 87 IIII II   0, 035
17, 87 – 19, 20 II   0, 010

 

Данные таблицы 1 используют для графического изображения статистического ряда либо в виде гистограммы, либо в виде эмпирической функции распределения. Это графическое изображение позволяет представить в наглядной форме закономерности, присущие генеральной совокупности.

Для построения гистограммы (рисунок 1) на оси абсцисс последовательно откладываются интервалы изменения значения признака. На этих отрезках, как на основании, строят прямоугольники с высотами, равными соответствующего интервала.

Рисунок 1 – Гистограмма

График эмпирической функции распределения (рисунок 2) строят в координатах (х, ) либо (х, ),

где x – значения признака;

- накопленная абсолютная частота.

Под значением признака понимают середины рассматриваемых интервалов, а под накопительной частотой – сумму частот всех предшествующих и рассматриваемого интервалов.

x 6, 565 7, 895 9, 225 10, 555 11, 885 13, 215 14, 545 15, 875 17, 205 18, 535
mxmax                    

Рисунок 2 – Вычисление точных оценок параметров распределения

Статистический ряд – первый шаг к осмыслению ряда наблюдений. Однако на практике этого недостаточно. Статистические ряды, имеющие похожие графические изображения, могут различаться:

1. Эмпирической средней – значением признака, вокруг которого группируются наблюдения;

2. Средним квадратическим отклонением S - рассеянием наблюдения вокруг эмпирической средней;

3. Показателем ассиметрии Аs, характеризующим скошенность гистограммы;

4. Показателем эксцесса Es, характеризующим островершинность гистограммы.

Перечисленные числовые характеристики называют статистическими. По ним судят о характерных особенностях статистического ряда.

Эти характеристики вычисляются по формулам:

,

где ximi – середина и абсолютная частота i - го интервала;

k – число интервалов.

Для удобства вычислений , S, As, Es иногда используют метод ложного нуля, которым и воспользуемся. Для этого выбираем значения ха, около которого наиболее часто встречается значение признака, тогда

.

Обозначим ,

где h – длина интервала, и подставим в последнюю формулу

Для вычисления эмпирической дисперсии S2 используют формулу

.

Показатель асимметрии вычисляют по формуле

.

Показатель эксцесса находят по формуле:

.

Для удобства вычислений , S, As, Es составил таблицу 2

Таблица 2.

x i mi ei eimi ei2mi ei3mi ei4mi
6, 565 7, 895 9, 225   -3 -2 -1 -12 -14 -9   -108 -56 -9  
10, 555            
11, 885 13, 215 14, 545 15, 875 17, 205 18, 535            
å            

Подставляя данные таблицы 2 в формулы, находим:

=12, 2175 S2 =8, 4469 S =2, 9063
As =0, 8165 Es = -0, 3806  

Заметим что для нормального распределения As = Es =0.


2.3 Вычисление интервальных оценок

Следует понимать, что найденные эмпирические характеристики могут отличаться от истинных. Для оценки этих отклонений вводят понятие о доверительном интервале.

Пусть q некоторый параметр, характеризующий распределение генеральной совокупности.

]A, B[ называется доверительным интервалом с уровнем значимости a, если .

Обычно a полагают равным 0, 1; 0, 05; 0, 01.

Значение I-a определяются условиями эксперимента, например, в биологии I – a = 0, 99, а в технике часто принимают I – a = 0, 95.

Если случайная величина Х распределена по закону, близкому к нормальному, а дисперсия s 2 этого распределения не известна, то доверительный интервал для математического ожидания a имеет следующие границы:

,

где ta, n-1 – находят по таблицам;

t – распределения Стьюдента.

В рассматриваемом примере n = 100, S =2, 9063, a = 0, 05, t0, 05; 199 =1, 96.

Следовательно, математическое ожидание a исследуемой величины Х заключенного в интервале

или 12, 2175– 0, 572 < a < 12, 2175+0, 572.

Заметим, что при известном s математическое ожидание заключено в интервале ,

где число t определяется из равенства по таблице значений функции Лапласа.


 

2.4 Построение теоретической кривой. Проверка близости

эмпирической и теоретической функций распределения

Во многих практических задачах точный закон распределения исследуемой случайной величины не известен. При обработке экспериментальных данных для характеристики частотных свойств ряда наблюдений исследователь подбирает теоретико-вероятностную модель этого ряда.

В качестве модели может быть выбрано нормальное распределение Пуассона.

Пусть экспериментатор по виду гистограммы или из других соображений выдвинул гипотезу о законе распределения, которому подчиняется исследуемая случайная величина.

Проверка гипотезы о предлагаемом законе распределения производится с помощью критериев согласия. Наиболее распространенным критерием согласия является критерий Х2 Пирсона, который позволяет проверять близость эмпирической функции распределения с гипотетической (предполагаемой) функцией.

Вид гистограммы, а также значения AS, ES и позволяют выдвинуть гипотезу о нормальном виде распределения исследуемого признака. Для проверки этого на основании гипотетической функции

вычисляют вероятности попадания случайной величины в интервалы

]xi-1, xi[:

рi = P(x i-1 < x < x i) = F(x i) – F(x i-1), i = 1, 2, 3…., k.

Умножая эти вероятности на объем выборки, получают теоретические абсолютные частоты nрi интервалов ]xi-1, xi[. После чего подсчитывают выборочную статистику X2набл:

Зная уровень значимости a и число степеней свободы по таблицам квантилей Х2 – распределения находят критическое значения Х2a, n.

Заметим, что число степеней свободы n данного распределения равно n = k - r – 1,

где k – число интервалов;

r – число параметров предполагаемой функции распределения.

Например, у нормального закона распределения r = 2, (a, σ), у распределения Пуассона r = 1, (a).

Сравнивая наблюдаемое значение выборочной статистики, вычисленной по формуле, с критическим значением, приходят к выводу:

1. Выдвинутая гипотеза отвергается, если X2набл > Х2a, n, то есть гипотетическая функция распределения не согласуется с опытными данными;

2. Выдвинутая гипотеза принимается, если X2набл < Х2a, n, то есть гипотетическая функция распределения согласуется с опытными данными.

Для применения критерия Пирсона необходимо, чтобы в каждом интервале было не менее 5 значений признака. Если это не так, то рекомендуется объединить такие интервалы с соседними.

Значения статистических характеристик подтверждают обоснованность нашего предположения о нормальном распределении исследуемой совокупности. Параметрами этого распределения будут эмпирическая средняя и среднее квадратичное отклонение S (r = 2).

Гипотетическая функция распределения имеет вид:

.

Для вычисления значений F(x) сделаем замену , что позволит воспользоваться таблицами значений F(ui) функции Лапласа (xi – концы интервалов). Дальнейшие расчеты приведены в таблице 3.

Таблица 3

ui F(ui) рi F*(ui) mi i mi-nрi (mi-nрi)2
-2, 9876 -0, 4976 0, 0238 0, 0238   3, 88 0, 12 0, 0144 0, 003
-1, 9449 -0, 4738 0, 1277 0, 1515   7, 44 -0, 44 0, 1936 0, 026
-1, 0296 -0, 3461 0, 2304 0, 3819   10, 46 -1, 46 2, 1316 0, 203
-0, 5720 -0, 1157 0, 2488 0, 6307   24, 78 -2, 78 7, 7284 0, 311
0, 3432 0, 1331 0, 155 0, 7857   12, 56 1, 44 2, 0736 0, 165
0, 8008 0, 2881 0, 1063 0, 892   8, 12 2, 88 8, 2944 1, 024
1, 2584 0, 3944 0, 062 0, 954   15, 67 3, 33 11, 0889 0, 707
1, 716 0, 4564 0, 029 0, 983   3, 89 1, 11 1, 2321 0, 316
2, 1736 0, 4854 0, 0102 0, 9932   10, 67 -3, 67 13, 4689 1, 262
2, 6312 0, 4956 0, 003 0, 9965   1, 56 0, 44 0, 1939 0, 124
3, 0888 0, 4986              
              X2набл = 4, 147

Так же, как и при определении доверительного интервала, a определяется условиями эксперимента.

Зададим a = 0, 05. В рассматриваемом примере К = 10 (3 последних интервала объединены в один), поэтому n = 8 – 2 – 1 = 5.

По таблицам квантилей Х2 распределения находят: X20, 05; 7 =11, 2.

Так как X2набл =4, 147< 11, 1, то выдвинутая гипотеза о том, что совокупность объектов подчиняется нормальному закону распределения, принимается.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.