Теоретичні відомості. Науку, що використовує теорію ймовірностей для обробки численних одиниць інформації як наслідків експерименту

Как продвинуть сайт на первые места?

Вы создали или только планируете создать свой сайт, но не знаете, как продвигать? Продвижение сайта – это не просто процесс, а целый комплекс мероприятий, направленных на увеличение его посещаемости и повышение его позиций в поисковых системах.

Ускорение продвижения

Если вам трудно попасть на первые места в поиске самостоятельно, попробуйте технологию Буст, она ускоряет продвижение в десятки раз, а первые результаты появляются уже в течение первых 7 дней. Если ни один запрос у вас не продвинется в Топ10 за месяц, то в SeoHammer за бустер вернут деньги.

Начать продвижение сайта

Сервис онлайн-записи на собственном Telegram-боте

Тот, кто работает в сфере услуг, знает — без ведения записи клиентов никуда. Мало того, что нужно видеть свое расписание, но и напоминать клиентам о визитах тоже. Нашли самый бюджетный и оптимальный вариант: сервис VisitTime.
Для новых пользователей первый месяц бесплатно.

Чат-бот для мастеров и специалистов, который упрощает ведение записей:

— Сам записывает клиентов и напоминает им о визите;
— Персонализирует скидки, чаевые, кэшбэк и предоплаты;
— Увеличивает доходимость и помогает больше зарабатывать;

Начать пользоваться сервисом

Теоретичні відомості. Науку, що використовує теорію ймовірностей для обробки численних одиниць інформації як наслідків експерименту

Науку, що використовує теорію ймовірностей для обробки численних одиниць інформації як наслідків експерименту, називають математичною статистикою.

Джерелом математичної статистики є великий об’єм статистичних даних, яка потребуютьпісля їхньої спеціальної обробки зробити прогноз розвитку вихідної ситуації. За великим об’ємом статистичних даних не завжди можна зробити певні висновки. Для дослідження об’єктів математичної статистики використовують математичне моделювання.

Математичне моделювання –метод дослідження процесів або явищ шляхом створення їхніх математичних моделей і дослідження цих моделей.

Одним із методів математичного дослідження є статистичне оцінювання генеральної сукупності.

Метою даної курсової роботи є визначення закону розподілу генеральної сукупності за вибірковими даними, тобто з оброблених даних вибірки генеральної сукупності зробити висновки про властивості генеральної сукупності.

Завдання даної курсової роботи: зробити з генеральної сукупності 8 вибірок; побудова та представлення статистичних рядів; обчислення числових характеристик та висування гіпотези про вид закону розподілу ознаки в досліджуваній генеральній сукупності по великих вибірках.

Засобами реалізації даної курсової роботи були: електрона таблиця MicrosoftEcxelта різні методи математичної статистики.

Дана курсова робота складається з наступних розділів постановка завдання, теоретичні відомості та послідовність виконання роботи.У першому розділі сформульовані завдання курсової роботи. У другому – теоретичні відомості, які необхідні для вивчення необхідного матеріалу при виконанні роботи. У третьому – послідовність виконання самої роботи.

Використовувані засоби: конспекти лекцій з курсів «Теорія ймовірностей та математична статистика», Microsoft Excel з надбудовою «Пакет аналізу», файл «Бесповторная.xls».

Забиваем Сайты В ТОП КУВАЛДОЙ - Уникальные возможности от SeoHammer

Каждая ссылка анализируется по трем пакетам оценки: SEO, Трафик и SMM. SeoHammer делает продвижение сайта прозрачным и простым занятием. Ссылки, вечные ссылки, статьи, упоминания, пресс-релизы - используйте по максимуму потенциал SeoHammer для продвижения вашего сайта.

Что умеет делать SeoHammer

— Продвижение в один клик, интеллектуальный подбор запросов, покупка самых лучших ссылок с высокой степенью качества у лучших бирж ссылок.
— Регулярная проверка качества ссылок по более чем 100 показателям и ежедневный пересчет показателей качества проекта.
— Все известные форматы ссылок: арендные ссылки, вечные ссылки, публикации (упоминания, мнения, отзывы, статьи, пресс-релизы).
— SeoHammer покажет, где рост или падение, а также запросы, на которые нужно обратить внимание.

SeoHammer еще предоставляет технологию Буст, она ускоряет продвижение в десятки раз, а первые результаты появляются уже в течение первых 7 дней.

Зарегистрироваться и Начать продвижение

Початкові дані: Джерелом початкових даних служить генеральна статистична сукупність (500 од.), усередині якої розподіл ознаки, що вивчається, відповідає одному з 5-ти наступних законів

1. Зробити з генеральної сукупності 8 вибірок:

а) велику вибірку (200 од.) методом випадкового безповторного відбору;

в) велику вибірку (200 од.) методом механічного відбору (вибирається кожна 2-а одиниця)

г) велику вибірку (200 од.) б) велику вибірку (200 од.) методом групового відбору, починаючи з № варіанту

е) малу вибірку (25 од.) методом групового відбору, починаючи з № варіанту

є) малу вибірку (25 од.) методом випадкового безповторного відбору;

ж) малу вибірку (25 од.) методом випадкового повторного відбору;

з) малу вибірку методом механічного відбору (вибирається кожна 20-а одиниця).

Примітка: Використовувана версія Microsoft Excel дозволяє одержувати вибірку методом власне випадкового повторного відбору, а також механічну (періодичну) вибірку. Для формування безповторной вибірки слід завантажити файл «Бесповторная.xls», включивши МАКРОСИ, і скористатися командою меню Сервіс \ Макрос \ Макроси.\ Вибірка без повторів.

2. Для кожної вибірки побудувати інтервальний варіаційний ряд і емпіричну функцію розподілу. Для малих вибірок число інтервалів прийняти рівним 5, для великих – 15.

3. Кожен інтервальний ряд представити графічно, у вигляді гістограми частот, полігону частот (сполучаючи середини стовпців гістограми частот), гістограми накопичених частот, а також графіка функції розподілу. За формою гістограми, полігону і графіка зробити припущення про можливий вид закону розподілу.

4. За допомогою вбудованої функції Microsoft Excel “Описова статистика” (команда меню “Сервис”\ “Аналіз даних”) визначити для генеральної, а також для кожної вибіркової сукупності наступні параметри:

- середні вибіркові для вибірок і математичне очікування для генеральної сукупності;

Аналізуючи одержані дані, зробити висновок про ступінь однорідності вибірок. Зробити висновок про форму кривої розподілу на предмет зсуву вершини щодо центру розподілу і ступеня “крутизни” вершини. Порівняти вибіркові характеристики з генеральними та, обчисливши абсолютні та відносні похибки, зробити висновок щодо точності методів відбору.

Сервис онлайн-записи на собственном Telegram-боте

Попробуйте сервис онлайн-записи VisitTime на основе вашего собственного Telegram-бота:
— Разгрузит мастера, специалиста или компанию;
— Позволит гибко управлять расписанием и загрузкой;
— Разошлет оповещения о новых услугах или акциях;
— Позволит принять оплату на карту/кошелек/счет;
— Позволит записываться на групповые и персональные посещения;
— Поможет получить от клиента отзывы о визите к вам;
— Включает в себя сервис чаевых.

Для новых пользователей первый месяц бесплатно.

Зарегистрироваться в сервисе

5. Спираючись на результати аналізу, висунути гіпотезу про вид закону розподілу ознаки в досліджуваній генеральній сукупності по великих вибірках. Визначити оцінки параметрів розподілу методом моментів. Побудувати графіки для кожної одержаної моделі, наклавши їх на відповідні полігони.

6. Виконати перевірку правильності гіпотези, використовуючи критерій c² та критерій Колмогорова-Смірнова.

7. Якщо гіпотеза виявилася невірною, повторити п. 1.5 і 1.6, висуваючи нове припущення про вид розподілу (обмежитися запропонованими розподілами).

1.1 Генеральна сукупність та вибіркова сукупність

Вибіркова сукупність - це частина генеральної сукупності, що відображає та відтворює основні характеристики останньої і є її зменшеною моделлю. Вибіркоюназивають сукупність випадково відібраних об’єтків.

Нехай з генеральної сукупності взята вибірка, причому

спостерігалося

разів,

разів

разів. Об’ємом вибірки називається число об’єктів цієї сукупності.Спостерігаючі значення

називають варіантами, а частота – це числа які показують скільки разів повторюються окремі значення варіант.

Накопичена частота одержується послідовним додаванням частот чергового інтервалу, починаючи з першого і закінчуючи останнім. Існують малі та великі вибірки.Відносна частота –це відношення відповідної частоти до об’єму вибірки.Малою називається вибірка яка містить менше ніж 30 елементів.

Великою називається вибірка яка складається більше ніж з 30 елементів, а для соціальних явищ більше ніж 60.

- об’ємність(чим більший об’єм вибірки, тим точніший результат);

- випадковий відбір(повторний, безповторний);

Повторною називають вибірку, при якій оброблений об’єкт (перед відбором наступного) повертається в генеральну сукупність.

Безповторною називають вибірку, при якій оброблений об’єкт у генеральну сукупність не повертається.

Механічним називають відбір, при якому генеральну сукупність “механічно” ділять на стільки груп, скільки об’єктів повинно увійти у вибірку, а з кожної групи відбирають один об’єкт або коли з генеральної сукупності береться елемент з певним періодом.

Груповоюназивають вибірку, при якій вибирається група об’єктів підряд починаючи з наперед заданого обсягу.

Ранжований ряд – це ряд в якому значення ознаки розташовується в зростаючому(спадаючому порядку) і рахунок ведеться за групами.

Статистичний ряд– це таблиця з двох рядків у першому записані значення показників вибірки (варіанта), в другому відповідна частота появи варіанти.

Інтервальний ряд – це ряд в якому варіанти задаються інтервалами.Використовується для полегшення обробки статистичної інформації на великих вибірках, та у випадках коли частоти варіант мало відрізняються між собою а варіанти розташовані близько одна до одної. Кількість інтервалів визначається за формулою Стреджерса(1.1).

Довжина інтервалу розраховується за формулою:

Примітка: так як

не можна застосовувати, якщо частота на інтервалі менше 5, то такі інтервали відкидалися і вибірка знову билася на інтервали, або зменшувалася кількість інтервалів.

Емпірична функція розподілу - це функція F*(x), яка визначає для кожного значення х відносну частоту події Х< x, де Х - деяка кількісна досліджуваного явища. Таким чином F*(x)=

, де

- число варіант менших х; n- об’єм вибірки. На відмінно від емпіричної функції розподілу вибірки, функція розподілу F(x) для генеральної сукупності називають теоретичною функцією розподілу.

Запис емпіричної функції має наступний вигляд:

1) Значення емпіричної функції належать відрізку [0; 1]

1.4 Графічне представлення інтервальних рядів

Полігоном частот називають ламану, відрізки якої з'єднують точки

У випадку неперервної ознаки доцільно будувати гістограму, для чого
інтервал, в якому містяться всі спостережені значення ознаки, розбивають на
декілька часткових інтервалів і знаходять для кожного часткового
інтервалу підсуму частот варіант, що попали в і-тий інтервал.

Гістограмою частот називають східчасту фігуру, що складається із
прямокутників, основами яких слугують часткові інтервали довжиною h, а
висоти дорівнюють відношенню ni/h (густина частот). Площа гістограми частот дорівнює об'єму вибірки.

Гістограмою накопичення частот називають ступінчасту фігуру, яка складається з прямокутників, основи яких дорівнюють довжинам інтервалів. Висота прямокутників дорівнює частоті значень для кожного окремого інтервалу. Значення йдуть по накопиченню. На осі абсцис відкладаються довжини інтервалу, а на осі ординат відкладаються накопичені частоти значень.

Графік функції розподілу

у загальному випадку представляє собою графік неспадної функції, значення якої починаються з 0 і доходять до 1, причому в окремих точках функція має розриви (стрибки).

1.5 Числові характеристики варіаційних рядів

Простою середньоарифметичною вибірки називають суму варіант вибірки, поділену на об’єм вибірки.

Дисперсія середнє арифметичне квадратів відхилення варіант від їх середнього.

Середнє квадратичне відхилення – квадратний корінь з дисперсії.

Коефіцієнт варіації – характеристика однорідності вибірки (генеральної сукупності) і обчислюється за формулою:

Мода значення варіанти, яка має найбільшу частоту.

– частота інтервалу, що передує модальному;

- для обчислення моди використаємо наступну формулу:

Медіана– значення варіанти, яке ділить вибірку(сукупність) навпіл.

– накопичена частота інтервалу, що передує медіанному;

Асиметрія – безрозмірна величина, яка показує ступінь скошеності вибірки і обчислюється за формулою

Ексцес – безрозмірна величина, яка показує характер гостроверхостіі обчислюється за формулою

де

– центральний момент четвертого порядку;

Похибки бувають абсолютні та відносні. Абсолютна похибка вимірювання- це похибка вимірювання, виражена в одиницях вимірюваної величини.

Відносна похибка вимірювання – це похибка вимірювання, виражена як відношення абсолютної похибки до дійсного відношення абсолютної похибки. Відносну похибку знаходять за співвідношенням:

Глибокий статистичний аналіз включає порівняння різних критеріїв (коефіцієнтів) та перевірку гіпотез про їх істотність для більш повного розуміння результатів. Розглянемо трохи докладніше, як саме проходить процес перевірки статистичних гіпотез. Під гіпотезою в статистиці розуміють припущення про розподіл випадкової величини. Так гіпотезою є припущення, що деякий розподіл (наприклад, за віком тощо) має середнє значення 20. Або при розв’язуванні задач, які полягають в оцінці різниці між результатами, одержаними під час різних експериментів.

Критерій перевірки гіпотези надає метод перевірки, в результаті якого з’ясовується, вірна чи невірна дана гіпотеза, тобто «приймається» вона чи «відкидається1’. Якщо відхилення експериментальних даних від гіпотези мале і є випадковим – гіпотеза приймається, якщо ж це відхилення не можна вважати випадковим і мова йде про так зване істотне відхилення – гіпотеза відхиляється. Отже суть перевірки гіпотез полягає у тому, щоб визначити, узгоджуються чи ні результати експерименту з гіпотезою, випадковими чи не
випадковими є розбіжності між гіпотезою і даними вибіркового обстеження. Гіпотеза, відхилення від якої приписують випадку, називається нульовою і позначається

. Кожній нульовій гіпотезі протиставляють альтернативну

Статистична перевірка гіпотез неминуче пов’язана з ризиком прийняття помилкового рішення. Ризик І–помилка першого роду–відхилення правильної нульової гіпотези. Ймовірність зробити таку помилку дорівнює

. Ризик II–помилка другого роду–нульова гіпотеза приймається (невідхилення Но). Хоча насправді правильною є альтернативна. Ймовірність зробити цю помилку дорівнює 1 – β, де β – ймовірність того, що помилка II роду не буде зроблена – так звана потужність критерію. Ці ризики конкуруючі, і зменшення ймовірності одного (α) зумовлює збільшення ймовірності іншого (β).

Правило за яким гіпотеза Но відхиляється або не відхиляється (приймається), називається статистичним критерієм (функцією критерію). Значення характеристики має певну ймовірність. Межу малоймовірності називаютьрівнем істинності а – це ймовірність ризику І, тобто ймовірність відхилення вірної Н0 (помилки першого роду), а тому залежно від змісту гіпотези Но і наслідків її відхилення рівень істотності визначають у кожному конкретному дослідженні. Звичайно вибираютьодин з рівнів α, для яких існують табульовані значення статистичних характеристик критеріїв:

Під критичними значеннями статистичної характеристики розуміють теоретичні (табличні) її значення, обчислені для певного розподілу і з відповідним рівнем істотності (ймовірності) та ступенів вільності (чисел,
що показують різницю між кількістю різних дослідів [спостережень] та кількістю констант к [параметрів, що оцінюються], знайдених завдяки цим дослідам незалежно один від одного.

Поняття ступені вільності – одне з найбільш важливих понять статистики. Це питання досить важке для розуміння, тому для його пояснення обмежимося спрощеним трактуванням, у відповідності з яким для сукупності спостережень, що розглядається, число ступенів вільності співпадає з числом незалежних одне від одного спостережень.

Початкові та центральні емпіричні моменти є обґрунтованими оцінками відповідно початкових та центральних теоретичних моментів того ж порядку. На цьому оснований метод моментів, який був запропонований Пірсоном. Перевага методу – його відносна простота. Метод моментів точкової оцінки невідомих параметрів заданого розподілу полягає в прирівняні теоретичних моментів розглядуваного розподілу до відповідних емпіричних моментів того ж порядку.

- критерійПірсонапризначенийдля співставлення емпіричного розподілу з теоретичним, для співставлення двох і більше емпіричних розподілів.

Критерій

відповідає на питання “Чи з однаковою частотою зустрічаються різні значення ознаки? ” Критерій дозволяє співставляти ознаки по будь-якій шкалі.

3) вибрані варіанти повинні охоплювати весь діапазон варіативності ознаки, при цьому групування повинно бути однаковим у всіх розподілах, що співставляються;

4) групування повинно містити рівні інтервали (значення ознаки мають бути рівновіддалені).

Нульова гіпотеза: емпіричний закон розподілу відповідає теоретичному

Альтернативна гіпотеза: емпіричний закон розподілу не відповідає теоретичному

Емпіричне значення

розраховується за формулою:

Далі по таблиці критичних точок

, за заданим рівнем значущості

і кількості ступенів свободи

, знаходять критичну точку.

Якщо

, то підстав відхилити нульову гіпотезу немає. Якщо

Критерій ґрунтується на порівнянні статистичної і теоретичної функцій розподілу. Якщо

За допомогою таблиць розподілу Колмогорова - Смірнова визначається правостороння критична область.

2.1 Побудова вибірок з генеральної сукупності

Для висунення гіпотез про можливий вид розподілу ми виконали наступні завдання:

Побудовали вибіркові сукупності із генеральної.

Для формування безповторної вибірки ми завантажили файл «Бесповторная.xls», включивши МАКРОСИ, і скористатися командою меню Сервіс \ Макрос \ Макроси.\ Вибірка без повторів та вказуємо діапазони вхідних і вихідних комірок. Для формування вибірки з повторенням було виконано такі команди: Дані/ Аналіз даних/ Вибірка. Для формування вибірки механічним відбором: Дані/ Аналіз даних/ Вибірка. Велику вибірку (200 ел.) методом групового відбору, починаючи з 24 числа відбираємо 200 елементів, а малу беремо 25 елементів, починаючи з 24 числа. Дані беремо з додатку А (таблиця 1).

Отримані ранжовані вибірки наведено в (таблиці А. 2-9)

2.2Побудова інтервальних варіаційних рядів та обчислення емпіричної функції

Для подальших досліджень дані ранжованих вибірок було згруповано у інтервальні ряди.

Для визначення частот варіант використано функцію Microsoft Excel “Частота”. Отримані інтервальні ряди представлено в таблицях В.1 – 4.

За умовою, частота інтервала не повинна бути меншою 5. Оскільки у наших вибірках такі частоти були присутні, то ми відкидали ту кількість елементів, які входять до інтервалів, частоти яких менші 5. Межа відкидання становить 20 %, тобто 40 елементів. Але якщо і при таких змінах значення частот були менші за 5, то ми зменшували кількість інтервалів.

У нашому випадку: для великої безповторної вибірки було відкинуто 35 ел. і кількість інтервалів зменшена до 12; для великої повторної вибірки – 34 ел. і кількість інтервалів – 12; для великої механічної вибірки – 19 ел. і кількість інтервалів – 14; для великої групової вибірки – 15 ел. і кількість інтервалів – 12.(таблиці С.1– 9).

2.3 Побудова гістограм частот, полігонів частот, гістограм накопичених частот та графіків емпіричної функції

За допомогою команди меню Вставка \ Диаграмма було побудовано в MicrosoftExcel гістограму, полігон, графік емпіричної функції розподілу, які представленні в додатку D для кожної вибірки відповідно.

Порівнюючи полігони частот вибірок із полігоном частот генеральної сукупності ми зробили висновок, що полігони частот великих повторної і групової вибірок найкраще відображають генеральну сукупність. Найменш схожими з полігоном частот генеральної сукупності є полігони малих механічної і безповторної вибірок.

На даному кроці на основі візуального порівняння полігонів частот наших вибірок і графіків законів розподілу було висунуто гіпотези про можливий закон розподілу генеральної сукупності.

Проаналізувавши полігон частот можна відкинути рівномірний закон розподілу, адже графік має бути приблизно паралельний осі ОХ, також можна меншу увагу звертати на нормальний та логарифмічно-нормальний закон розподілу, тому що графік полігону частот менш схожий на ці закони розподілу. Отже, дані графіки свідчать про можливість наступних двох розподілів:

Бета-розподілу та Експоненціального розподілу що видно з графіків. Можливість Бета-розподілу наступна, оскільки Бета-розподіл задається через щільність

де α, β довільні параметри.Графік цього розподілу при α =1 і β =3 дуже схожий на експоненціальний розподіл, тому на даному етапі ми не можемо відкинути даний графік.Спростувати чи навпаки підтвердити дані розподіли ми зможемо після побудови полігону для генеральної сукупності а також елементи вибірки знаходяться в інтервалі[0; 1].

Визначимо для вибіркових сукупностей числові характеристики за формулами (1.6 – 1.13)

Одержимо наступні числові характеристики для всіх вибірок:

Таблиця 2.1 – Зведена таблиця числових характеристик

За візуальною оцінкою було виявлено, що генеральній сукупності із великих вибірок найбільш відповідає велика групова вибірка.

Щоб висунути гіпотези про можливий вид розподілу обчислимо абсолютну та відносну похибки для кожної вибірки.

Знайдемо абсолютну похибку числових характеристик за формулою(1.14).

Таблиця 2. 2 – Абсолютні похибки числових характеристики

Таблиця 2. 3 – Відносна похибка числових характеристик

Розглянувши похибки великих вибірок можна сказати, що найбільш точною є велика повторна вибірка, а найменш точною – велика механічна вибірка.

Спираючись на результати аналізу, ми можемо впевнитися про припущення щодо можливого виду розподілу. Раніше ми припускали про можливість двох розподілів: експоненціального та Бета – розподілу. З отриманих результатів по генеральній сукупності чітко видно що математичне сподівання та середнє квадратичне майже однакові(таблиця 1)

Отже припущення, що даний розподіл може бути розподілений за Бета-розподілом на даному етапі відхиляємо. І можимо висунути гіпотези:

– Розподіл за яким розподіляються вибіркові сукупності експоненціальний.

– Розподіл за яким розподіляються вибіркові сукупності не експоненціальний

Для визначення оцінки параметрів розподілу використаємо метод моментів. Для експоненціального розподілу в нас всього один параметр λ. Дляе кспоненціально розподіленої випадкової величини функція щільності має вигляд:

Тобто за допомогою початкового теоретичного моменту та початкового емпіричного моменту. Які рівні між собою, тобто математичне сподівання дорівнює середньому вибірковому.

Таблиця 2.4 – Щільність експоненціального розподілу для вибірок.

Після знаходження параметру

, побудуємо графіки щільності для кожної великої вибірки. Графіки щільності побудуємо за допомогою надбудов MicrosoftExcel.

Таблиця 2.5 – Щільністьдля великої повторної вибір

Таблиця 2.7 – Щільністьдля великої без повторної вибірки:

Таблиця 2.8 – Щільність для великої механічної вибірки

Таблиця 2.9 – Щільність для великої групової вибірки

Отримані щільності розподілів зобразимо графічно наклавши їх на відповідні полігони частот. Представлення даних графіків:

Рисунок 2.1 – Полігон частот великої повторної вибірки та щільність експоненціального розподілу

Рисунок 2.2 – Полігон частот великої без повторної вибірки та щільність експоненціального розподілу

Рисунок 2.3 – Полігон частот великої механічної вибірки та графік щільності експоненціального розподілу

Рисунок 2.4 – Полігон частот великої групової вибірки і графікщільності експоненціального розподілу