Разделы сайта

Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Лаб. раб. 1. Числовые характеристики выборки, гистограмма

Стр 1 из 2Следующая ⇒

При работе в Excel для построения вариационных рядов могут быть использованы следующие функции:

- СЧЁТ (массив данных) – для определения объема выборки. Аргументом является диапазон ячеек, в котором находятся выборочные данные.

- ЧАСТОТА (массив данных; массив интервалов) – для построения вариационного ряда. Аргументами являются диапазон массива выборочных данных и столбец интервалов. Если требуется построить дискретный ряд, то здесь указываются значения варианты, если интервальный – то верхние границы интервалов (их еще называют «карманами»). Поскольку результатом является столбец частот, введение функции следует завершить нажатием сочетания клавиш CTRL+SHIFT+ENTER. Заметим, что задавая массив интервалов при введении функции, последнее значение в нем можно и не указывать – в соответствующий «карман» будут помещены все значения, не попавшие в предыдущие «карманы». Иногда это помогает избежать ошибки, состоящей в том, что наибольшее выборочное значение не помещается автоматически в последний «карман»

Кроме того, для сложных группировок (по нескольким признакам) используют инструмент «сводные таблицы» и «анализ данных» «описательная статистика» в меню «данные». Для построения атрибутивных и вариационных рядов их тоже можно использовать, но это излишне усложняет задачу. Также для построения вариационного ряда и гистограммы существует процедура «гистограмма» из надстройки «Пакет анализа» (чтобы использовать надстройки в Excel, их нужно сначала загрузить, по умолчанию они не устанавливаются)

Для вычисления средней в интервальном ряду нужно перейти к дискретному ряду, заменив интервал его средним значением.

Для нахождения моды и медианы по выборке в Excel используются соответственно функции МОДА(массив данных) и МЕДИАНА (массив данных).

Наиболее простой характеристикой вариации признака является размах вариации:

R=x _max – x _min,

где x _max – наибольшее, x _min – наименьшее значения в выборке.

В Excel размах вычисляется при помощи формулы:

МАКС(массив данных)-МИН(массив данных)

В Excel дисперсия D_в выборки вычисляется при помощи функции ДИСПР(массив данных).

В Excel исправленная дисперсия s² выборки вычисляется при помощи функции ДИСП(массив данных).

Корень квадратный из дисперсии представляет среднее квадратическое отклонение или стандартное отклонение и вычисляется с помощью команды =КОРЕНЬ(номер ячейки) или =СТАНДОТКЛОНП(массив данных).

Корень квадратный из исправленной дисперсии представляет исправленное среднее квадратическое отклонение или стандартное отклонение и вычисляется с помощью команды =КОРЕНЬ(номер ячейки) или =СТАНДОТКЛОН(массив данных).

Кроме того, для сравнения гистограммы или полигона вариационного ряда с нормальным распределением, вычисляют коэффициент асимметрии и эксцесс.

В Excel эти характеристики по выборке вычисляются соответственно функциями

СКОС(массив данных) и ЭКСЦЕСС(массив данных).

Заметим, что для вычисления основных выборочных характеристик в Excel можно использовать также процедуру «Описательная статистика» из надстройки «Пакет анализа».

Чтобы изменить (уменьшить) количество знаков после запятой в полученных значениях для выборочной средней, дисперсии, … надо выделить нужные ячейки, нажать правую кнопку мыши, выбрать «формат ячеек», «числовой» и поставить нужное число знаков после запятой.

Пример 1.1.

Имеются данные о выбросах загрязняющих веществ из 50 источников:

10, 4	18, 6	10, 3	26, 0	45, 0	18, 2	17, 3	19, 2	25, 8	18, 7
28, 2	25, 2	18, 4	17, 5	41, 8	14, 6	10, 0	37, 8	10, 5	16, 0
18, 1	16, 8	38, 5	37, 7	17, 9	29, 0	10, 1	28, 0	12, 0	14, 0
14, 2	20, 8	13, 5	42, 4	15, 5	17, 9	19,	10, 8	12, 1	12, 4
12, 9	12, 6	16, 8	19, 7	18, 3	36, 8	15, 0	37, 0	13, 0	19, 5

Составить равноинтервальный ряд, построить гистограмму

Решение. Откроем таблицы Excel. Введем массив данных в диапазон А1: L5. Если Вы изучаете документ в электронной форме (в формате Word, например), для этого достаточно выделить таблицу с данными и скопировать ее в буфер, затем выделить ячейку А1 и вставить данные – они автоматически займут подходящий диапазон. Подсчитаем объем выборки n – число выборочных данных, для этого в ячейку В7 введем формулу =СЧЁТ(А1: J5). Заметим, что для того, чтобы в формулу ввести нужный диапазон, необязательно вводить его обозначение с клавиатуры, достаточно его выделить. Определим минимальное и максимальное значение в выборке, введя в ячейку В8 формулу =МИН(А1: J5), и в ячейку В9: =МАКС(А1: J5).

Поскольку требуется интервальный ряд, и число интервалов в задаче не задано, вычислим число интервалов k по формуле Стерджесса. Для этого в ячейку В10 введем формулу

=1+3, 322*LOG10(B7).

Рис.1.4. Пример 2. Построение равноинтервального ряда

Полученное значение не является целым, оно равно примерно 6, 64. Поскольку при k=7 длина интервалов будет выражаться целым числом (в отличие от случая k=6) выберем k=7, введя это значение в ячейку С10. Длину интервала d вычислим в ячейке В11, введя формулу =(B9-B8)/C10.

Зададим массив интервалов, указывая для каждого из 7 интервалов верхнюю границу. Для этого в ячейке Е8 вычислим верхнюю границу первого интервала, введя формулу =B8+B11; в ячейке E9 верхнюю границу второго интервала, введя формулу =E8+B11. Для вычисления оставшихся значений верхних границ интервалов зафиксируем номер ячейки В11 в введенной формуле при помощи знака $, так что формула в ячейке Е9 примет вид =E8+B$11, и скопируем содержимое ячейки E9 в ячейки E10-E14, «потянув» за правый нижний уголок ячейки. Последнее полученное значение равно вычисленному ранее в ячейке B9 максимальному значению в выборке.

Рис.1.5. Пример 2. Построение равноинтервального ряда

Теперь заполним массив «карманов» при помощи функции ЧАСТОТА. Выделим столбец частот, введем формулу =ЧАСТОТА(А1: J5; E8: E14) и нажмем сочетание клавиш CTRL+SHIFT+ENTER.

Для контроля вычислим сумму частот при помощи функции СУММ (значок функции S в группе «Редактирование» на вкладке «Главная»), вычисленная сумма должна совпасть с ранее вычисленным объемом выборки в ячейке В7.

Рис.1.6. Пример 2. Построение равноинтервального ряда

По полученному вариационном ряду построим гистограмму: выделим столбец частот и выберем на вкладке «Вставка» «Гистограмма». Получив гистограмму, изменим в ней подписи горизонтальной оси на значения в диапазоне интервалов, для этого выберем опцию «Выбрать данные» вкладки «Конструктор». В появившемся окне выберем команду «Изменить» для раздела «Подписи горизонтальной оси» и введем диапазон значений варианты, выделив его «мышью».

Рис.1.7. Пример 2. Построение гистограммы

Рис.1.8. Пример 2. Построение гистограммы

Лаб. раб. 2. Доверительный интервал для генеральной средней (мат.ожидания)

В случае большой выборки (n³ 100) предельную ошибку для среднего выборки можно рассчитать в Excel при помощи функции

ДОВЕРИТ(альфа; станд.откл; размер),

альфа — допустимая вероятность ошибки, т.н. уровень значимости: a=1-g;

станд.откл. — генеральное среднее квадратическое отклонение, предполагающееся известным, или его оценка ;

размер — текущий объем выборки n.

При помощи формулы предельной ошибки выборки определяют доверительный интервал с заданной доверительной вероятностью g для генерального среднего : . При этом

В случае малой выборки (n< 30) при отсутствии данных о нормальности распределения признака предельная ошибка для генеральной средней определяется по формуле:

— табличное значение критерия Стьюдента для вероятности g при числе степеней свободы n-1. В Excel коэффициент доверия для малой выборки рассчитывается при помощи функции СТЬЮДРАСПОБР(вероятность; степени свободы), где за аргумент вероятность принимается уровень значимости a=1-g.

Для 30< n< 100 причисление выборки к категории «большой» или «малой» индивидуально, зависит от постановки задачи и от дисперсии выборки. Четкой границы между большой и малой выборками в общем случае указать невозможно. Выборка, сделанная из совокупности с небольшим разбросом признака, может считаться большой, тогда как выборка такого же объема, произведенная из более разнородной совокупности, окажется малой.

Пример 2.1.

Имеются данные по уровню безработицы в России в 2006 году:

Центральный фед.окр.	Калининградская обл.	4, 5	Респ.Мордовия	4, 7	Респ.Хакасия	9, 1
Белгородская обл.	4, 1	Ленинградская обл.	5, 9	Респ.Татарстан	5, 6	Алтайский край	8, 8
Брянская обл.	5, 6	Мурманская обл.	6, 7	Удмуртская респ.	8, 4	Красноярский край	9, 9
Владимирская обл.	6, 8	Новгородская обл.	5, 5	Чувашская респ.	8, 6	Таймырский АО	10, 0
Воронежская обл.	10, 9	Псковская обл.	7, 4	Пермский край	6, 9	Эвенкийский АО	3, 9
Ивановская обл.	5, 5	Г.Санкт-Петербург	2, 4	Кировская обл.	7, 9	Иркутская обл	8, 9
Калужская обл	4, 2	Южный фед. округ	Нижегородская обл.	5, 3	Усть-Ордынский АО	12, 6
Костромская обл.	5, 6	Респ.Адыгея	13, 7	Оренбургская обл.	6, 5	Кемеровская обл.	7, 3
Курская обл.	5, 0	Респ.Дагестан	22, 3	Пензенская обл.	6, 5	Новосибирская обл.	7, 4
Липецкая обл.	7, 3	Респ.Ингушетия	58, 5	Самарская обл.	4, 3	Томская обл.	9, 3
Московская обл.	4, 9	Кабардино-балк.респ.	20, 7	Саратовская обл.	8, 2	Читинская обл.
Орловскся обл.	3, 0	Респ.Калмыкия	16, 7	Ульяновская обл.	6, 9	Агинский АО	0, 9
Рязанская облюю	6, 0	Карачаево-Черк.респ.	19, 4	Уральский фед. округ	Дальневост. фед.округ
Смоленская обл.	5, 2	Респ.Сев.Осетия	8, 5	Курганская обл.	12, 4	Респ.Саха	9, 5
Тамбовская обл.	8, 0	Чеченская респ.	66, 9	Свердловская обл.	7, 0	Приморский край	8, 0
Тверская обл.	8, 7	Краснодарский край	7, 4	Тюменская обл.	6, 8	Хабаровский край	6, 0
Тульская обл.	4, 5	Ставроп. край	8, 9	Ханты-Манс. АО	6, 1	Амурская обл.	8, 2
Ярославская обл.	2, 7	Архангельская обл.	7, 9	Ямало-НенецкийАО	5, 4	Камчатская обл.	9, 1
Г.Москва	3, 0	Волгоградская обл.	8, 6	Челябинская обл.	5, 1	Корякский АО	6, 4
Северо-зап. фед. округ	Ростовская обл.	8, 0	Сибирский фед. окр	Магаданская обл.	5, 4
Респ. Карелия	3, 6	Приволжский фед. окр	Респ. Алтай	11, 6	Сахалинская обл.	4, 6
Респ. Коми	12, 4	Респ.Башкортостан	6, 5	Респ. Бурятия	13, 4	Еврейская АО	9, 8
Архангельская обл.	5, 9	Респ.Марий Эл	10, 2	Респ. Тыва	20, 5	Чукотский АО	3, 7
Вологодская обл.	5, 6

Определить доверительный интервал с надежностью 0, 9 для средней безработицы: 1) считая выборку большой; 2) считая выборку малой.

12 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.