Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Анализ данных 1 страница






МЕТОДЫ И МОДЕЛИ ЭКОНОМЕТРИКИ

Часть 1

Анализ данных

 

Под редакцией А.Г. Реннера

 

Рекомендовано Ученым советом федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Оренбургский государственный университет» в качестве учебного пособия для студентов, обучающихся по программам высшего образования по направлениям подготовки 01.03.04 Прикладная математика, 38.04.01 Экономика, 38.03.05 Бизнес-информатика

 

 

Оренбург

2015

УДК 330.4(075.8)

ББК 65в631я73

М54

 

Рецензент – доктор экономических наук, профессор А.И. Афоничкин

Авторы: О.И. Бантикова, В.И. Васянина, Ю.А. Жемчужникова, А.Г. Реннер, Е.Н. Седова, О.И. Стебунова, Л.М. Туктамышева, О.С. Чудинова

 

М54Методы и модели эконометрики. Часть 1. Анализ данных: учебное пособие / О.И. Бантикова, В.И. Васянина, Ю.А. Жемчужникова,
А.Г. Реннер, Е.Н. Седова, О.И. Стебунова, Л.М. Туктамышева,
О.С. Чудинова / под ред. А.Г. Реннера; Оренбургский гос. ун-т. – Оренбург: ОГУ, 2015. – 574 с.

ISBN

 

 

В рамках первой части «Анализ данных» учебного пособия «Методы и модели эконометрики» рассмотрен математический инструментарий эконометрического моделирования, включающий методы оценки параметров распределения и проверки гипотез о параметрах распределения многомерной генеральной совокупности; корреляционный анализ количественных, порядковых и категоризованных признаков; методы классификации, как при наличии, так и при отсутствии обучающих выборок; методы снижения размерности признакового пространства; методы многомерного метрического и неметрического шкалирования. Отдельный раздел посвящен построению интегрального латентного показателя эффективности функционирования системы.

Каждый раздел состоит из теоретической части, вопросов и заданий к практическим занятиям, заданий к лабораторным работам и примеров их выполнения с помощью статистических пакетов прикладных программ Statistica, Stata, Sani, а также надстройки AtteStat табличного процессора MS Excel.

Для студентов математических, экономико-математических направлений подготовки бакалавров, магистров, аспирантов, преподавателей и научных работников, специалистов аналитических служб предприятий и организаций, владеющих аппаратом математического анализа, линейной алгебры, теории вероятностей и математической статистики.

 

УДК 330.4 (075.8)

ББК 65в631я73

 

 

ISBN Ó Реннер А.Г., 2015

Ó ОГУ, 2015

 
 


Содержание

 

Введение 7

1 Введение в многомерный статистический анализ данных – обзор 11

1.1 Объект, предмет, задачи многомерного статистического анализа данных 11

1.2 Типы случайных величин и шкалы их измерения 13

1.3 Многомерная генеральная совокупность и ее закон распределения 18

1.4 Теория корреляции 23

1.5 Вопросы и задания к практическим занятиям 40

2 Оценивание параметров распределения и проверка гипотез о параметрах распределения многомерной генеральной совокупности 43

2.1 Точечное оценивание параметров многомерной нормально распределенной генеральной совокупности 43

2.2 Построение доверительной области для вектора математических ожиданий нормально распределенной генеральной совокупности 46

2.3 Построение доверительной области для вектора параметров в форме прямоугольного параллелепипеда 51

2.4 Проверка гипотезы о равенстве вектора математических ожиданий нормально распределенной генеральной совокупности вектору-стандарту 52

2.5 Проверка гипотезы об однородности распределения двух многомерных нормально распределенных генеральных совокупностей 55

2.6 Проверка гипотезы о нормальном законе распределения многомерной генеральной совокупности 57

2.7 Вопросы и задания к практическим занятиям 59

2.8 Задание, порядок выполнения и вопросы к защите лабораторной работы на тему «Оценивание параметров распределения и проверка гипотез о параметрах распределения многомерной генеральной совокупности» 61

2.9 Задание, порядок выполнения и вопросы к защите лабораторной работы на тему «Проверка гипотезы о нормальном законе распределения многомерной генеральной совокупности» 77

3 Корреляционный анализ компонент многомерного случайного вектора признаков 91

3.1 Корреляционный анализ количественных признаков 91

3.2 Корреляционный анализ порядковых переменных: ранговая корреляция 98

3.3 Корреляционный анализ номинальных признаков: анализ двухфакторных таблиц сопряженности 108

3.4 Вопросы и задания к практическим занятиям 130

3.5 Задание, порядок выполнения и вопросы к защите лабораторной работы на тему «Корреляционный анализ количественных признаков» 139

3.6 Задание, порядок выполнения и вопросы к защите лабораторной работы на тему «Корреляционный анализ порядковых переменных: ранговая корреляция» 168

3.7 Задание, порядок выполнения и вопросы к защите лабораторной работы на тему «Корреляционный анализ номинальных признаков: анализ таблиц сопряженности» 181

4 Методы многомерной классификации 207

4.1 Кластерный анализ 207

4.2 Дискриминантный анализ 229

4.3 Вопросы и задания к практическим занятиям 251

4.4 Задание, порядок выполнения и вопросы к защите лабораторной работы на тему «Кластерный анализ» 265

4.5 Задание, порядок выполнения и вопросы к защите лабораторной работы на тему «Параметрический дискриминантный анализ» 320

5 Методы снижения размерности признакового пространства 348

5.1 Метод главных компонент 348

5.2 Факторный анализ: метод общих (главных) факторов 363

5.3 Вращение факторного пространства 381

5.4 Многомерное шкалирование 387

5.5 Вопросы и задания к практическим занятиям 409

5.6 Задание, порядок выполнения и вопросы к защите лабораторной работы на тему «Метод главных компонент» 422

5.7 Задание, порядок выполнения и вопросы к защите лабораторной работы на тему «Метод главных факторов» 445

5.8 Задание, порядок выполнения и вопросы к защите лабораторной работы на тему «Многомерное шкалирование» 459

6 Построение интегрального показателя качества (эффективности функционирования) системы 472

6.1 Формирование апостериорного набора частных критериев 472

6.2 Построение интегрального показателя методом главных компонент 476

6.3 Построение интегрального показателя экспертно-статистическим методом 479

6.4 Построение интегрального показателя на основе модели множественного выбора 489

6.5 Вопросы и задания к практическим занятиям 497

6.6 Задание, порядок выполнения и вопросы к защите лабораторной работы на тему «Построение интегрального показателя» 498

Список использованных источников 521

Приложение А (обязательное) Исходные данные к лабораторной работе на тему «Оценивание параметров распределения и проверка гипотез о параметрах распределения многомерной генеральной совокупности» 522

Приложение Б (обязательное) Исходные данные к лабораторной работе на тему «Корреляционный анализ количественных признаков» 528

Приложение В (обязательное) Исходные данные к лабораторной работе на тему «Корреляционный анализ порядковых переменных: ранговая корреляция» 534

Приложение Г (обязательное) Исходные данные к лабораторной работе на тему: «Корреляционный анализ номинальных признаков: анализ таблиц сопряженности» 540

Приложение Д (обязательное) Исходные данные к лабораторной работе на тему «Кластерный анализ» 548

Приложение Е (обязательное) Исходные данные к лабораторной работе на тему «Параметрический дискриминантный анализ» 559

Приложение Ж (обязательное) Исходные данные к лабораторным работам по методам снижения размерности признакового пространства 564

Приложение И (справочное)Теорема Торгерсона 568

 

 


Введение

Подготовка современного специалиста, способного проводить аналитическую работу в области экономики и социальной сферы, немыслима без освоения комплекса дисциплин, среди которых центральное место занимает «Эконометрика». Одно из наиболее распространенных определений трактует эконометрику как область знаний, предметом изучения которой является «количественное описание закономерностей, обусловленных экономической теорией, методами математической статистики, на основе данных экономической статистики». Не возражая принципиально против этого определения, мы хотели бы уточнить следующее: описание закономерностей осуществляется с помощью более широкого набора математических методов, включающих помимо математической статистики, методы кластерного и дискриминантного анализа, методы главных компонент и факторного анализа, методы непараметрической статистики и т.д. Обратим внимание еще на два важных момента:

1. проведение эконометрического моделирования невозможно без использования специализированного программного обеспечения, поэтому естественно, наряду с описанием методов приводить описание используемого инструментария;

2. вопреки устоявшимся традициям, согласно которым исследователи в зависимости от ситуации смотрят на используемые в рамках того или иного метода статистики либо как на случайные величины, либо как на их реализации, мы считаем, что разделение оценок на апостериорные и априорные облегчает восприятие и доказательность описываемых методов.

Первая часть «Анализ данных» учебного пособия «Методы и модели эконометрики» состоит из шести разделов. В первом разделе «Введение в многомерный статистический анализ данных – обзор» перечислены основные задачи, решаемые в рамках многомерного статистического анализа данных, приведена классификация и характеристика типов случайных величин и шкал их измерения, в обзорном порядке дана характеристика форм задания законов распределения многомерных генеральных совокупностей, сосредоточено внимание на свойствах двумерного нормально распределенного случайного вектора, приведены основные положения теории корреляции в двумерном и многомерном случаях.

Второй раздел «Оценивание параметров распределения и проверка гипотез о параметрах распределения многомерной генеральной совокупности» посвящен решению задач точечного оценивания, построения доверительных областей в многомерном случае, проверке статистических гипотез о параметрах многомерной нормально распределенной генеральной совокупности, затрагивает вопрос проверки гипотезы о нормальном законе распределения многомерной генеральной совокупности. В конце раздела содержатся задания, порядок их выполнения и вопросы к защите лабораторных работ по двум темам: «Оценивание параметров распределения и проверка гипотез о параметрах распределения многомерной генеральной совокупности» и «Проверка гипотезы о нормальном законе распределения многомерной генеральной совокупности». Для выполнения лабораторных работ используются пакеты Statistica, MathCad, надстройка AtteStat пакета Excel.

В третьем разделе «Корреляционный анализ компонент многомерного случайного вектора признаков» содержатся описание основных этапов корреляционного анализа количественных признаков, алгоритм построения и свойства ранговых коэффициентов корреляции; систематизированы вопросы проверки гипотезы о независимости и оценивания коэффициентов связи двух номинальных категоризованных признаков. Далее в разделе приведены задания, порядок их выполнения и вопросы к защите лабораторных работ по трем темам: «Корреляционный анализ количественных признаков», «Корреляционный анализ порядковых переменных: ранговая корреляция» и «Корреляционный анализ номинальных признаков: анализ таблиц сопряженности». Примеры выполнения лабораторных работ включают описание алгоритмов решения задач с помощью пакетов Statistica, САНИ, надстройки AtteStat пакета Excel.

Четвертый раздел «Методы многомерной классификации» посвящен описанию статистических методов многомерной классификации с обучением и без обучения. В подразделе 4.1 содержится постановка задачи кластерного анализа, рассмотрены различные метрики расчета расстояния между объектами и принципы измерения расстояния между классами, описаны иерархические и итерационные методы кластерного анализа, разобраны примеры реализации агломеративного и дивизимного алгоритмов классификации, приведены основные функционалы качества разбиения и критерии определения оптимального числа классов. В подразделе 4.2 сформулирована задача классификации при наличии обучающих выборок; проиллюстрирован основной принцип вероятностных методов классификации; рассмотрена оптимальная (байесовская) процедура классификации с учетом удельных весов классов и функций потерь от неправильной классификации объектов, а также её частные случае; подробно описан алгоритм параметрического дискриминантного анализа в случае нормального закона распределения классов. Лабораторные работы на темы «Кластерный анализ» и «Параметрический дискриминантный анализ» выполнены с помощью пакетов Statistica, Stata и надстройки AtteStat пакета Excel.

В пятом разделе «Методы снижения размерности признакового пространства» содержатся описание метода главных компонент и метода главных факторов, а также алгоритмов их практической реализации; теоретических и практических аспектов вращения факторного пространства. Подраздел 5.4 посвящен алгоритмам метрического и неметрического многомерного шкалирования. Лабораторные работы на темы «Метод главных компонент», «Метод главных факторов» и «Многомерное шкалирование» выполнены с помощью пакетов Statistica, Stata и надстройки AtteStat пакета Excel.

Шестой раздел «Построение интегрального показателя качества (эффективности функционирования) системы» содержит теоретические аспекты построения интегрального показателя методом главных компонент, экспертно-статистическим методом и на основе модели множественного выбора, а также практические аспекты реализации описанных методов с помощью пакетов Statistica, Gretl, Eviews и запатентованного программного средства «Построение интегрального показателя экспертно-статистическим методом».

В каждом разделе содержатся вопросы и задания к практическим занятиям, способствующие закреплению у студентов знаний теоретического материала той или иной темы. В приложениях к учебному пособию приведены исходные данные для выполнения студентами лабораторных работ. Обновление информационной базы может осуществляться на основе данных, размещенных на Интернет-ресурсе gks.ru, а также из других источников статистической информации.

 


1 Введение в многомерный статистический анализ данных – обзор

 

1.1 Объект, предмет, задачи многомерного статистического анализа данных

 

Окружающий нас мир насыщен информацией. Без адекватных технологий анализа данных человек оказывается беспомощным в существующей информационной среде и не способным принимать рациональные решения. Многомерный статистический анализ обладает широкими возможностями в отображении и моделировании реальных явлений и процессов, изначально имеющих многопризнаковую природу.

Многомерный статистический анализ играет важную роль в прикладной статистике и представляет собой совокупность глубоко формализованных математико-статистических методов, базирующихся на представлении исходной информации в многомерном геометрическом пространстве и позволяющих определять неявные (латентные), но объективно существующие закономерности в организационной структуре и тенденциях развития изучаемых социально-экономических явлений и процессов [43]. Объекты, явления, процессы описываются здесь с помощью не одного-двух, а одновременно некоторого множества признаков. Это позволяет добиваться в исследовании полноты теоретического описания явлений и объективности последующих выводов. Например, если на предприятии наблюдается высокий уровень производительности труда, то это еще не означает, что оно работает устойчиво, имеет достаточное финансовое обеспечение и может выступать надежным партнером. Для достоверной оценки деятельности предприятия необходимо проанализировать показатели рентабельности, финансовой устойчивости, платежеспособности, ликвидности.

Методы многомерного статистического анализа данных активно применяются в технических исследованиях, экономике, теории и практике управления, социологии, психологии, медицине, геологии, истории и других областях. С результатами наблюдений, измерений, испытаний, опытов, с их анализом имеют дело специалисты во всех отраслях практической деятельности, почти во всех областях теоретических исследований.

Объектом многомерного статистического анализа являются процессы, протекающие в рассматриваемой области исследования, характеризующиеся многомерными случайными векторами.

Предметом многомерного статистического анализа являются существенные характеристики, объективно существующие закономерности в структуре данных и тенденциях развития изучаемых явлений и процессов, выраженные взаимосвязями между компонентами описывающих их случайных векторов.

К основным задачам многомерного статистического анализа относятся:

1. статистическое оценивание параметров распределения многомерных случайных векторов;

2. проверка статистических гипотез о параметрах распределения многомерных случайных векторов;

3. исследование связи между компонентами случайного вектора признаков;

4. классификация объектов, характеризующихся случайным вектором признаков;

5. снижение размерности признакового пространства.

Многомерные статистические методы требуют обработки большого объема информации, что практически невозможно сделать без использования специализированного программного обеспечения. Статистические пакеты, такие как Statistica, Stata, SPSS, EViews, SAS, STATGRAPHICS, Stadia и др. позволяют с минимальными затратами времени реализовать широкий спектр различных методов, а также представить результаты анализа в удобном для восприятия виде. Однако использование пакетов прикладных программ не является достаточным условием успешного исследования, необходимо суметь сформулировать задачу, выбрать подходящий инструментарий её решения и грамотно интерпретировать полученные результаты.

 

1.2 Типы случайных величин и шкалы их измерения

 

Математико-статистические методы обработки и анализа данных широко применяют для решения практических задач, основанных на обработке значительных объемов экспериментальных данных, измерений, наблюдений. Во многих случаях цель исследования заключается в выявлении закономерностей, тенденций, неоднородности некоторого исходного множества объектов, явлений, процессов. Однако прежде чем говорить о закономерностях, присущих процессам и явлениям, о взаимосвязи характеризующих их признаков, необходимо данные признаки измерить. В некоторых случаях это может быть нетривиальной задачей: действительно, как измерить профессию, политические убеждения, степень доверия? Например, в демографии, социологии, психологии, медицине исследования выполняются с помощью различных анкет, тестов, баллов, данные которых отличаются от данных, измеренных с помощью весов, линейки, часов и т.д. Таким образом, статистические данные, получаемые при анализе различных явлений и процессов, могут выражаться как в числовой, так и в нечисловой форме [41]. Например, индивидуум кроме количественных признаков, таких как, возраст, рост, вес, среднемесячный доход, характеризуется следующими качественными признаками: пол, национальность, образование, профессия и др.

Выбор метода анализа данных определяется в первую очередь природой статистических данных. Необходимо выяснить к какому типу случайных величин относятся рассматриваемые признаки. Общая схема классификации типов случайных величин представлена на рисунке 1.1 [12].

Если в качестве результата эксперимента регистрируется одно значение, то соответствующую случайную величину называют одномерной или скалярной. Если же результатом каждого эксперимента является регистрация целого набора характеристик, то говорят о многомерной случайной величине или векторной.

Одномерную случайную величину называют дискретной или непрерывной в зависимости от свойств закона распределения случайной величины.

 

Рисунок 1.1 – Общая схема классификации типов случайных величин

 

Количественная случайная величина позволяет измерить степень проявления анализируемого свойства обследуемого объекта в определенной количественной шкале. Например, среднедушевой доход семьи (в рублях), расстояние до ближайшего метро (в метрах), вес изделия (в граммах) и т.п.

Ординальная (порядковая) случайная величина позволяет лишь упорядочить рассматриваемые объекты по степени проявления в них анализируемого свойства. Исследователь использует ординальную случайную величины в ситуациях, когда шкала, в которой можно было бы количественно измерить свойство, не существует. Например, признак «качество продукции» может принимать одно из трех значение «1 сорт», «2 сорт», «3 сорт»; признак качество знаний – «отличное», «хорошее», «удовлетворительное», «неудовлетворительное». Значения порядковой случайной величины устанавливаются такими, чтобы по ним можно было упорядочить объекты: если обозначения цифровые, то устанавливается числовой порядок, если буквенные – то алфавитный, если обозначения выражены словами, то порядок соответствует смыслу слов.

Номинальная случайная величина позволяет разбивать обследуемые объекты на не поддающиеся упорядочению однородные по анализируемому свойству классы. Например, признак «пол человека» может принимать значение «мужчина», «женщина»; признак «профессия» может принимать значения «инженер», «врач», «экономист», «педагог» и др. Раса, национальность, цвет глаз, волос – номинальные признаки.

Если классы и правила отнесения к ним объекта описаны заранее, то такая случайная величина называется категоризованной. Например, при классификации людей по полу признак класса и правила отнесения объекта к заданному классу являются вполне существенными. Если классификацию объектов по значению случайной величины произвести невозможно, то такая случайная величина называется некатегоризованной (например, анкетные данные – имя, фамилия, место рождения).

Иногда одна и та же переменная может использоваться в разных качествах. Например, имена опрашиваемых лиц относятся к некатегоризованной номинальной переменной. Но если имена упорядочить в алфавитном порядке, то они будут отнесены к порядковым переменным.

Измерение показателей может производиться в шкалах различных типов. Внимание ученых к шкалам измерения проявилось в первой половине XX века. Сначала теория измерений развивалась как теория психофизических измерений. Во второй половине XX века сфера применения теории измерений стремительно расширяется, распространяясь сначала на психологию в целом. Затем ее стали применять в педагогической квалиметрии, в системных исследованиях, в различных задачах теории экспертных оценок, для агрегирования показателей качества продукции, в социологических исследованиях и др.

Для каждого показателя необходимо установить тип шкалы измерения, который определяет группу допустимых преобразований, т.е. таких преобразований шкалы, которые не меняют соотношение между объектами измерения. Например, при измерении длины переход от аршинов к метрам не меняет интересующих исследователя соотношений между длинами рассматриваемых объектов, несмотря на то, что численное значение длины в аршинах отличается от численного значения длины в метрах.

Классификация типов шкал измерения представлена на рисунке 1.2. Можно заметить, что выбор типа шкалы измерения зависит от типа рассматриваемого признака. Все шкалы измерения делят на две группы – шкалы качественных и количественных признаков. Порядковая шкала и шкала наименований или номинальная шкала – это основные шкалы измерения качественных признаков [48].

 

Рисунок 1.2 – Классификация типов шкал измерения

Номинальная шкала предназначена для измерения номинальных случайных величин. В этой шкале допустимыми являются все взаимно-однозначные преобразования. Например, наименования «мужской», «женский» можно заменить цифровыми обозначениями «1», «2». Числа здесь используются лишь как метки. Никаких содержательных соотношений, кроме =, , между значениями в номинальной шкале нет, т.е. арифметические операции в этой шкале лишены смысла. В номинальной шкале измерены, например, номера телефонов, автомашин, паспортов, страховых свидетельств. Никому не придет в голову складывать или умножать номера телефонов, такие операции не имеют смысла. Единственно, для чего годятся измерения в номинальной шкале – это различать объекты. Медиана и среднее арифметическое не могут использоваться в качестве меры центров распределения номинальных случайных величин. Подходящей статистикой положения центра является мода. Например, если мужчин больше, чем женщин, то мода описывает класс мужчин.

В порядковой шкале числа используются не только для различения объектов, но и для установления порядка между ними. Арифметические операции для этой шкалы не имеют смысла. Пригодны только операции сравнения (=, , >, <, , ). Допустимыми являются строго возрастающие преобразования. В качестве меры положения центра распределения используется мода и медиана. Оценки экспертов часто следует считать измеренными в порядковой шкале. Типичным примером являются задачи ранжирования и классификации промышленных объектов, подлежащих экологическому страхованию. Мнения экспертов естественно выражать именно в порядковой шкале поскольку, как показали многочисленные опыты, человек более правильно и с меньшими затруднениями отвечает на вопросы качественного, например, сравнительного, характера, чем количественного.

В различных областях человеческой деятельности применяется много видов порядковых шкал. В минералогии используется шкала Мооса, по которому минералы классифицируются согласно критерию твердости. А именно: тальк имеет балл 1, гипс – 2, кальций – 3, …, алмаз – 10. Минерал с большим номером является более твердым, чем минерал с меньшим номером. В географии общепринятыми являются шкала Бофорта («штиль», «слабый ветер», «умеренный ветер» и т.д.), шкала силы землетрясений. Много шкал используется в медицине (категории инвалидности), в квалиметрии, при оценке экологических воздействий.

Количественная шкала устанавливает не только отношения порядка, но и длину интервалов между градациями. По значениям признака, измеренного в количественной шкале, можно установить не только для какого объекта рассматриваемое свойство проявляется сильнее, но и указать насколько сильнее. Среди шкал количественных признаков выделяют шкалы интервалов, отношений, разностей, абсолютную шкалу.

Каждому типу случайных величин соответствуют свои методы исследования. Анализ номинальных и порядковых случайных величин осуществляется непараметрическими методами статистики. Выбор параметрического или непараметрического метода анализа количественных случайных величин зависит от их закона распределения.

 

1.3 Многомерная генеральная совокупность и ее закон распределения

 

В многомерном статистическом анализе объекты – генеральные совокупности – характеризуются рядом признаков . Случайный вектор может быть дискретным, непрерывным и смешанным.

Как известно из теории вероятностей, для полного описания случайного вектора необходимо знать его закон распределения. Универсальной формой задания закона распределения является функция распределения. Функцией распределения случайного вектора называется неслучайная функция

 

, (1.1)

 

где – вектор возможных значений компонент , .

Если функция распределения случайного вектора может быть задана в виде:

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.