Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Порядок выполнения лабораторной работы с помощью надстройки AtteStat табличного процессора Microsoft Excel






 

Вид таблицы с исходными данными нулевого варианта в пакете Excel представлен на рисунке 4.104. В первых 25 строках введена статистическая информация по районам обучающих выборок, в следующих 10 строках – по районам, подлежащим классификации. В седьмом столбце (столбец G) указан номер класса (номер обучающей выборки).

Для реализации параметрического дискриминантного анализа c помощью надстройки AtteStat необходимо выбрать пункт основного меню AtteStat, подпункты Модуль PRT – Распознавание образов, Распознавание образов. Вид экрана представлен на рисунке 4.105.

 

Рисунок 4.104 – Исходные данные в пакете Excel

 

Рисунок 4.105 – Выбор пунктов меню в пакете Excel

 

Для реализации линейного дискриминантного анализа Фишера необходимо заполнить появившуюся на экране форму «Распознавание образов с обучением»: в поле «Интервал обучающей выборки» вводится диапазон статистических данных по районам, составляющим обучающие выборки; в поле «Интервал номеров классов или оценок» вводится диапазон ячеек, в которых введены номера классов; в поле «Интервал вывода результатов» указывается ячейка, с которой начнется вывод результатов. Вид заполненной формы представлен на рисунке 4.106.

 

Рисунок 4.106 – Образец заполнения формы «Распознавание образов с обучением» для реализации линейного дискриминантного анализа Фишера (страница «Обучение»)

 

С помощью кнопки Расчет в таблице с исходными данными появятся результаты линейного дискриминантного анализа Фишера, представленные на рисунке 4.107.

 

Рисунок 4.107 – Результаты реализации линейного дискриминантного анализа Фишера c помощью надстройки AtteStat пакета Excel

 

Таким образом, линейные дискриминантные функции Фишера имеют вид:

 

(4.13)

 

(4.14)

 

Для осуществления классификации районов на основе функций (4.13), (4.14) необходимо снова открыть форму «Распознавание образов с обучением» и выбрать страницу «Распознавание (Фишер)». В поле «Объект» вводится диапазон ячеек со статистическими данными, характеризующими район, которых подлежит классификации, например, Абдулинский; в поле «Простые классифицирующие функции» вводится диапазон ячеек с коэффициентами дискриминантных функций Фишера. Заполненная форма приведена на рисунке 4.108.

 

Рисунок 4.108 – Образец заполнения формы «Распознавание образов с обучением» (страница «Распознавание (Фишер)»)

 

После нажатия кнопки Расчет на экране появится форма с результатом классификации Абдулинского района, представленная на рисунке 4.109.

 

Рисунок 4.109 – Результат классификации Абдулинского района

 

Таким образом, Абдулинский район с вероятностью 0, 72 следует отнести ко второму классу. Аналогичным образом осуществляется классификация остальных девяти районов Оренбургской области. Результаты удобно свести в таблицу 4.10.

 

Таблица 4.10 – Результаты классификации районов с помощью линейных дискриминантных функций Фишера c помощью надстройки AtteStat пакета Excel

Номер района Наименование района Номер класса Вероятность
  Абдулинский   0, 72
  Асекеевский   0, 89
  Бугурусланский   0, 77
  Грачевский   0, 58
  Илекский   0, 78
  Курманаевский   0, 80
  Октябрьский   0, 99
  Оренбургский   1, 00
  Первомайский   0, 96
  Северный   0, 86

 

Отличие в результатах классификации Грачевского района можно объяснить некоторым различием в коэффициентах дискриминантных функций (4.11), (4.12) и (4.13), (4.14).

Реализованный линейный дискриминантный анализ Фишера основан на предположении нормального закона распределения классов с равными ковариационными матрицами. При необоснованном объявлении ковариационных матриц статистически неразличимыми в результате реализации линейного дискриминантного анализа Фишера могут оказаться отброшенными важные индивидуальные черты, имеющие большое значение для хорошей дискриминации. В этом случае в надстройке AtteStat табличного редактора Excel реализован линейный дискриминантный анализ, в основе которого лежит правило классификации (4.4) применительно к нормально распределенным классам. При этом необходимо проверить, чтобы число объектов в каждой обучающей выборке было хотя бы на 2 единицы больше чем число признаков.

Для реализации линейного дискриминантного анализа необходимо в форме «Распознавание образов с обучением» выбрать «Линейный дискриминантный анализ». Поля «Интервал обучающей выборки», «Интервал номеров классов или оценок», «Интервал вывода результатов» заполняются аналогично тому, как описано выше. Вид заполненной формы представлен на рисунке 4.110.

 

Рисунок 4.110 – Образец заполнения формы «Распознавание образов с обучением» для реализации линейного дискриминантного анализа (страница «Обучение»)

 

С помощью кнопки Расчет в таблице с исходными данными появятся результаты линейного дискриминантного анализа, представленные на рисунке 4.111.

 

Рисунок 4.111 – Результаты реализации линейного дискриминантного анализа c помощью надстройки AtteStat пакета Excel

 

С помощью надстройки AtteStat на основе обучающих выборок рассчитаны оценки параметров нормально распределенных классов - оценки ковариационных матриц и векторов математических ожиданий, а также корни квадратные из определителей оценок ковариационных матриц. Эти результаты будут использованы программой для осуществления классификации районов на основе правила (4.4). Для этого необходимо снова открыть форму «Распознавание образов с обучением» и выбрать страницу «Распознавание (лин.)». В поле «Объект» вводится диапазон ячеек со статистическими данными, характеризующими район, которых подлежит классификации, например, Асекеевский; в поле «Ковариационные матрицы» вводится диапазон ячеек с элементами ковариационных матриц; в поле «Массив средних» вводится диапазон ячеек, содержащих средние арифметические значения признаков в классах; в поле «Корни определителей» вводится диапазон ячеек со значениями корней квадратных из определителей оценок ковариационных матриц. Заполненная форма приведена на рисунке 4.112.

Рисунок 4.112 – Образец заполнения формы «Распознавание образов с обучением» (страница «Распознавание (лин.)»)

 

После нажатия кнопки Расчет на экране появится форма с результатом классификации Асекеевского района, представленная на рисунке 4.113.

 

Рисунок 4.113 – Результат классификации Асекеевского района

 

Таким образом, Асекеевский район с вероятностью 1 следует отнести ко второму классу. Аналогичным образом осуществляется классификация остальных девяти районов Оренбургской области. Результаты классификации сведены в таблицу 4.11.

 

Таблица 4.11 – Результаты классификации районов с помощью линейных дискриминантных функций c помощью надстройки AtteStat табличного редактора Excel

Номер класса Районы
Первый класс Грачевский, Илекский, Октябрьский, Первомайский, Северный
Второй класс Абдулинский, Асекеевский, Бугурусланский, Курманаевский, Оренбургский

 

В результатах классификации, полученных с помощью двух методов, имеются заметные различия. В первом методе (линейный дискриминантный анализ Фишера) предполагается равенство ковариационных матриц двух классов, во втором методе такого предположения не делается. Полученные различия в результатах классификации свидетельствуют о необоснованности предположения равенства ковариационных матриц двух классов, на что указывают также оценки ковариационных матриц, рассчитанные c помощью надстройки AtteStat пакета Excel (рисунок 4.111):

 

;

 

.

 

Вопросы к защите лабораторной работы

 

1. Сформулируйте постановку задачи лабораторной работы

2. Каким методом классификации решалась задача, чем обусловлен выбор этого метода и в чём его суть?

3. Какое программное обеспечение использовалось для решения задачи и какие правила классификации реализованы в каждом из инструментальных средств?

4. Объясните, зачем нужны в лабораторной работе обучающие выборки. Можно ли при реализации дискриминантного анализа обойтись без них?

5. Какому условию должно удовлетворять количество объектов в обучающей выборке для реализации линейного дискриминантного анализа?

6. На основе какой информации можно дать характеристику классам?

7. Объясните, каким образом проводить классификацию объектов на основе результатов, выдаваемых пакетом Statistica в форме таблиц, представленных на рисунках 4.90, 4.91?

8. Запишите формулу для расчета квадрата расстояния Махаланобиса от объекта до центра каждого из классов в лабораторной работе

9. Осуществите классификацию района

10. В каком случае качество распознавания объектов будет меньше 100%?

11. Продемонстрируйте, каким образом изменятся алгоритм работы с пакетами, выдаваемые результаты и их интерпретация в следующих случаях:

1. уменьшилось количество объектов в первой обучающей выборке на один район;

2. количество признаков сократилось до первых трех;

3. увеличилось количество обучающих выборок на одну.

4. Есть ли различия в результатах классификации районов при различных допущениях о характере распределения классов? На что это указывает?

 


5 Методы снижения размерности признакового пространства

5.1 Метод главных компонент

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.