Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Технологии искусственного интеллекта. Классификация образов в рамках статистического подхода. Байесовский подход к распознаванию образов






 

В статистическом подходе, напротив, полагается, что объект может принадлежать любому из классов, но с некоторой вероятностью. Сами же образы рассматриваются как отсчеты некоторого случайного вектора x =(x 1, …, xN), принимающего значения из множества всех возможных образов Χ и характеризующегося плотностью распределения вероятностей p (x). Статистический подход также позволяет определять вероятность ошибочной классификации, с помощью которой и оценивается качество классификации.

Со статистической точки зрения оптимальному качеству классификации соответствует байесовский классификатор. Запишем правило Байеса для данной задачи:

.

Здесь A ={ a 1, …, ad } – множество классов (также называемое алфавитом классов), – апостериорная вероятность класса ai, то есть вероятность того, что наблюдаемый образ x принадлежит классу ai. Вероятность P (ai) – это априорная вероятность получения образа, принадлежащего классу ai, а p (x | ai) – плотность распределения вероятностей образов класса ai или правдоподобие того, что из класса ai будет выбран образ x.

Рассмотрим простой пример байесовской классификации в одномерном пространстве признаков. Пусть для каждого из двух классов a 1 и a 2 есть возможность вычислить их апостериорные вероятности для каждого образа . И пусть все образы, для которых значение признака меньше некоторого порога x < x 0, относятся к классу a 1, а образы со значением признака x > x 0 – к классу a 2. Тогда величина P 1 (площадь под соответствующим графиком) характеризует вероятность ошибочного отнесения объекта второго класса к первому классу (или вероятность ложной тревоги, если класс a 1 отвечает понятию «цель»). Вероятность P 2 – это вероятность ошибочного отнесения объекта первого класса ко второму классу (вероятность пропуска цели).

 

Естественно, эти два события (пропуск цели и ложная тревога) могут быть неравнозначными. В связи с этим построение байесовского классификатора в общем случае означает минимизацию среднего риска, для чего привлекается матрица потерь R. Элементы матрицы потерь rij, означают потери, которые возникают при классификации объекта класса ai как объект класса aj. Если задана матрица потерь, то в байесовском классификаторе выбирается не класс, для которого максимальна апостериорная вероятность , а класс, для которого минимизируются ожидаемые потери. Для класса aj потери примут форму:

.

Задача классификации будет рассматриваться как поиск такого класса aiΑ, для которого максимальна апостериорная вероятность . При этом разделяющие поверхности задаются уравнениями .

Поскольку величина p(x) в правиле Байеса не влияет на выбор класса, ее обычно не рассматривают. При классификации считается, что априорные вероятности P (ai) известны, а значения правдоподобий p (x | ai) могут быть вычислены. Для этого они должны быть представлены в некотором удобном для вычисления виде. Одним из простейших способов, использующихся для построения байесовских классификаторов, является представление плотностей распределений условных вероятностей в виде нормального закона:

.

где – среднее, а – ковариационная матрица распределения p (x | ai), которые в задаче классификации считаются известными. Величина | Ci | обозначает определитель соответствующей матрицы.

Если плотности распределений действительно распределены по нормальному закону, то никакие поверхности другого вида не будут в среднем давать лучшего качества классификации. На самом деле, этот результат верен и для более общего случая: если плотности распределения p (x | a1) и p (x | a2) являются симметричными и монотонно убывающими от центра симметрии, то байесовская граница, разделяющая классы a 1 и a 2, является поверхностью не более чем второго порядка.

Коль скоро есть возможность вычислить плотности распределения вероятностей p (x | ai), и известны априорные вероятности P (ai), решить задачу классификации нового образа в рамках байесовского подхода не представляет сложности. Гораздо труднее является задача распознавания образов. В статистическом подходе эта задача сводится к оценке плотностей распределения условных вероятностей p (x | ai). Существуют параметрические и непараметрические методы оценивания плотностей распределения вероятностей по конечному набору испытаний.

Общий метод оценивания параметров основывается на правиле Байеса (или его упрощении – методе максимального правдоподобия), но примененном на этот раз к самим плотностям распределения вероятностей. В общем случае пришлось бы рассматривать плотность вероятностей как случайную функцию и искать наиболее вероятную ее реализацию. В задаче распознавания, однако, очень часто пользуются предположением о том, что векторы обучающей выборки, принадлежащие одному классу, статистически независимы и одинаково распределены. Тогда им соответствует единственная плотность распределения вероятностей p (x | w) (заданного вида, но с неизвестными параметрами w, которые требуется оценить. Естественно также считать, что плотности вероятностей, описывающие разные классы, независимы, и можно оценивать их параметры отдельно. Пусть x 1, …, xM – векторы обучающей выборки, принадлежащие одному классу, тогда согласно теореме Байеса величина

является апостериорной вероятностью для вектора w. Статистическая независимость xi влечет

,

а оптимальное значение вектора параметров будет определяться как

.

Удобнее работать не с самой вероятностью, а с ее логарифмом (являющимся оценкой количества информации):

.

Приравняв нулю частные производные количества информации, взятые по параметрам плотности распределения вероятностей, можно получить систему линейных уравнений.

Часто возможна такая ситуация, что никаких предположений о виде плотности распределения сделать нельзя. В этом случае используют непараметрические методы оценивания. Однако и в этих методах все же необходимо делать некоторые априорные допущения, такие, как, например, непрерывность или симметрия плотности распределения вероятностей. Один из широко распространенных подходов к непараметрическому оцениванию заключается в представлении неизвестной плотности в виде линейной комбинации плотностей известного (параметрического) вида – смеси. Мы рассмотрим конечные смеси, которые представляются в виде:

,

где m – число компонентов смеси. Чтобы подчеркнуть, что величины P (wi) являются численными коэффициентами, мы будем использовать обозначение Pi = P (wi). Поскольку они имеют смысл вероятностей, то для них должны выполняться ограничения 0≤ Pi ≤ 1, Pi +…+ Pm =1.

Таким образом, смесь представляет собой взвешенную сумму некоторого количества различных распределений. Обычно (но вовсе не обязательно) распределения принадлежат одному и тому же параметрическому семейству и различаются лишь значениями параметров. Поскольку нас интересует оценивание плотностей распределения вероятностей, как векторы параметров m w 1, …, wm, так и коэффициенты Pi, …, Pm являются неизвестными. В связи с этим необходимо писать:

В общем случае неизвестным может быть и число компонентов смеси m.

В распознавании образов смеси актуальны еще и по следующей причине. Каждый класс ai имеет свою модель, выражающуюся через плотность вероятностей p (x | ai), а также вероятность P (ai) того, что произвольно взятый вектор будет принадлежать этому классу. Тогда верно

.

Таким образом, наличие нескольких классов, каждый из которых имеет собственную плотность вероятностей, естественным образом порождает смесь. В отличие от оценивания параметров распределения для каждого класса в отдельности, привлечение модели смеси для работы со всеми классами одновременно позволяет получать также величины Pi, которые в данном случае являются ни чем иным, как априорными вероятностями классов, используемых в байесовском классификаторе.

Одной из наиболее популярных смесей является смесь нормальных плотностей, получающаяся подстановкой нормального распределения в смесь вместо плотностей p (x | wi) с различными ковариационными матрицами и векторами средних. Эта смесь имеет тесную связь с методами, базирующимися на функциях расстояния. Каждый компонент смеси задает положение некоторого эталонного образа с локально оцененной метрикой. Однако проблема выбора количества эталонных образов (или компонентов смеси) остается и в чистом статистическом подходе.

В частном случае для аппроксимации плотности распределения элементов одного класса можно жестко задать параметры смеси следующим образом. Количество m компонентов смеси равно числу эталонных образов M. Ковариационные матрицы всех компонентов являются единичными матрицами. Вектор средних x 0 i i -го компонента смеси равен i -му образу обучающей выборки x 0 i = xi, а коэффициенты смеси Pi =1/ М. Иными словами, в каждую точку обучающей выборки «помещается» нормальное распределение с единичной ковариационной матрицей.

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.