Критерии информативности признаков

При решении задач распознавания основным критерием (в том числе и для оценки информативности признаков) является риск потерь. О нём подробнее мы будем говорить во втором разделе курса лекций. Здесь отметим лишь, что он основан на оценке вероятностей ошибок распознавания и их стоимости. Говорить об оценке вероятностей можно лишь в рамках статистического подхода, поэтому в данном разделе лучше применять критерий типа: доля контрольной (экзаменационной) выборки, распознанная неправильно. Мы уже упоминали о том, что объекты обучающей выборки не должны входить в контрольную выборку. В тех случаях, когда общая выборка невелика по объёму, деление её на две части весьма нежелательный шаг (ухудшится и качество обучения, и доверие к результатам контроля). Некоторые исследователи для компенсации этого недостатка применяют метод так называемого скользящего контроля. Он состоит в следующем. Все объекты, кроме одного, предъявляются в качестве обучающей выборки. Один объект, не участвовавший в обучении, предъявляется на контроль. Затем из общей выборки отбирается другой объект для контроля, по оставшейся части выборки осуществляется обучение. Такая процедура повторяется столько раз, сколько объектов в общей выборке. В таком случае вся выборка участвует и в обучении, и в контроле, но контрольные объекты не участвуют в обучении. Этот положительный эффект достигается ценой того, что обучение производится не один раз, как это было бы при наличии двух разных выборок (обучающей и контрольной) достаточно большого объёма, а столько раз, сколько объектов в общей выборке. Такой недостаток существенен, поскольку процедура обучения обычно достаточно сложна и её многократное повторение нежелательно. Если же данная процедура используется для отбора информативных признаков, то количество " обучений" нужно ещё умножить на количество сравниваемых между собой наборов признаков. Поэтому для оценки информативности признаков и решения иных задач часто используется не относительное число ошибок распознавания, а другие критерии, с ним связанные. В любом случае эти критерии выражают степень различимости объектов разных образов. Например, как это уже отмечалось при рассмотрении алгоритмов таксономии, отношение среднего расстояния между объектами разных образов к среднему расстоянию между объектами одного образа в ряде случаев оказывается весьма эффективным. Предлагается самостоятельно записать соответствующие вычислительные формулы, введя необходимые обозначения. При использовании подобных критериев контрольная выборка не нужна, но теряется взаимнооднозначная связь с количеством ошибок распознавания.

Ясно, что среднее расстояние между объектами разных классов получается усреднением расстояний между всеми возможными парами объектов, принадлежащих разным классам. Если число классов велико и каждый из них представлен значительным количеством объектов, то процедура усреднения оказывается громоздкой. В этом случае можно воспользоваться усреднением расстояний между эталонами разных классов, а внутри классов – усреднением расстояний от объектов до эталона данного класса.

Вполне понятно, что такое упрощение не всегда допустимо. Всё зависит от формы и взаимного расположения областей признакового пространства, в которых сосредоточены объекты разных классов.

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.