Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Обработка данных при наличии эталонных объектов






В настоящее время имеется большое число алгоритмов обработки комплекса признаков с предварительным обучением на эталонных объектах и оценкой их качества на контрольных объектах. В зависимости от применяемого математического аппарата алгоритмы распознавания можно разделить на три группы:

Ø использующие средства математической логики с расчетом либо суммарной информативности признаков, либо с нахождением «обобщенного» расстояния;

Ø основанные на методах регрессионного анализа;

Ø базирующиеся на проверке статистических гипотез.

Логические алгоритмы.

Суть этих алгоритмов состоит в установлении меры сходства (меры аналогии) исследуемых объектов с эталонными по величине суммарной информативности ИСП. Одним из первых в разведочной геофизике был предложен (Ш.А.Губерман) алгоритм «Кора-3», с помощью которого решается задача выделения нефтегазоносных пластов по комплексу промыслово-геофизических данных. Кодирование признаков чаще всего осуществляется в двоичной системе, и объект задается набором признаков x, где xlk=0, если k-й объект не обладает l-м признаком, и xlk=1, если k-й объект обладает l-м признаком. Все эталонные и исследуемые объекты характеризуются единым набором признаков и единым порядком их расположения. Этап обучения сводится к перебору всех возможных сочетаний признаков по три для каждого класса. Если появилось сочетание признаков, которое не менее p раз встречается среди эталонов первого класса и ни разу не встречается среди эталонов других классов, такое сочетание выделяется как сложный признак первого класса. Пороговое значение p задается эмпирически. Если один из двух сложных признаков характеризует большее число эталонных объектов, то он будет информативнее другого. На следующем этапе осуществляется распознавание исследуемых объектов. При этом проверяется, сколько сложных признаков первого класса встретилось в искомом объекте. Если сложных признаков первого класса больше, чем сложных признаков других классов, объект относится к первому классу. С увеличением мощности и памяти современных ЭВМ указанный алгоритм позволит осуществлять перебор сочетаний признаков по любому их числу и не ограничивается кодированием признака двумя состояниями.

Другим распространенным алгоритмом является алгоритм тупиковых тестов (А.Н. Дмитриев, Ю.И. Журавлев), основанный на поиске матрицы Т, содержащей описание объектов обучения (объекты, как правило, кодируются в двоичной системе) специальных подмножеств- так называемых тупиковых тестов. Подмножество столбцов (i1, i2,..., il) матрицы Т называется тестом, если после удаления из Т всех столбцов получается матрица, все строки которой различны. Тест называется тупиковым, если после исключения любого столбца он перестает быть тестом.

Достаточно широкое применение получили алгоритмы распознавания, основанные на построении потенциальной функции, выражаемой через обобщенное расстояние для изучаемых признаков в L-мерном пространстве.

По алгоритму «Потенциал-2» с целью оценки качества обработки на самих объектах обучения предусмотрена процедура поочередного исключения объектов из обучающей выборки и их контроль на основе остающихся классов. Число ε ошибочно распознаваемых объектов обучения при этом служит одним из показателей эффективности распознования. Для выделения ИСП указанная процедура повторяется. Вначале при поочередном исключении признаков из их совокупности признак, исключение которого обусловило наименьшее ε, выбрасывают из совокупности как «наихудший».

Таким же путем проводится отбраковка «наихудшего» признака в остающихся совокупностях.

Детерминисткий алгоритм Н.Г. Естафьева устанавливает квазифункциональную зависимость между многомерным свойством признакового пространства (мерой сходства) и целевым свойством, т.е. числом классов. Алгоритм включает анализ качества признакового прстранства на эталонных объектах и отбраковку на этой основе не только отдельных объектов, но и целых классов. Материал обучения считается оптимальным при разбиении объектов на максимально возможное число классов, пересекаемость которых (по гистограммам признаков) не превосходит допустимую величину ε пор, и минимальной мощности признакового пространства. Сначала с учетом ограничения ε < ε пор добиваются выполнения первого условия оптимальности – разбиения материалов обучения на максимальное число классов. Затем, сохраняя полученное разбиение на максимальное число классов и ограничение, добиваются выполнения второго условия оптимальности – минимальной мощности признакового пространства. В детерминистком алгоритме каждой точке признакового пространства, описывающего материал обучения, должен соответствовать один единственный класс, если это не так – происходит пересекаемость классов и ε не равно 0. Поэтому из совокупности классов, соответствующих одной и той же точке в пространстве L признаков, необходимо выбрать единственный класс, который считается «истинным», а остальные – «ложные».

Алгоритмы регрессионного анализа.

Эти алгоритмы впервые были использованы для решения задач промысловой геофизики (М.М. Элланский) и количественной интерпретации гравимагнитных данных (Г.И. Каратаев). Суть этих алгоритмов состоит в построении регрессионной зависимости между искомым параметром и признаками физических полей, например между пористостью пласта, определяющей его коллекторские свойства, с одной стороны, и данными измерений КС, ПС, ГК и т.д. – с другой.

Обычно при построении регрессионной зависимости для данных на эталонных объектах ограничиваются заданием полиномов второй степени, в которые признаки xl входят в качестве линейных и квадратичных членов, а также в виде произведений. Например, для случая двух признаков l=1, 2 k-го класса имеем: yk=akx1k+bkx2k+ckx1kx2k+dkx1k2+gkx2k2.

Постоянные коэффициенты в уравнении регрессии находят методом наименьших квадратов с учетом данных обучения на эталонных объектах разных классов, где известны значения искомого геологического параметра yk и проведены измерения признаков x1 и x2. В случае определения природы объекта с помощью уравнения регрессии на эталонах разных классов находят пороговые значения для yk. Подставляя в найденное уравнение регрессии показания признаков для объекта с неизвестным значением (или с неизвестной геологической природой) геологического параметра, устанавливают величину этого параметра (или природу объекта). Информативность признаков и их сочетаний оценивают по значениям постоянных коэффициентов регрессии.

Алгоритмы регрессионного анализа (РЕГР) удобны для использования комплекса данных, поскольку подключение новых признаков означает лишь дополнение новыми членами соответствующих уравнений регрессии. Они эффективны при построении математических моделей геологических параметров по геофизическим признакам (например, при построении петрофизических моделей).

Алгоритм РЕГР предусматривает пошаговое построение регрессии

y=f(x1,......, xL). Целесообразность включения в полином нового члена оценивается на основе дисперсионного анализа. Вид полинома и число членов устанавливаются в результате анализа.

Особенность алгоритмов регрессионного анализа состоит в том, что при обработке одной и той же выборки можно получить несколько видов уравнений, практически не различающихся по заданной ошибке прогноза. Это обстоятельство особенно сильно проявляется при наличии взаимно коррелируемых признаков. Поэтому коэффициентам уравнения регрессии обычно нельзя придать определенный физический смысл, а уравнения в целом – найти соответствующую физическую модель. Физическая интерпретация оказывается возможной лишь тогда, когда форма уравнения предопределена заданной моделью, а в результате процедуры построения уравнения регрессии определяются лишь его коэффициенты.

Алгоритмы по проверке статистических гипотез.

Эти алгоритмы базируются на применении критериев принятия статистических решений, в частности критериев максимального правдоподобия и максимума апостериорной вероятности. Для их использования строятся оценки плотностей распределения значений признаков (гистограмм) и корреляционных матриц по эталонным объектам разных классов.

Рассмотрим алгоритм обработки для случая двух классов, который соответствует сравнению двух гипотез Н1и Н2 на основе вычисления коэффициента правдоподобия. Для независимых признаков коэффициент правдоподобия равен отношению функций правдоподобия Р (xl./Нk), вычисляемых для каждого l-го признака и по каждому k-му классу:

Δ (Х) = (Р (х1/Н1) Р (х2/Н1).......Р (хL/Н1))/(Р (х1/Н2) Р (х2/Н2)......Р(хL/Н2))

Значения частных коэффициентов правдоподобия Δ (хl)=Р (хl/Н1)/Р (хl/Н2) характеризуют относительный вклад каждого признака в общую величину

Δ (Х). Эти значения можно рассматривать как количественную оценку информативности признаков.

Распознование исследуемых объектов сводится к нахождению в i-ой точке (ячейке) значений Р (хli /Н1) и Р (хli /Н2), которые снимаются с гистограмм, полученных на эталонных объектах. После этого рассчитываются величины коэффициента правдоподобия. Следует отметить, что ограничения на законы распределения признаков при этом отсутствуют. Решение о принадлежности i-го искомого объекта к классу Н1 принимается согласно критерию максимального правдоподобия при Δ (Хi)> 1. Если < 1, справедлива гипотеза Н2, т.е. объект принадлежит ко второму классу.

На основании формулы Байеса по коэффициенту правдоподобия находится апостериорная вероятность гипотезы Н1:

р (Н1/Хi)= ((р1/р2)Δ (Хi))/((р1/р2)Δ (Хi)+1), где р1 и р2 – априорные вероятности появления объектов соответственно классов Н1 и Н2. Приняв р1=р2, получаем правило для решения апостериорной вероятности в виде

р(Н1/Хi)> 0.5, т.е. справедлива гипотеза Н1. Если < 0.5 – справедлива гипотеза Н2.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.