Оценка информативности геологических признаков

⇐ ПредыдущаяСтр 9 из 10Следующая ⇒

При решении задач распознавания образов часто возникает проблема сокращения размерности признакового пространства, путем исключения наименее информативных признаков. Сокращение числа признаков не только упрощает используемые алгоритмы распознавания, но и способствует улучшению качества классификации объектов, удаляя случайные помехи («шумы»), искажающие и затушевывающие полезную информацию. Оценка информативности признаков полезна, поскольку она способствует выявлению рудоформирующих факторов и их ранжированию по степени значимости.

Строгих математических методов оценок оптимальных мер относительной информативности признаков пока что не разработано. С этой целью в геологической практике используются различные эвристические, детерминистские и статистические подходы, обеспечивающие формирование признакового пространства меньшей размерности по отношению к исходному. Формирование пространства меньшей размерности достигается либо путем отбора из т исходных признаков некоторого (меньшего) числа наиболее информативных признаков, либо конструированием новой системы признаков с определенными свойствами, либо одновременно двумя упомянутыми методами. Сложность решения этой задачи связана с тем, что оценка индивидуальной информативности любого признака в отдельности от других признаков часто не обеспечивает достоверных результатов, вследствие наличия статистических связей между ними. Даже относительно независимые признаки, весьма информативные по результатам индивидуальных оценок, могут обеспечить в совокупности с другими признаками лишь весьма незначительную дополнительную информацию и, наоборот, относительно малоинформативные признаки могут значительно увеличивать суммарную информативность системы признаков.

К числу эвристических методов оценки информативности и ранжирования признаков относятся сбор и обработка сведений об изучаемых объектах, получаемых в результате опроса экспертов—специалистов. Поскольку мнения специалистов об информативности конкретных признаков, как правило, расходятся—результаты опроса подвергаются систематизации и математической обработке методами ранговой корреляции или дифференциального ранжирования. Использование информации, обобщающей коллективный опыт специалистов повышает достоверность исходных данных.

Детерминистские и статистические методы оценки информативности признаков основаны на их ранжировании по данным выборки обучения, т. е. по фактическим данным, характеризующим изучаемые классы объектов.

Ранжирование признаков по выборке обучения можно проводить в предположении их статистической независимости либо в предположении о наличии взаимозависимости между ними.

При детерминированном подходе информативность независимого признака определяется тем, насколько сильно отличаются его значения в разных распознаваемых классах. Так. например, при использовании алгоритмов «Тупиковые тесты» информационный вес признака г определяется числом R_r = M_ri\1 (где М —общее число всех тупиковых тестов. М_г число тех тупиковых гестов, в которые входит столбец с номером г).

Статистический подход к оценке информативности независимых признаков опирается на разность или отношение вероятностей признака в разных классах. Так, например, информативность признака оценивается по нормированной разности средних его арифметических значений в выборках обоих классов: J=(x_l—x₂)²fS² (где S²- средневзвешенное стандартное отклонение по обеим выборкам).

Для целей ранжирования условно независимых признаков по их информативности могут быть использованы и оценки парных коэффициентов корреляции их значений в выборках обоих классов.

В практических задачах при ограниченном числе признаков требуется оценка информативности не каждого признака, а их сочетаний. Для сочетаний независимых признаков их информативность может быть определена суммированием информативностей отдельных признаков, выраженных в долях единицы. Однако при решении большинства геологических задач условие взаимозависимости признаков не соблюдается, вследствие такой способ неправомерен.

Для оценок информативности и ранжирования взаимозависимых признаков разработаны специфические методы выделения их наиболее информативных сочетаний, однако многие из них малоэффективны, из-за необходимости перебора огромного числа комбинаций. В практике решения задач по распознаванию образов для оценок информативности признаков и их ранжирования используются методы дискриминантного анализа и метод главных компонент.

35. Дискриминантный анализ – возможности использования в геологии

Дискриминантный анализ является статистическим средством разделения (дискриминации) многомерных нормально распределенных совокупностей на группы таким образом, чтобы была достигнута максимальная однородность внутри групп и минимальная между ними. В основе разделения на группы лежит нахождение дискриминантной функции по эталонным выборкам и расчет порогового значения. При построении дискриминантной функции используется небольшое количество (5-7) информативных признаков которые имеют существенные различия значений в двух эталонных объектах. Далее, используя полученную дискриминантную функцию и пороговое значение, производится процедура отнесения любой исследуемой точки наблюдения к какому-либо из двух разных эталонных объектов (например, рудовмещающим или безрудным метасоматитам).

36. Факторный анализ – сущность метода

Факторный анализ приспособлен для исследования сложных природных систем, формирующихся под воздействием и влиянием разнообразных факторов. Предпосылкой метода служит представление о том, что корреляция между признаками, характеризующими природную систему, является следствием их линейной зависимости от определенного числа неизвестных «простых» характеристик, не коррелированных между собой. Эти простые характеристики можно считать «причинами», а наблюдаемые характеристики (показатели) – «следствиями». Суть анализа сводится к поиску этих независимых (ортогональных) показателей, которые носят название главных компонент или факторов.

Результаты факторного анализа приводятся в виде таблицы - матрицы факторных нагрузок. Факторные нагрузки отражают силу влияния фактора на изменения каждого признака; по нему определяется принадлежность этого признака к соответствующей совокупности. По максимальным (значимым) факторным нагрузкам выделяют группу взаимосвязанных признаков. Для каждого фактора рассчитывается также его вес в % или долях единицы. Порядок выделения факторов соответствует убыванию их веса. Первый фактор всегда основной, он ответственен за формирование наиболее тесных связей между самой многочисленной совокупностью показателей. Достоинством факторного анализа является возможность выявления связи одного и того признака одновременно с двумя факторами.

Конкретное использование факторного анализа требует построение модели интерпретации его результатов. Эта интерпретация должна отвечать цели исследования.

С помощью факторного анализа можно группировать точки наблюдения в пространстве двух главных факторов. Процедура факторного анализа позволяет не только выявлять совокупности признаков по их взаимосвязям с факторами, но и рассчитывать значения каждого фактора в конкретной точке наблюдения. Эти значения можно картировать для выявления зональности, аномалий, возникающих под влиянием определенных факторов, которые можно интерпретировать как геологические причины (например, седиментогенез, гидротермальный процесс, метаморфизм и т.п.).

⇐ Предыдущая 1 2 3 4 5 6 7 8910 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.