Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






И проблематика нормировки значений признаков






При написании этого раздела автором использовались, главным образом, широко известная работа Супеса и Зинеса (1967), а также монографии Афанасьева и Красавчикова (1986) и Манделя (1988).

6.1. Основные типы шкал

Если отношения определены на парах объектов, то признаком называют обычно некоторое свойство, измеренное на каждом объекте.

Очень часто отношения существуют, но измеримые признаки им не отвечают. Таково отношение толерантности, о котором говорилось в разделе 5.2: ему нельзя поставить в соответствие признак, определенный на каждом объекте.

Рассмотрим способы измерения признаков. Обычно под процедурой измерения какого-либо свойства подразумевается приписывание некоторых числовых значений отдельным уровням этого свойства в определенных единицах. При этом важно знать, в какой мере условность в выборе единиц измерения повлияет на значение показателя. Например, если толщину горизонта в скважине измерить сначала в метрах, а потом – в километрах, то изменится лишь число единиц измерения, но суть показателя останется прежней. Здесь, таким образом, допустимо произвольно делить или умножать значения признака на константу, т. е. задавать масштаб. В то же время, толщина не может быть нулевой или отрицательной.

Признакам можно присвоить тип в соответствии с множеством допустимых преобразований f(x) их значений. Разные типы признаков имеют разные множество допустимых преобразований, которые и определяют тип шкалы. Наиболее распространенные типы шкал и их допустимые преобразования (в соответствии с работой Супеса и Зинеса (1967)) приведены в табл. 6.1. В столбце 4 табл. 6.1 приведены примеры конкретных признаков, замеренных в соответствующих шкалах..

Для номинальной шкалы f(x) означает, что разные классы мы можем называть как угодно «нефть газ – уголь», А – В – С – D, 0 1 и т. д., но не сравнивать их по величине признака. Единственное, что запрещено, так это коллизия имён, когда двум различным объектам в процессе преобразования присваиваются одинаковые имена (этот запрет вытекает из требования взаимной однозначности допустимого преобразования).

Прежде чем перейти к рассмотрению ранговых шкал, напомним, что:

- монотонно убывающим называется отображение, заданное на линейно упорядоченном множестве V, для которого при любых a, b из V отношение a< b влечёт f(a)> f(b);

- монотонно невозрастающим называется отображение, заданное на (нестрого) линейно упорядоченном множестве V, для которого при любых a, b из V отношение a≤ b влечёт f(a)≥ f(b);

- монотонно возрастающим называется отображение, заданное на линейно упорядоченном множестве V, для которого при любых a, b из V отношение a< b влечёт f(a)< f(b);

- монотонно неубывающим называется отображениезаданное на (нестрого) линейно упорядоченном множестве V, для которого при любых a, b из V отношение a≤ b влечёт f(a) ≤ f(b). Таким образом, допустимыми преобразованиями ранговых шкал (см. табл. 6.1) являются отображения, сохраняющие порядок.

Балльные шкалы используются при математическом моделировании объектов в нефтегазоносных бассейнах сравнительно редко, в основном, при экспертном оценивании малоизученных территорий и горизонтов. За пределами науки к числу наиболее известных их применений относится балльное оценивание выступлений спортсменов – типичный пример экспертного оценивания.

При измерении глубины залегания глубокопогруженных геологических поверхностей могут быть отрицательные, нулевые и положительные значения. Точку отсчёта можно изменять. При подсчёте пройденных бурением метров уместно использовать в качестве точки отсчёта пересечение ствола скважины с земной поверхностью, тогда как структурные карты строить в абсолютных отметках. Таким образом, в данном случае измерение производится в шкале интервалов.

Толщины горизонтов могут быть только положительными и у них есть единственная точка отсчёта – условная нулевая толщина, которая является, в данном случае, точной нижней границей множества значений измеряемого признака. Возможен выбор единицы измерения. В данном случае измерение производится в шкале отношений.

6.2. Меры близости и расстояния между объектами

по комплексу разнотипных признаков. Проблема нормировки

значений признаков.

Измерение близости объектов (либо расстояний между ними) по комплексу разнотипных признаков является одним из центральных вопросов анализа данных. Несмотря на кажущуюся простоту, задание такой меры, адекватно отражающей сходство между объектами, представляет собой проблему, для которой пока не найдено окончательного решения.

В некоторых важных случаях для реализации алгоритма обработки информации требуется вычислять меры близости между объектами. Такая ситуация, например, имеет место при реализации большинства алгоритмов одного из разделов анализа данных – кластер-анализа (группировании, таксономии). Здесь, чаще всего, признаки замерены в различных типах шкал, а если и в одной, то имеют несопоставимые значения и т.д.

Меры близости между объектами чаще всего используются на ранних стадиях процесса моделирования. Причём, объекты, близость между которыми оценивается, далеко не всегда подлежат мо-

делированию. Обычно, это более «простые» объекты, через которые характеризуется «сложный» геологический объект. Простые объекты в данном случае можно рассматривать как элементы системы, которой является сложный моделируемый объект.

Далеко не всегда имеет смысл вводить меры близости. Однако, в любом случае, вычисление мер близости между «простыми» объектами по комплексу признаков даёт полезную информацию, которая может быть учтена при создании моделей «сложных» геологических объектов в слоистой толще.

Воспользоваться стандартным эвклидовым расстоянием и т.п. для вычисления расстояния между объектами в случае разнотипных признаков нельзя, поскольку признаки измерены в разных единицах измерения. Требуется нормировка показателей, переводящая их в безразмерные величины, которая делает значения разных признаков сопоставимыми. Нормировка представляет собой переход к некоторому единообразному описанию для всех признаков, к введению новой условной единицы измерения, допускающей формальные сопоставления объектов по комплексу признаков. Единый подход к нормировке (представлению значений

признаков в сопоставимой форме) отсутствует. Однако, поскольку каждая нормировка является трансформацией множества значений признаков, при её выборе следует учитывать шкалу измерения признака. Пренебрежение этим требованием может привести к серьезным ошибкам при совместном анализе разнотипных (например, толщин и абсолютных отметок) и разномасштабных данных.

Для шкал отношений и интервалов приведем наиболее распространенные способы нормировки показателей (переход от исходных значений хк нормированным z):

zl=(x – xav) /σ,

z2 = x/xav,

z3=x/x',

z4=x/xmax,

z5=(x - xav)/(xmax - xmin),

z6==(x - xmin)/(xmax - xmin),

где xav, σ – соответственно среднее и среднее квадратическое отклонение х; х' – некоторое эталонное (нормативное) значение х; хmах, xmin – наибольшее и наименьшее значения х.

Легко видеть, что z1, z5, z6 определены для шкал интервалов, остальные способы – для шкал отношений. Наиболее «популярен» способ zl, именуемый в современной специальной литературе и статистических пакетах «стандартизацией» (см. [Боровиков В.П., Боровиков И.П., 1997]). Стандартизованная выборка имеет нулевое среднее и равное единице стандартное отклонение. Имеются и другие способы нормирования, но обычно они производны от перечисленных.

Основные трудности, возникающие при этом: неоднозначность выбора способа нормировки, как и выбора меры близости либо расстояния между объектами.

В литературе (см. [Мандель, 1988]) предлагается следующий простой эвристический критерий проверки нормировки на адекватность: имеет ли хоть какой-то содержательный смысл сложение безразмерных показателей на одном объекте для его сопоставления с другими? Если да, то надо использовать такую нормировку, где это сложение наиболее оправдано. Так, при контроле качества продукции часто используют отклонения от эталонов (z3), которые при небольших значениях имеет смысл складывать для нескольких параметров. Здесь измерение производится в нормативных значениях.

Он же отмечает, что в наиболее популярном случае стандартной нормировки z1 измерение производится в средне-квадратических отклонениях. Универсального объяснения этому нет. Часто такая нормировка (выравнивающая дисперсия всех признаков) как раз столь сильно искажает геометрию исходного пространства, что вышеупомянутый автор считает возможным рекомендовать воздерживаться от ее повсеместного применения.

Расстоянием (метрикой) между объектами a, b в пространстве параметров называется такая величина dab, которая удовлетворяет аксиомам:

A1. dab> 0 при a≠ b, daa=0;

А2. dab=dba;

A3. dab+dbcdac (неравенство треугольника).

Мерой близости (сходства) обычно называется величина mab, ограниченная сверху и снизу и возрастающая с возрастанием близости объектов. Существует много версий определения меры сходства, различающихся в деталях (порой существенных).

Существует возможность простого перехода от расстояний к мерам близости в смысле B1-B3: достаточно применить, например, преобразование

m=l/(l+ d).

Однако, переход от меры близости m к метрике d с помощью вышеприведённого соотношения, разрешённого относительно d, возможен далеко не всегда. Во первых, неясно как определить расстояние d, если m=0. Во вторых, даже если m(a, b)> 0 для любых a и b из области своего определения, то полученное «расстояние» d (a, b) может не удовлетворять аксиоме A3.

С точки зрения анализа данных одним из важнейших является вопрос: можно ли сконструировать такой показатель близости между объектами, который не зависел бы от единицы измерения переменных. Если такой показатель возможен, то его использование будет давать одинаковые результаты при любых допустимых преобразованиях шкал.

В подходе к определению мер сходства, предложенном Красавчиковым (1985) для случая, когда признаки, замеренные в шкале порядка, принимают значения на конечных множествах, а количественные признаки – на ограниченных, подобные показатели существуют.

Предположим, что

а) обработке подвергаются данные, зафиксированные признаками Xj, замеренными в одном из общераспространенных типов шкал – отношений, интервалов, порядка и наименований. При этом признаки, замеренные в шкалах отношений и интервалов, принимают значения на ограниченных множествах, и, значит, их множества значений D(Xj) имеют точную нижнюю границу Inf(j) и точную верхнюю границу Sup(j), не равные ± ¥. Предположим также, что Inf(j)< Sup(j).

б) если признак Xjзамерен в шкале порядка, то он принимает конечное множество значений α 1, …α p(j) и, тем самым, можно определить позиционное расстояние между значениями:

d ji, α k) = |i -k|/(p(j)-1)

В описываемой конструкции существенную роль играют меры близости μ j(α, β) между значениями признаков.

Для Xj, замеренного в шкале наименований, мерой близости между его значениями будем называть любую функцию вида: μ j(α, β) = 1 при α =β, и μ j(α, β) = λ j при α ≠ β, где 0≤ λ j < 1.

Для Xj, замеренного в шкале порядка, мерой близости между значениями назовем любую функцию µ(α i, α k) вида h (d ji, α k)), где h (x)– монотонно невозрастающая функция, заданная на отрезке [0, 1], не равная тождественно единице и такая, что h (0)=1.

Пусть D(Xj)=Dj – множество допустимых значений признака Xj, замеренного в шкале интервалов или отношений. Согласно сделанным предположениям, можно считать, что D(Xj) – подмножество отрезка [Inf(j), Sup(j)] конечной длины.

Определение 6.1. Пусть признак Xj замерен в шкале интервалов или отношений. Функция µj(α, β), заданная для любой пары элементов α, β множества Dj, называется мерой близости между значениями признака X j, если она удовлетворяет следующим условиям:

1) µj(α, β) ≥ 0 для любых α, β из Dj;

2) µj(α, β) ≤ 1 для любых α, β из Dj;

3) µj(α, β) = 1 при α =β;

4) µj(α, β) = µj(β, α) для любых α, β из Dj;

5) если α ≤ β ≤ γ, то min(µj(α, β), µj(β, γ)) ≥ µj(α, γ).
Пример 6.1. Положим δ j = l/(Sup(j) - Inf(j)).

а. Линейная мера близости

µj(α, β) = 1 - |α - β |δ j,

инвариантная относительно преобразований шкалы вида y=ax+b, где a > 0.

б. Относительная мера близости (в предположении, что Inf(j)> 0)

µj(α, β)=1- |α -β |/max(α, β)=min(α, β)/max(α, β).

Эта мера инвариантна относительно преобразований шкалы вида у=ах, а > 0.

в. Пороговая мера близости

µj(α, β) =1 при δ j |α -β |≤ ε j,

µj(α, β) =0 при δ j |α -β |> ε j,

где ε j> 0 – порог различимости значений признака Xj. Эта мера инвариантна относительно преобразований шкалы вида y=ax+b, где a > 0.

г. Относительно-пороговая мера близости (в предположении, что Inf(j)> 0)

µj(α, β)=1 при |α -β |/max(α, β) ≤ ε j,

µj(α, β)=0 при |α -β |/max(α, β) > ε j,

 

где ε j> 0 – порог значимости относительного отклонения. Эта мера инвариантна относительно преобразований шкалы вида у=ах, где а > 0.

Нетрудно проверить, что все вышеприведенные в примере 6.1 функции µjудовлетворяют условиям 1 – 5 определения 6.1.

Задание мер близости между значениями признаков, в свою очередь, позволяет определить меру близости между парой объектов S и R по совокупности признаков

Ω = {X1(S), …, Xn(S)}.

Определение 6.2. Функция µΩ (S, R)=µΩ (X1(S),..., Xn(S), X1(R),..., Xn(R))называется мерой близости между объектами S, R по совокупности признаков Ω (или для краткости, мерой близости), если

1) µΩ (y1, …, yn, z1,..., zn) определена для любых yj, zjиз Dj, где

j=1 ,..., n;

2)0≤ µΩ ≤ 1;
3) µΩ (S, R ) = µΩ (R, S );
4) µΩ (S, S) = 1;

5) для любого j=1, …, n и произвольной последовательности α 1, …, α n, такой, что α j из Dj, функция

µ (yj, zj) = µΩ 1, …, α j-1, yj, α j+1, …, α n, α 1, …, α j-1, zj, α j+1, …, α n)

- мера близости между значениями признака Xj.

Пример 6.2.

а) если Ω = {Х1, …, Хn)и все признаки – бинарные, то

µΩ = 1 –

– мера близости;

б) пусть Ω таково, чтовсе признаки замерены в шкалe интервалов и ρ (S, R) метрика вида

ρ (S, R) =

 

где S = (у1, …, уn), R = (z1..., zn), δ 1, δ 2, …, δ n – не равные нулю вещественные числа, описанные в примере 6.1. Тогда

 

µΩ (S, R) = 1/(1+ ρ (S, R))

- мера близости;

в) пусть признаки, входящие в Ω, замерены в любой из упомянутых выше шкал (интервалов, отношений, порядка, наименований). Тогда при выполнении сделанных выше предположений

µΩ (S, R)=µj(Xj(S), Xj(R))

- мера близости.

Если все признаки из Ω замерены в шкале интервалов, то приведённая в примере 6.2 мера близости (б) инвариантна относительно допустимых преобразований шкалы каждого из признаков.

Если все признаки из Ω замерены в шкалах интервалов, отношений, порядка и наименований, то приведённая в примере 6.2 мера близости (в) инвариантна относительно допустимых преобразований шкал каждого из признаков. Таким образом, справедливо

Утверждение 6.1. Пусть признаки Xj из Ω замерены в шкалах интервалов, отношений, порядка и наименований. Предположим, что количественные признаки принимают значения на ограниченных множествах, а ранговые – на конечных. Тогда меры близости между объектами по комплексу признаков, удовлетворяющие условиям определения 6.2 и инвариантные относительно допустимых преобразований шкал каждого из признаков, существуют.

Зачем нужно знать и использовать основы теории измерений в геомоделировании? Как уже отмечалось, на практике формализация выбора нормировки зачастую невозможна или крайне затруднительна. Однако, выбирая нормировки в соответствии со шкалами измерения и применяя меры близости по комплексу признаков, инвариантные относительно допустимых преобразований, мы повышаем «разумность» результата независимо от «удачности» выбора нормировки.

 

Методические рекомендации и контрольные вопросы

Для усвоения и успешной сдачи экзамена по настоящему курсу, в принципе, достаточно предварительно ознакомиться с содержанием первых двух частей цикла «Математические методы в геологии нефти и газа», прослушать лекции и принять участие в практических занятиях.

Однако, в связи с непривычностью материала для геологов и геохимиков-нефтяников, на наш взгляд, целесообразно воспользоваться нижеследующими рекомендациями, а также дать ответы на контрольные вопросы. Для более глубокого усвоения материала настоящего выпуска предлагается ознакомиться с литературой из библиографического списка.

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.