Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Измерение связи между явлениями






(метод корреляции)

Все явления в природе и обществе находятся во взаимной связи. Выяснение наличия связей между изучаемыми явле­ниями — одна из важных задач статистики. Многие медико-биологические и медико-социальные исследования требуют установления вида связи (зависимости) между случайными величинами. Сама постановка большого круга задач в меди­цинских исследовательских работах предполагает построение и реализацию алгоритмов «фактор — отклик», «доза — эф­фект». Зачастую нужно установить наличие эффекта при имеющейся дозе и оценить количественно полученный эф­фект в зависимости от дозы. Решение этой задачи напрямую связано с вопросом прогнозирования определенного эффекта и дальнейшего изучения механизма возникновения именно такого отклика.

Как известно, случайные величины Х и Y могут быть либо независимыми, либо зависимыми. Зависимость случайных ве­личин подразделяется на функциональную и статистическую (корреляционную).

Функциональная зависимость — такой вид зависимости, ко­гда каждому значению одного признака соответствует точное значение другого. В математике функциональную зависимость переменной Х от переменной Y называют зависимостью вида Х = f (У), где каждому допустимому значению Y ставится в со­ответствие по определенному правилу единственно возможное значение X.

Например: взаимосвязь площади круга (S) и длины окруж­ности (L). Известно, что площадь круга и длина окружности связаны вполне определенным отношением S = rL, где r радиус круга. Умножив длину окружности на половину ее ра­диуса, можно точно определить площадь крута. Такую зависи­мость можно считать полной (исчерпывающей). Она полно­стью объясняет изменение одного признака изменением дру­гого. Этот вид связи характерен для объектов, являющихся сферой приложения точных наук.

В медико-биологических исследованиях сталкиваться с функциональной связью приходится крайне редко, поскольку объекты этих исследований имеют большую индивидуальную вариабельность (изменчивость). С другой стороны, характери­стики биологических объектов зависят, как правило, от ком­плекса большого числа сложных взаимосвязей и не могут быть сведены к отношению двух или трех факторов. Во мно­гих медицинских исследованиях требуется выявить зависи­мость какой-либо величины, характеризующей результатив­ный признак, от нескольких факториальных признаков.

Дело в том, что на формирование значений случайных ве­личин Х и Y оказывают влияние различные факторы. Обе ве­личины — и X, и Y — являются случайными, но так как име­ются общие факторы, оказывающие влияние на них, то Х и Y обязательно будут взаимосвязаны. И связь эта уже не будет функциональной, поскольку в медицине и биологии часто бывают факторы, влияющие лишь на одну из случайных вели­чин и разрушающие прямую (функциональную) зависимость между значениями Х и Y. Связь носит вероятностный, слу­чайный характер, в численном выражении меняясь от испы­тания к испытанию, но эта связь определенно присутствует и называется корреляционной.

Корреляционной является зависимость массы тела от роста, поскольку на нее влияют и многие другие факторы (питание, здоровье, наследственность и т. д.). Каждому зна­чению роста (X) соответствует множество значений массы (Y), причем, несмотря на общую тенденцию, справедливую для средних: большему значению роста соответствует и боль­шее значение массы, — в отдельных наблюдениях субъект с большим ростом может иметь и меньшую массу. Корреляци­онной будет зависимость заболеваемости от воздействия внешних факторов, например запыленности, уровня радиа­ции, солнечной активности и т. д. Имеется корреляционная зависимость между дозой ионизирующего излучения и чис­лом мутаций, между пигментом волос человека и цветом глаз, между показателями уровня жизни населения и смерт­ностью, между числом пропущенных студентами лекций и оценкой на экзамене.

Именно корреляционная зависимость наиболее часто встречается в природе в силу взаимовлияния и тесного пере­плетения огромного множества самых разных факторов, опре­деляющих значение изучаемых показателей. Корреляционная зависимость — это зависимость, когда при изменении одной величины изменяется среднее значение другой.

Строго говоря, термин «зависимость» при статистической обработке материалов медико-биологических исследований должен использоваться весьма осторожно. Это связано с при­родой статистического анализа, который сам по себе не может вскрыть истинных причинно-следственных отношений между факторами, нередко опосредованными третьими факторами, причем эти третьи факторы могут лежать вообще вне поля зрения исследователя. С помощью статистических критериев можно дать только формальную оценку взаимосвязей. Попыт­ки механически перенести данные статистических расчетов в объективную реальность могут привести к ошибочным выво­дам. Например, утверждение: " Чем громче утром кричат воро­бьи, тем выше встает солнце", несмотря на явную несураз­ность, с точки зрения формальной статистики вполне право­мерно. Таким образом, термин " зависимость" в статистиче­ском анализе подразумевает только оценку соответствующих статистических критериев.

Корреляционные связи называют также статистическими (например, зависимость уровня заболеваемости от возраста населения). Эти связи непостоянны, они колеблются от нуля до единицы. Ноль означает отсутствие зависимости между признаками, а единица — полную, или функциональную, связь, когда имеется зависимость только от одного признака.

Мерой измерения статистической зависимости служат раз­личные коэффициенты корреляции. Выбор метода для опре­деления взаимосвязей обусловлен видом самих признаков и способами их группировки. Для количественных данных при­меняют линейную регрессию и коэффициент линейной кор­реляции Пирсона. Для качественных признаков применяются таблицы сопряженности и рассчитываемые на их основе ко­эффициенты сопряженности (С и Ф), Чупрова (К). Для при­знаков, сформированных в порядковой (ранговой, балльной) шкале, можно применять ранговые коэффициенты корреля­ции Спирмена или Кендэла.

Любую существующую зависимость по направлению связи можно подразделить на прямую и обратную.

Прямая зависи­мость это зависимость, при которой увеличение или умень­шение значения одного признака ведет, соответственно, к увеличению или уменьшению второго. Например: при увели­чении температуры возрастает давление газа (при его неизменном объеме), при уменьшении температуры снижается и давление.

Обратная зависимость имеется тогда, когда при уве­личении одного признака второй уменьшается, и наоборот: при уменьшении одного второй увеличивается. Обратная за­висимость, или обратная связь, является основой нормально­го регулирования почти всех процессов жизнедеятельности любого организма.

Оценка силы корреляционной связи проводится в соответ­ствии со шкалой тесноты. Если размеры коэффициента кор­реляции от ±0, 9 до ±0, 7, то связь сильная, коэффициенты корреляции от ±0, 31 до ±0, 69 отражают связь средней силы, а коэффициенты от ±0, 3 до нуля характеризуют слабую связь.

Известное представление о наличии или отсутствии корре­ляционной связи между изучаемыми явлениями или призна­ками (например, между массой тела и ростом) можно полу­чить графически, не прибегая к специальным расчетам. Для этого достаточно на чертеже в системе прямоугольных коор­динат отложить, например, на оси абсцисс величины роста, а на оси ординат — массы тела и нанести ряд точек, каждая из которых соответствует индивидуальной величине веса при данном росте обследуемого. Если полученные точки распола­гаются кучно по наклонной прямой к осям ординат в виде овала (эллипса) или по кривой линии, то это свидетельствует о зависимости между явлениями. Если же точки расположены беспорядочно или на прямой, параллельной абсциссе либо ординате, то это говорит об отсутствии зависимости.

По форме корреляционные связи подразделяются на пря­молинейные, когда наблюдается пропорциональное изменение одного признака в зависимости от изменения другого (графи­чески эти связи изображаются в виде прямой линии или близ­кой к ней), и криволинейные, когда одна величина признака изменяется непропорционально изменению другой (на графи­ке эти связи имеют вид параболы, эллипса или иной кривой линии).

Таким образом, корреляционные связи различаются по ха­рактеру (прямые и обратные), по форме (прямолинейные и криволинейные), по силе (сильная, средняя, слабая). И, нако­нец, корреляционные связи могут иметь разную достовер­ность. Существуют статистически значимые связи с высокой вероятностью достоверного прогноза минимум на 95 %, мак­симум — на 99 % и выше. И могут быть статистически незна­чимые корреляционные связи, когда вероятность достоверно­го прогноза ниже 95 %.

В основу исчисления коэффициента корреляции берется оценка совпадений колебаний значений взаимосвязанных признаков. Если объективно существующие колебания (ва­риации) этих значений совпадают, то можно говорить о нали­чии корреляции. Если колебания не совпадают, корреляции нет.

Коэффициент корреляции.

Нас часто интересует не предсказание значения одной переменной по значе­нию другой, а просто характеристика тесноты (силы) связи между ними, при этом выраженная одним числом.

Корреляция - это описание взаимосвязи количественных или качественных признаков.

Коэффициент корреляции (r) Пирсона является мерой корреляции, он показывает, в ка­кой степени изменение значения одного признака сопровождается изменением значения другого в данной выборке.

Коэффициент корреляции может принимать значения от -1 до +1. Крайние значения этого интервала указывают на функциональную линейную зависимость признаков, ноль - на отсутствие статистической связи. Знак коэффициента корре­ляции показывает направление связи (прямая или обратная). При r > 0 говорят о прямой корреляции (с увеличением одной переменной другая также возрастает), при r < 0 — об обратной (с увеличением одной переменной другая уменьшается).

 
 

Коэффициент корреляции Пирсона предназначен для описания линейной связи количественных признаков; как и регрессионный анализ, он требует нор­мальности распределения. Он рассчитывается по формуле.

Алгоритм расчета коэффициента корреляции по методу квадратов:

1. Вычислите среднюю арифметическую простую для каждого вариационного ряда (Мx и Мy)

2. Найдите отклонении вариант от средней арифметической

dx = Vx - Мx

dy = Vy – Мy

3. Вычислите произведение dx × d y

4. Определите ∑ dx × d y

5. Вычислите dx 2 и d y2

6. Найдите ∑ dx 2 и ∑ d y2

7. Вычислите произведение ∑ dx 2 × ∑ d y2

8. Рассчитайте коэффициент корреляции по методу квадратов (Пирсона) по выше указанной формуле.

 

Пример расчета коэффициента корреляции (табл. 40).

Таблица 40

Расчет коэффициента корреляции по методу квадратов (Пирсона) rxy

(Зависимость между температурой тела и числом сердечных сокращений)

Температура тела (х) Частота пульса в мин. (y) dx dy dx * dy dx2 dy2
    -2 -20      
    -2 -10      
             
    +2 +10      
    +2 +20      
x═ 190 y═ 400 ∑ dx═ 0 ∑ dy═ 0 ∑ dx*dy═ 120 ∑ dx2═ 16 ∑ dy2═ 1000
Mx═ 190/5═ 380 My═ 400/5 ═ 80 уд/мин.          

 

 
 

  Rxy   ═ +120
     
 
 
   


16-1000

  ═   ═ +0, 952

 

Коэффициент ранговой корреляции Спирмена

Коэффициент ранговой корреляции Спирмена можно использовать, когда связь нелинейна — и не только для количественных, но и для качественных при­знаков. Это непараметрический метод, он не требует какого-либо определенного типа распределения.

Идея коэффициента ранговой корреляции Спирмена состоит в следующем. Нужно упорядочить данные по возрастанию и заменить реальные значения их рангами. Рангом значения называется его номер в упорядоченном ряду. Затем, беря вместо самих значений их ранги, рассчитывают обычный коэффициент кор­реляции Пирсона.

Если в ряду встретятся одинаковые значения, им следует присвоить один и тот же ранг, равный среднему занимаемых ими мест. Коэффициент ранговой корреляции Спирмена можно рассчитать и проще:

 

6 Σ dx2

ρ xy = 1 – ----------------

n (n2 – 1)

Алгоритм расчета коэффициента ранговой корреляции (Спирмена)

1. Определите ранг вариант для каждого вариационного ряда

2. Вычислите разницу рангов (d)

3. Определите d 2

4. Найдите ∑ dx 2

5. Определите число сопряженных пар (n)

6. Рассчитайте коэффициент корреляции ранговой корреляции (Спирмена) по выше указанной формуле.

Пример расчета коэффициента ранговой корреляции (табл. 41).

Таблица 41

Расчет коэффициента ранговой корреляции (Спирмена) ρ xy

 

Доход на 1 члена семьи в тыс. руб. (X) % беременностей закончившихся родами (Y) Ранги Разность рангов(d) (d2)
X Y
До 3000 83, 3     -4  
3100-5000 60, 2     -1  
5100-7000 73, 4     -1  
7100-10000 37, 0     +2  
выше 10100       +4  

 

        6Σ d2
ρ xy    
        n(n2─ 1)

 

        6 x 38  
ρ xy    
        5(25─ 1)  
ρ xy   1, 9 ─ 0, 9  
  mρ   ═ 1 ─ ρ 2 n ─ 1   ═ ± 1 ─ 0, 81 5 ─ 1   ═ ±0, 22
                                   

 

0, 9

t ═

0, 22

 

t ═ 4, 1

Для усвоения материала следует решить несколько задач.

Давно известно, что уровень холестерина в сыворотке крове и индекс массы тела величины взаимосвязанные именно в том смысле, что у лиц, имеющих превышение массы тела над ростом формируется склонность к атеросклерозу, что в дальнейшем является угрозой развития тяжелых сосудистых осложнений в виде инсультов и инфарктов. Имея данные пациентов по уровню холестерина в сыворотке крови и индекс массы тела (табл. 42) рассчитайте коэффициент корреляции по методу квадратов (Пирсона)

Таблица 42

Общий холестерин Индекс массы тела
4, 90 23, 7
6, 90 29, 8
7, 20 23, 5
6, 80 31, 2
5, 20 24, 4
6, 70 30, 1
6, 60 30, 1
8, 10 28, 7
4, 80 27, 2
5, 60 25, 2
7, 10 25, 6
7, 30 26, 2
5, 90 22, 6
5, 80 30, 7
4, 40 31, 2
6, 50 29, 4
5, 70 40, 2

Доктор В. Ернайчик, изучая физиологию сна при депрессии, столкнулся с необходимо­стью оценки тяжести этого заболевания. Шкала депрессии Бека основана на оп­роснике, заполняемом самим больным. Она проста в применении, однако специ­фичность её недостаточна. Применения шкалы депрессии Гамильтона более сложно, поскольку требует участия врача, но именно эта шкала даёт наиболее точные результаты. Тем не менее, автор был склонен использовать шкалу Бека. В самом деле, если её специфичность недостаточна для диагностики, то это ещё не говорит о том, что её нельзя использовать для оценки тяжести депрессии у боль­ных с уже установленным диагнозом.

Сравнив оценки по обеим шкалам у 10 больных, В. Ернайчик получил следующие результаты (табл. 43):

Таблица 43

 

Оценка по шкале депрессии Бека Оценка по шкале депрессии Гамильтона
   
   
   
   
   
   
   
   
   
   

 

Перед теми, кто пользуется той или иной шкалой стоит проблема ответа на вопрос: «Насколько согласованы оценки по шкале Бека и Гамильтона?». В связи с этим рассчитайте коэффициент ранговой корреляции (Спирмена).

После того, как нам удалось рассчитать коэффициенты корреляции двумя методами, следует определить степень и характер связи по таблице 44.

Таблица 44

Оценка степени тесноты и характера связи:

 

  отсутствие связи
до 0, 29 слабая
0, 3-0, 69 средняя
0, 7- 0, 99 сильная
1, 0 полная
+ прямая
- обратная

 

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.