Коэффициент корреляции Пирсона г-Пирсона

- применяется для изучения взаимосвязи двух метрических переменных,

измеренных на одной и той же выборке. Формула коэффициента корреляции г-Пирсона:

i-l_____________________________

(/V-1)0,0,

Особенности коэффициента корреляции г-Пирсона:

  • а) на величину коэффициента корреляции не влияет то, в каких единицах измерения представлены признаки;
  • б) любые линейные преобразования признаков не меняют значения коэффициента корреляции (умножение константы, прибавление константы); исключение составляет умножение одного из признаков на отрицательную константу - коэффициент корреляции меняет свой знак на противоположный;
  • в) коэффициент корреляции Пирсона есть мера прямолинейной взаимосвязи;
  • г) коэффициент корреляции Пирсона наиболее сильно подвержен влиянию так называемых «выбросов» - экстремально больших или малых значений признака; в таких случаях рекомендуется либо перейти к рангам и применить ранговые коэффициенты корреляции, либо провести «чистку» данных, т.е. не включать в диапазон данных те наблюдения, которые выходят за пределы М±2о (или даже М±1,5о).

Ранговые коэффициенты корреляции Спирмена и Кендалла

Если обе переменные, между которыми изучается связь, представлены в порядковой шкале, или одна из них в порядковой, а другая - в метрической, то применяют ранговые коэффициенты корреляции: г-Спирмена и т-Кендалла. И тот, и другой требует для своего применения предварительного ранжирования обеих переменных.

Коэффициент корреляции г-Спирмена

Коэффициент корреляции г-Спирмена применяется при условии отсутствия связей в рангах (т.е. отсутствия повторяющихся рангов):

(2.2)

г, = 1--,

N(N2-l)

где d2 - разность рангов для испытуемого с номером.

Преимущество г-Спирмена по сравнению с г-Пирсона:

  • а) более чувствителен к связи в случае существенного отклонения распределения хотя бы одной переменной от нормального вида (асимметрия, выбросы);
  • б) более чувствителен к связи в случае криволинейной (монотонной) связи.

Коэффициент корреляции т-Кендалла

В основе корреляции Кендалла лежит идея о том, что о направлении связи можно судить, попарно сравнивая между собой испытуемых: если у пары испытуемых направление по

X совпадает, по направлению с изменением по Y, это положительная связь, если не совпадает - отрицательная - инверсии.

Корреляция т-Кендалла - есть разность относительных частот совпадений и инверсий при переборе всех пар испытуемых в выборке:

О

(2.3) Т =------—,

АГ(АГ-1)/2

где Р - число совпадений, Q- число инверсий

При подсчете т-Кендалла вручную данные сначала упорядочиваются по переменной X. Затем для каждого испытуемого подсчитывается, сколько раз его ранг по Y оказывается меньше, чем ранг испытуемых, находящихся ниже. Результат записывается в столбец «Совпадение». Сумма всех значений столбца «Совпадение» и есть Р - общее число совпадений. Далее для каждого испытуемого подсчитывается, сколько раз его ранг по Y оказывается больше, чем ранг испытуемых, находящихся ниже. Результат записывается в столбец «Инверсии». Сумма всех значений столбца «Инверсии» и есть Q - общее число инверсий.

Для более полной интерпретации данного коэффициента корреляции полезны соотношения между величиной Кендалла и вероятностью отдельно совпадений и инверсий:

Р(р) = (1+т)/2; Р=(1-т)/2

Так, если т=0,5 значит, что вероятность совпадений равна 0,75, а вероятность инверсий - 0,25, т.е. при сравнении объектов друг с другом прямо пропорциональное соотношение (например, роста и веса) встречается в 3 раза чаще, чем обратно пропорциональное соотношение.

т-Кендалла кажется более простым в вычислительном отношении. Однако при возрастании числа выборки, объем вычислений возрастает не пропорционально, а в геометрической прогрессии.

Проблема связанных (одинаковых) рангов

При одинаковых (связанных) рангах формулы ранговой корреляции Спирмена и Кендалла не подходят. При использовании корреляции Спирмена в случае связанных рангов возможны два подхода:

  • 1. Если связей немного (менее 10% для каждой переменной), то можно вычислить коэффициент Спирмена приближенно по формуле.
  • 2. При большом количестве связей применить к ранжированным данным классическую формулу Пирсона; это всегда позволит определить ранговую корреляцию независимо от наличия связей в рангах.

При использовании корреляции Кендалла в случае наличия связанных рангов в формулу вносятся поправки, и тогда получается общая формула для вычисления коэффициента корреляции Кендалла, независимо от наличия или отсутствия связей в рангах:

(2.4)

где Кх- (l/2)xLfi(fj -1) (i - количество групп связей по X, f - численность каждой группы); Ку- (l/2)xLfi(fi-l) (i - количество групп связей по Y, f- численность каждой группы).

Определение р-уровня значимости для коэффициента корреляции Кендалла

Природа данного коэффициента иная, чем у Пирсона и Спирмена, поэтому р-уровеиь значимости определяется следующим образом: применяется Z-критерий и единичное нормальное распределение:

|р-б-1

’ “ -JjV(7V-l)(2A'+5)/18

Затем по таблице «Стандартные нормальные вероятности» (Приложение 1) определяется теоретическое значение Z, ближайшее меньшее к эмпирическому значению Z,. Далее определяется площадь Р под кривой справа от Z,. Затем вычисляется р-уровень по формуле р<2Р

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >