Коэффициент корреляции Пирсона г-Пирсона
- применяется для изучения взаимосвязи двух метрических переменных,
измеренных на одной и той же выборке. Формула коэффициента корреляции г-Пирсона:
i-l_____________________________
(/V-1)0,0,
Особенности коэффициента корреляции г-Пирсона:
- а) на величину коэффициента корреляции не влияет то, в каких единицах измерения представлены признаки;
- б) любые линейные преобразования признаков не меняют значения коэффициента корреляции (умножение константы, прибавление константы); исключение составляет умножение одного из признаков на отрицательную константу - коэффициент корреляции меняет свой знак на противоположный;
- в) коэффициент корреляции Пирсона есть мера прямолинейной взаимосвязи;
- г) коэффициент корреляции Пирсона наиболее сильно подвержен влиянию так называемых «выбросов» - экстремально больших или малых значений признака; в таких случаях рекомендуется либо перейти к рангам и применить ранговые коэффициенты корреляции, либо провести «чистку» данных, т.е. не включать в диапазон данных те наблюдения, которые выходят за пределы М±2о (или даже М±1,5о).
Ранговые коэффициенты корреляции Спирмена и Кендалла
Если обе переменные, между которыми изучается связь, представлены в порядковой шкале, или одна из них в порядковой, а другая - в метрической, то применяют ранговые коэффициенты корреляции: г-Спирмена и т-Кендалла. И тот, и другой требует для своего применения предварительного ранжирования обеих переменных.
Коэффициент корреляции г-Спирмена
Коэффициент корреляции г-Спирмена применяется при условии отсутствия связей в рангах (т.е. отсутствия повторяющихся рангов):
(2.2)
г, = 1--,
N(N2-l)
где d2 - разность рангов для испытуемого с номером.
Преимущество г-Спирмена по сравнению с г-Пирсона:
- а) более чувствителен к связи в случае существенного отклонения распределения хотя бы одной переменной от нормального вида (асимметрия, выбросы);
- б) более чувствителен к связи в случае криволинейной (монотонной) связи.
Коэффициент корреляции т-Кендалла
В основе корреляции Кендалла лежит идея о том, что о направлении связи можно судить, попарно сравнивая между собой испытуемых: если у пары испытуемых направление по
X совпадает, по направлению с изменением по Y, это положительная связь, если не совпадает - отрицательная - инверсии.
Корреляция т-Кендалла - есть разность относительных частот совпадений и инверсий при переборе всех пар испытуемых в выборке:
О
(2.3) Т =------—,
АГ(АГ-1)/2
где Р - число совпадений, Q- число инверсий
При подсчете т-Кендалла вручную данные сначала упорядочиваются по переменной X. Затем для каждого испытуемого подсчитывается, сколько раз его ранг по Y оказывается меньше, чем ранг испытуемых, находящихся ниже. Результат записывается в столбец «Совпадение». Сумма всех значений столбца «Совпадение» и есть Р - общее число совпадений. Далее для каждого испытуемого подсчитывается, сколько раз его ранг по Y оказывается больше, чем ранг испытуемых, находящихся ниже. Результат записывается в столбец «Инверсии». Сумма всех значений столбца «Инверсии» и есть Q - общее число инверсий.
Для более полной интерпретации данного коэффициента корреляции полезны соотношения между величиной Кендалла и вероятностью отдельно совпадений и инверсий:
Р(р) = (1+т)/2; Р(ф=(1-т)/2
Так, если т=0,5 значит, что вероятность совпадений равна 0,75, а вероятность инверсий - 0,25, т.е. при сравнении объектов друг с другом прямо пропорциональное соотношение (например, роста и веса) встречается в 3 раза чаще, чем обратно пропорциональное соотношение.
т-Кендалла кажется более простым в вычислительном отношении. Однако при возрастании числа выборки, объем вычислений возрастает не пропорционально, а в геометрической прогрессии.
Проблема связанных (одинаковых) рангов
При одинаковых (связанных) рангах формулы ранговой корреляции Спирмена и Кендалла не подходят. При использовании корреляции Спирмена в случае связанных рангов возможны два подхода:
- 1. Если связей немного (менее 10% для каждой переменной), то можно вычислить коэффициент Спирмена приближенно по формуле.
- 2. При большом количестве связей применить к ранжированным данным классическую формулу Пирсона; это всегда позволит определить ранговую корреляцию независимо от наличия связей в рангах.
При использовании корреляции Кендалла в случае наличия связанных рангов в формулу вносятся поправки, и тогда получается общая формула для вычисления коэффициента корреляции Кендалла, независимо от наличия или отсутствия связей в рангах:
(2.4)
где Кх- (l/2)xLfi(fj -1) (i - количество групп связей по X, f - численность каждой группы); Ку- (l/2)xLfi(fi-l) (i - количество групп связей по Y, f- численность каждой группы).
Определение р-уровня значимости для коэффициента корреляции Кендалла
Природа данного коэффициента иная, чем у Пирсона и Спирмена, поэтому р-уровеиь значимости определяется следующим образом: применяется Z-критерий и единичное нормальное распределение:
|р-б-1
’ “ -JjV(7V-l)(2A'+5)/18
Затем по таблице «Стандартные нормальные вероятности» (Приложение 1) определяется теоретическое значение Z, ближайшее меньшее к эмпирическому значению Z,. Далее определяется площадь Р под кривой справа от Z,. Затем вычисляется р-уровень по формуле р<2Р