Коэффициенты корреляции. Оценка тесноты связи

Наряду с построением уравнения регрессии осуществляется оценка тесноты связи между явлениями (между переменными).

Тесноту связи в случае линейной зависимости характеризуют с помощью выборочного коэффициента корреляции гху:

Е(Х, ~ X )( У; - 7) Z Ч _ z _cov(x,y)

  • (4-41)
  • (4.42)

пере-

коэф-

Гху sjy

_ ух — ух Гху~ '

Здесь 8Х, Sy - средние квадратические отклонения менных х и у.

Выборочный коэффициент корреляции гху связан с фициентом линейной регрессии Ъ соотношением

rv = b^. (4.43)

Выборочный коэффициент корреляции гху принимает значения в диапазоне

-1<гт„<1. (4.44)

Чем ближе величина |гп.| к единице, тем теснее линейная связь и тем лучше линейная зависимость согласуется с данными наблюдений. При |rYV| = l связь становится функциональной, т. е.

соотношение у, = а + b - х выполняется для всех наблюдений.

При гху > 0 связь является прямой, при гху < 0 - обратной.

Тесноту нелинейной связи (задаваемой уравнением нелинейной регрессии y = f(x)) оценивают с помощью индекса корреляции R:

I— I—D~

Я = Л7= 1--=- = 1-2=1---------. (4.45)

Drl

I »=1

Индекс корреляции R принимает значения в диапазоне

0<Я<1. (4.46)

Чем ближе величина R к единице, тем теснее данная связь, тем лучше зависимость у = f(x) согласуется с данными наблюдений. При R = 1 (/?2 = 1) связь становится функциональной, т. е. соотношение у(. = f(xi) выполняется для всех наблюдений.

В случае линейной зависимости выборочный коэффициент корреляции г и коэффициент детерминации R2 связаны соотношением

г>7?2. (4.47)

Коэффициент детерминации R может использоваться для оценки качества (точности) построенной модели регрессии. Чем выше этот показатель, тем лучше модель описывает исходные данные.

Точность коэффициентов регрессии. Проверка значимости

Полученные оценки коэффициентов регрессии зависят от используемой выборки значений переменных х и у и являются случайными величинами. Представление о точности полученных оценок, о том, насколько далеко они могут отклониться от истинных значений коэффициентов, можно получить, используя так называемые стандартные ошибки коэффициентов регрессии.

Под стандартной ошибкой коэффициента регрессии понимается оценка стандартного отклонения функции плотности вероятности коэффициента.

Стандартные ошибки коэффициентов регрессии (sa, Sb) определяются соотношениями:

1 1=1

(4.49)

где S20Cm представляет собой несмещенную оценку остаточной дисперсии:

Х(Л-л)2 /=1

  • (и-2)
  • (4.50)

Сопоставляя оценки параметров и их стандартные ошибки, можно сделать вывод о надежности (точности) полученных оценок: в случае нормально распределенной ошибки являются /-статистиками, т. е. случайными величинами, распределенными по закону Стьюдента с числом степеней свободы п-2. Через а и b обозначены точные значения коэффициентов регрессии.

Для оценки статистической значимости коэффициентов регрессии применяется /-критерий Стьюдента, согласно которому выдвигается нулевая гипотеза Но о статистической незначимости коэффициента уравнения регрессии (т. е. о статистически незначимом отличии величины а или b от нуля). Эта гипотеза отвергается при выполнении условия / > t, где t П11 определяется по таблицам t-критерия Стьюдента по числу степеней свободы кг 1 = п-к-1 (к - число независимых переменных в уравнении регрессии) и заданному уровню значимости а.

/-критерий Стьюдента может использоваться и для оценки статистической значимости выборочного коэффициента корреляции Гху, так как величина

(4-52)

О гху

где

/1 - г2

= J---(4.53)

ху V п - 2

распределена по закону Стьюдента с числом степеней свободы п-2. Через Srxy обозначена стандартная ошибка коэффициента корреляции гху.

Проверка значимости оценок параметров ничего не говорит о том, насколько эти оценки могут отличаться от точных значений. Ответ на этот вопрос дает построение доверительных интервалов.

Под доверительным интервалом понимаются пределы, в которых лежит точное значение определяемого показателя с заданной вероятностью (Р = 1 - а).

Доверительные интервалы для параметров а и Ъ уравнения линейной регрессии определяются соотношениями:

b±t^-S„. (4.54)

Величина ti-a,n-2 представляет собой табличное значение t - критерия Стьюдента на уровне значимости а при числе степеней свободы п - 2.

Если в границы доверительного интервала попадает ноль, т. е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается равным нулю, так как он не может одновременно принимать и положительное, и отрицательное значение.

Для статистически значимого коэффициента корреляции гху интервальные оценки (доверительный интервал) получают с использованием Z-преобразования Фишера:

1 1 +

Z = Z(r ) =—1п—-i. (4.55)

2 1 - г

Первоначально определяется интервальная оценка для Z'.

Ze[Z’±t,_a/2p-], (4.56)

V п-3

где ti-a/2 - квантиль стандартного нормального распределения порядка l-a/2,Zr = Z (гху) - значение /-преобразования Фишера, соответствующее полученному значению коэффициента корреляции гху.

Граничные значения доверительного интервала (г“г+) для гху получаются из граничных значений доверительного интервала (z“, z +) для / с помощью обратного /-преобразования Фишера rxy = Z-‘( z):

r“ = Z“'(z’); r+=Z“’(z+). (4.57)

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >