Корреляционный анализ при малых выборках
При малом числе наблюдений (таблица 36), коэффициент корреляции вычисляется по следующей формуле:
(41)
где г - коэффициент корреляции;
К/, V2 - варианты;
8], 82 - дисперсии признаков;
п - число признаков.
Среднее квадратическое отклонение для длины (Г/) и диаметра (Fj) плодов находим по формуле:
<5 = (42)
п
Таблица 36 - Данные длины и диаметра плодов для малых выборок, п = 15
№ п/п |
Длина плодов |
Диаметр плодов |
V,xV2 |
||
V, |
V,2 |
к. |
г? |
||
1 |
6.1 |
37.21 |
4.2 |
17.64 |
25.62 |
2 |
6.7 |
44.89 |
4.0 |
16.00 |
26.80 |
3 |
5.8 |
33.64 |
3.8 |
14.44 |
22.04 |
4 |
5.4 |
29.16 |
3.5 |
12.25 |
18.90 |
5 |
7.2 |
51.84 |
5.3 |
28.09 |
38.16 |
6 |
7.5 |
56.25 |
5.2 |
27.04 |
39.00 |
7 |
8.2 |
67.24 |
5.1 |
26.01 |
41.82 |
8 |
5.5 |
30.25 |
3.8 |
14.44 |
20.90 |
9 |
6.0 |
36.00 |
4.7 |
22.09 |
28.20 |
10 |
5.8 |
33.64 |
4.4 |
19.36 |
25.52 |
11 |
6.2 |
38.44 |
4.0 |
16.00 |
24.80 |
12 |
6.4 |
40.96 |
3.5 |
12.25 |
22.40 |
13 |
5.9 |
34.81 |
4.9 |
24.01 |
28.91 |
14 |
7.2 |
51.84 |
5.4 |
29.16 |
38.88 |
15 |
7.5 |
56.25 |
5.0 |
25.00 |
37.50 |
X |
97.4 |
642.42 |
66.8 |
303.78 |
439.45 |
Вычисляем суммы вариантов, суммы квадратов вариантов, произведений длины и диаметров плодов и подставляем в соответствующие формулы:
5, = SИ,2 _(ЕГ')2 = 642.42-^- = 642.42--^^ = 642.42-632.45 = 9.97
' 1 п 15 15
32 = ZV22 - (?Кг)2 = 303.78--^- = 303.78-^^ = 303.78-297.48 = 6.3
п 15 15
- 439.45-
- 97.4-66.8
- 15
- 79.97 -6.3
- 439.45-433.75
V62.811
- 5.7
- 7.92
= 0.72 - сильная положительная связь.
Затем определяем ошибку коэффициента корреляции:
1-г2 1-0.722 0.48
= 0.13
- (43)
- 4п- 715-1 3.74
Так, коэффициент корреляции с его ошибкой при числе наблюдений равном п = 15 будет следующий: г=0.72±О.13 - сильная положительная зависимость.
Контрольные вопросы:
- 1. Как вычисляется коэффициент корреляции при малом числе наблюдений?
- 2. Что определяют для установления степени тесноты связи при криволинейной зависимости вместо коэффициента корреляции?
- 3. Какие данные нужны для коэффициента корреляции при малых выборках?
- 4. Как рассчитываются корреляционные отношения при малых выборках?
Контрольное задание: рассчитать изученные показатели для малой выборки (коэффициент корреляции, ошибку, достоверность).
Расчет корреляционных отношений при малых выборках
Корреляционное отношение измеряет степень криволинейных и прямолинейных связей (рисунок 8). Для установления степени тесноты связи при криволинейной зависимости вместо коэффициента корреляции определяют корреляционные отношения.
Криволинейная связь между признаками - это связь, при которой равномерным изменениям первого признака соответствуют неравномерные изменения второго, причем эта неравномерность имеет определенный закономерный характер.
При графическом изображении криволинейных связей, когда по оси абсцисс откладывают значения первого признака, а по оси ординат значения второго признака и полученные точки соединяют, получают изогнутые линии. Характер изогнутости зависит от природы коррелируемых признаков.
При изображении криволинейных связей на корреляционной решетке частоты внутри решетки не располагаются в форме эллипса, а их ареал расположения имеет форму изогнутых неправильных фигур. По виду корреляционной решетки можно выяснить характер связи (прямолинейная или криволинейная).

Степень статистической зависимости одного признака от другого можно определить, сопоставляя разнообразие этих признаков:
- - когда первый признак принимает разные значения, а второй признак остается неизменным, можно заключить, что разнообразие второго признака не зависит от разнообразия первого и связь между ними равна нулю;
- - если при значительном разнообразии первого признака второй имеет незначительное разнообразие, можно заключить, что статистическая связь между разнообразием обоих признаков имеется, но она несильная;
- - в случае, когда при изменении первого признака второй изменяется часто и значительно можно говорить о сильной связи признаков.
Рассмотрим пример (Федоров А.Н., 1967): необходимо установить характер и величину связи между дозой яда в граммах (HJ и смертностью насекомых вредителей в % (Vy) на основе проведенных опытов (таблица 32) при п=16.
Мх
- 48
- 16
= 3г
240
Тб"
= 15%
Sa, =0
Ъаха = 0 Za2=30 Za2=720
л У л У
Если найти коэффициент корреляции по формуле малых выборок:
Zaxl,ay п8х8у
(44)
тт 00
Подставив данные г =----- получаем г = 0, из чего следует вывод о
16-<5 5
полном отсутствии связи между двумя признаками.
Теперь подвергнем сомнению этот вывод и проведем более детальный анализ. Для того чтобы судить о наличии или отсутствии связи, а также о ее характере произведем группировку данных по двум признакам и получим 5 групп. Эти группы получены следующим образом: из таблицы 37 выписываем варианты по возрастанию, начиная от минимального значения Vx, полученные сгруппированные варианты заносятся в соответствующую графу таблицы 38. Над каждой вариантой Vx записываем ее значения Vy. Затем вычисляем средние для каждой группы (только для Иг) и записываем их значения в верхнюю графу таблицы 38.
В группированных рядах хорошо прослеживается зависимость между дозой яда и смертностью, при увеличении яда от 1 до 3 г, смертность возрастает, далее смертность падает. Таким образом, мы наблюдаем криволинейную корреляцию, а не отсутствие связи.
Таблица 37 - Характер и величина связи между дозой яда (г) и смертностью насекомых вредителей (%), при п-16
№ п/п |
Vx,r |
vy, % |
«х |
«У |
Ях • ау |
5 |
4 |
1 |
3 |
24 |
0 |
+9 |
0 |
0 |
81 |
2 |
2 |
18 |
-1 |
+3 |
-3 |
1 |
9 |
3 |
4 |
12 |
+ 1 |
-3 |
-3 |
1 |
9 |
4 |
1 |
6 |
-2 |
-9 |
+18 |
4 |
81 |
5 |
5 |
12 |
+2 |
-3 |
-6 |
4 |
9 |
6 |
2 |
24 |
-1 |
+9 |
-9 |
1 |
81 |
7 |
3 |
18 |
0 |
+3 |
0 |
0 |
9 |
8 |
1 |
12 |
-2 |
-3 |
+6 |
4 |
9 |
9 |
5 |
6 |
+2 |
-9 |
-18 |
4 |
81 |
10 |
2 |
12 |
-1 |
-3 |
+3 |
1 |
9 |
11 |
4 |
18 |
+1 |
+3 |
+3 |
1 |
9 |
12 |
1 |
6 |
-2 |
-9 |
+18 |
4 |
81 |
13 |
5 |
6 |
+2 |
-9 |
-18 |
4 |
81 |
14 |
3 |
24 |
0 |
+9 |
0 |
0 |
81 |
15 |
4 |
24 |
1 |
+9 |
+9 |
1 |
81 |
16 |
3 |
18 |
0 |
+3 |
0 |
0 |
9 |
I |
48 |
240 |
0 |
0 |
0 |
30 |
720 |
Таблица 38
Групповые средние (Му) |
8 |
18 |
21 |
18 |
8 |
Доза яда Vv |
6; 12; 6 |
18; 24;12 |
24; 18;24; 18 |
12; 18;24 |
12; 6; 6 |
Смертность насекомых Vx |
1; 1; 1 |
2; 2; 2 |
3; 3; 3; 3 |
4; 4; 4 |
5; 5; 5 |
Для определения степени тесноты связи при криволинейной корреляции принимается корреляционное отношение, обозначаемое буквой г/ (читается «эта») и вычисляется по формуле:
- (45)
- - ЕД;
- (46)
EaJ
где г/v и - корреляционные отношения, показывающие зависимость
У от X и X от У;
ау и ах - величины отклонений вариант от своих общих средних;
Д, и 4г - величины отклонений вариант от своих соответствующих групповых средних.
Для получения г/,, необходимо вычислить ZA*, величина 1ау может быть взята из таблицы 39.
Вычисляем ЕД* по следующей схеме:
- • значения VY (строчка 1) таблицы 39 взяты из таблицы 38 (строчка 2);
- • значения Му взяты из таблицы 38 (строчка 1);
- • значения Ду получаются вычитанием: Ау = Vv - Му; Д = 6-8 = -2 и т.д.;
- • значения Ду возводятся в квадрат (Д,2): -22 = 4 и т.д.
Таблица 39
Гу |
6 |
12 |
6 |
18 |
24 |
12 |
24 |
18 |
24 |
18 |
12 |
18 |
24 |
12 |
6 |
6 |
Му групповые средние |
8 |
8 |
8 |
18 |
18 |
18 |
21 |
21 |
21 |
21 |
18 |
18 |
18 |
8 |
8 |
8 |
Ду |
-2 |
+4 |
-2 |
0 |
+6 |
-6 |
+3 |
-3 |
+3 |
-3 |
-6 |
0 |
+6 |
+4 |
-2 |
-2 |
Ду2 |
4 |
16 |
4 |
0 |
36 |
36 |
9 |
9 |
9 |
9 |
36 |
0 |
36 |
16 |
4 |
4 |
ZA;=4+16+4+36+36+9+9+9+9+36+36+16+4+4=228;
Za2=720
у /720-228 Л on
Следовательно, = -— = 0,82
x у 720
В противоположность коэффициенту корреляции, который в данном случае равнялся нулю (г=0), корреляционное отношение свидетельствует о наличии весьма значительной зависимости процента смертности насекомых вредителей от дозы яда.
Определим обратное корреляционное отношение qx (по примеру qv). У V
Для этого произведем группировку данных (таблица 40) по дозировке яда в граммах (Vx) в зависимости от % смертности насекомых (Гу).
Таблица 40
Групповые средние (Л/Л) |
3 |
3 |
3 |
3 |
Гу |
1; 1; 5; 5 |
1; 2; 4; 5 |
2; 3; 3; 4 |
2; 3; 4 |
Vx |
6; 6; 6;6 |
12; 12; 12; 12 |
18; 18; 18; 18 |
24; 24;24 |
Дх |
-2; -2; +2; +2 |
-2; -1; +1; +2 |
-1; 0; 0;+1 |
-1;0;+1 |
Дх2 |
4; 4; 4; 4 |
4; 1; 1; 4 |
1; 0; 0; 1 |
1; 0; 1 |
ZA2 = 4+4+4+4+1 + 1 + 1+4+1 + 1 + 1 + 1=30
La/= 30 или za; =1а;, что и следовало ожидать, так как групповые средние в данном случае остаются неизменными и равняются общему среднему Мх=3.
п /30-30 .
Следовательно, q х = J——— = 0
У '
Таким образом, полученные корреляционные отношения показывают, что если процент смертности насекомых вредителей в сильной степени зависит от дозы яда, то доза яда не зависима от процента смертности, налицо пример односторонней криволинейной зависимости.
Примеры такой зависимости: урожайность от влагообеспеченности почвы; рост деревьев от почвенной влаги сначала возрастает, доходит до оптимума, затем снижается.
В отличие от коэффициента корреляции, применяемого только при прямолинейном характере связи, корреляционное отношение сохраняет свое значение при любых типах зависимости между переменными величинами.
Как и коэффициент корреляции (г) корреляционное отношение (ту) меняется от -1 до +7. Между коэффициентом корреляции (г) и корреляционным отношением (ту) имеется зависимость, которая может быть сведена к следующим основным положениям:
- • величина коэффициента корреляции всегда больше или равно абсолютной величине коэффициента корреляции, т.е. /у > г;
- • если между А' и У есть прямолинейная зависимость, то ту = г;
- • если корреляционная связь между X и У отсутствует, то ?)=0;
- • если между X и У имеет место однозначная связь, носящая функциональный характер, то корреляционное отношение принимает максимальное значение т)=1
- • при наличии между X и У криволинейной связи, то ту > г.
Ошибка корреляционного отношения, при п=16 будет равна:
.izagij-0.6724 = ОО82
’ -Л -Лб 4 ' ’
где тп - ошибка корреляционного отношения.
Критерием достоверности в данном случае служит величина, к которой предъявляются те же требования, что и при рассмотрении ошибки коэффициента корреляции, т.е. при большом числе вариант, установленные отношения считаются в достаточной степени надежными, если t > 3. Следовательно, одностороннюю криволинейную зависимость можно считать достоверной, корреляционное отношение можно считать существенным:
- (48)
- 0,82 0,082
= 10
Контрольные вопросы:
1. Отличие коэффициента корреляции и корреляционного отношения?
- 2. Как и в каких случаях рассчитываются корреляционные отношения?
- 3. При отсутствии корреляционной связи между X и У чему равно корреляционное отношение ту?
- 4. В каком случае корреляционное отношение принимает максимальное значение?
- 5. В каких пределах изменяется корреляционное отношение?
- 6. По какой формуле рассчитывается ошибка корреляционного отношения?
- 7. В каком случае одностороннюю криволинейную зависимость можно считать достоверной?
Контрольное задание: рассчитать все изученные статистические величины по первому признаку (корреляционное отношение, ошибку, критерий достоверности).