Проверка на соответствие нормальному закону распределения равноинтервального ряда
Ряды распределения позволяют решить такую важную задачу статистического анализа как характеристика закономерностей распределения.
Если увеличивать число наблюдений и одновременно с этим уменьшать величину интервала, то полигон и гистограмма распределения в пределе будут приближаться к кривой распределения, которая дает четкое представление о форме теоретического распределения единиц совокупности по величине варьирующего признака. Так как каждому ряду распределения достаточно большой совокупности объективно свойственна определенная закономерность, то кривая распределения является выражением зависимости между вариантами и частотами. Процесс нахождения функции кривой распределения (аппроксимация) заключается в следующем:
а) подбирается и теоретически обосновывается предельная теоретическая кривая плотности распределения, достаточно точно выражающая свойственную явлению закономерность;
- б) определяются параметры функции кривой распределения;
- в) оценивается близость эмпирического и теоретического распределения.
Проверка исходных данных на соответствие нормальному закону распределения является необходимым требованием большинства методов статистики и эконометрики. В XIX в. нормальное распределение называли «нормальной кривой ошибок». Нормальное распределение было открыто в 1711 г. в Англии Абрахом де Муавром . Иногда его называют распределением Гаусса в честь немецкого математика XIX в. Карла Фридриха Гаусса.
Различные статистические критерии позволяют оценить близость распределения к нормальному: Пирсона, Романовского, Колмогорова-Смирнова, Лиллисфорса, Шапиро-Уилкса. В отечественной практике статистикоэконометрических исследований наиболее часто используются первые три критерия, в зарубежной - критерии Колмогорова-Смирнова, Лиллисфорса, Шапиро-Уилкса. Основой вышеперечисленных критериев является осуществление проверки на близость теоретических частот эмпирическим.
Рассмотрим методику анализа распределения и его близости к нормальному закону (Гаусса-Лапласа) с использованием критерия /2- критерия английского статистика Карла (Чарльза) Пирсона:
- 2
- (1.2)
j fttj
где /у - эмпирические частоты;
fH. - теоретические частоты.
А. Муавр внес большой вклад в теорию вероятностей. Он доказал частный случай теоремы Лапласа, провел вероятностное исследование азартных игр и ряда статистических данных по народонаселению.
Есть легенда, согласно которой Муавр точно предсказал день собственной смерти: он обнаружил, что продолжительность его сна стала увеличиваться в арифметической прогрессии, легко вычислил, когда она достигнет 24 часов, и, как всегда, не ошибся...
Чем меньше отклонение между эмпирическими и теоретическими частотами, тем меньше значение /2, а значит, теоретическое распределение лучше воспроизводит эмпирическое, и наоборот. Если эмпирические частоты совпадают с теоретическими, то значение критерия равно нулю. Предварительно следует отметить, что применение данного критерия должно удовлетворять следующим условиям:
- - результаты наблюдений должны быть независимыми;
- - чтобы при малой величине теоретической частоты небольшое абсолютное отклонение не дало очень большой относительной величины, группы объединяются таким образом, чтобы ожидаемая частота была не менее 6 (поправка Йейтса);
- - объем исследуемой совокупности должен составлять не менее 50-ти наблюдений.
Этапы проверки по данному критерию следующие:
- 1) рассчитывается расчетная величина критерия по формуле (1.2);
- 2) по табулированным значениям /2- критерия находим его критическое значение с соответствующим уровнем значимости а (0,1; 0,05, 0,01) и числом степеней свободы, равных числу слагаемых критерия (число интервальных групп ряда) минус 3 (т.к. при расчете нормального распределения три параметра были фиксированы:, х, о). Чем меньше значение уровня значимости а, тем выше вероятность принятия верного решения;
- 3) сравниваем расчетное и критическое значения критерия /2. Случай, когда
X2 > xLum свидетельствует о том, что расхождение между эмпирическими и теоретическими частотами существенно и гипотеза о близости эмпирического распределения к нормальному отвергается. Если то расхождение между
эмпирическими и теоретическими частотами объясняется случайными колебаниями результатов наблюдений и гипотеза о нормальном законе распределения принимается с вероятностью 1-а.
Проанализируем имеющийся равноинтервальный ряд распределения субъектов РФ по величине расходов домашних хозяйств на оплату услуг в 1 кв. 2010 г.
- (таблица 1.9). Средний размер расходов на услуги в представленной группировке найдем по формуле средней арифметической взвешенной: где fi - эмпирические частоты;
- 172908,1
- 80
= 2161,4 р.,
x'j - середина интервала в группе.
Таблица 1.9 - Распределение субъектов РФ по величине расходов домашних хозяйств на оплату услуг в 1 кв. 2010 г. (в среднем на члена домохозяйства в
месяц)
Группа субъектов по величине расходов на оплату услуг, р. |
Число субъектов fi |
Накопленная частота,/; |
Середина интервала, xj |
x'j *f) |
X'j-Х |
330,9-943,6 |
3 |
3 |
637,25 |
1911,75 |
-1524,15 |
943,6-1556,3 |
13 |
16 |
1249,95 |
16249,35 |
-911,45 |
1556,3-2169,0 |
37 |
53 |
1862,65 |
68918,05 |
-298,75 |
2169,0-2781,7 |
11 |
64 |
2475,35 |
27228,85 |
313,95 |
2781,7-3394,4 |
6 |
70 |
3088,05 |
18528,3 |
926,65 |
3394,4-4007,1 |
5 |
75 |
3700,75 |
18503,75 |
1539,35 |
4007,1-4620,1 |
5 |
80 |
4313,60 |
21568,00 |
2152,20 |
Итого |
80 |
X |
X |
172908,10 |
X |
Источник: htlp.7/www. gks. т . Расчеты автора. |
Медиана ряда составит:
Me = xUe +h.. °’5-^ 5а,‘-' =1556,3+ 612,7х 80 : 2 16 =1953,7 р., Me Me /? ’ ’ q ~ 7 г у
f Me '
где хМе - начальное значение интервала, содержащего медиану;
ЛАА,- величина медианного интервала;
f - сумма частот ряда;
SAfe_, - сумма накопленных частот, предшествующих медианному
интервалу;
/АА,- частота медианного интервала.
Мода расходов на оплату услуг составит:
Mo = x..+h.lo х-.------; = 15563+ 612,7х--------= 1850,4р.
' “ (/ц„-.А^) + (/м,-Л^) 37-13 + 37-11
где хМо - начальное значение интервала, содержащего моду;
hMt - величина модального интервала;
/мо ' частота модального интервала;
/мо- ~ частота интервала, предшествующего модальному;
Zwo+i ' частота интервала, следующего за модальным.
Рассчитаем критерий согласия Пирсона, который измеряет степень отличия частоты фактического распределения от частоты нормального распределения при той же численности единиц совокупности, той же средней величине признака и том же среднем квадратическом отклонении.
Для построения ряда с нормальным распределением, для каждой из границ интервалов признака в таблице 1.9 необходимо вычислить критерий / как отношение разности между этой границей интервала и средней величиной признака к среднему квадратическому отклонению.
Среднее квадратическое отклонение по рассматриваемому ряду составило:
а= |1^?Д=882,6р.
где xj - значение признака;
г - среднее значение признака;
fi - частота признака.
Для начала первого интервала имеем: (330,9-2161,4):882,6=-2,074; для верхней границы первого и нижней границы второго интервала: (943,6-2161,4):882,6=-1,38 и т.д. По значениям критериев t для конца и начала каждого интервала групп рассчитывается вероятность попадания единицы совокупности в данный интервал (при условии нормального закона распределения). Эта вероятность (Рц/) равна половине разности между функцией F(t) для большего по абсолютной величине значения t и F(t) для меньшей по абсолютной величине границы интервала. Если знаки t для границ одного из интервалов (среднего из них) разные, то вместо разности берется сумма.
Для первого интервала (таблица 1.10) вероятность попадания в этот интервал при нормальном законе равна:
[/=*(2,074) - F(l,38)]:2= (0,9616 - 0,8324):2=0,0646.
Сумма полученных вероятностей для всех интервалов меньше единицы в связи с тем, что при нормальном законе часть единиц совокупности имела бы значения признака, выходящие за границы фактического размаха вариации. Полученные вероятности для нормального распределения умножаются на общую численность единиц совокупности (?у ), и в результате получаем частоты нормального распределения fuj Последние две группы согласно поправке Йейтса объединяются в одну при расчете /2. Получим расчетное значение критерия, равное 23,86. Число степеней свободы составляет 6-3=3.
Таблица 1.10 — Расчет критерия /2
Г руппа субъектов по величине расходов на оплату услуг, р. |
Л |
Ь |
Phj |
flij |
Л fw |
(Л ~Д)2 Jllj |
330,9-943,6 |
3 |
от -2,07 до-1,38 |
0,0646 |
5,2 |
-2,2 |
0,909 |
943,6-1556,3 |
13 |
от-1,38 до -0,69 |
0,1613 |
12,9 |
0,1 |
0,001 |
1556,3-2169,0 |
37 |
от -0,69 до +0,01 |
0,2589 |
20,7 |
16,3 |
12,809 |
2169,0-2781,7 |
11 |
от +0,01 до +0,70 |
0,2541 |
20,3 |
-9,3 |
4,280 |
2781,7-3394,4 |
6 |
от +0,70 до+1,40 |
0,1612 |
12,9 |
-6,9 |
3,688 |
3394,4-4007,1 |
5 |
от +1,40 до +2,09 |
0,6245 |
5,0 |
0,0 |
2,173 |
4007,1-4620,1 |
5 |
от +2,09 до +2,79 |
0,01565 |
1,3 |
3,7 |
|
80 |
X |
0,9782 |
78,3 |
X |
23,860 |
Табличное значение критерия при уровне значимости 0,05 и числе степеней свободы 3 составляет 7,8 (приложение А). Исходя из полученных расчетов, можно сделать вывод, что гипотеза о нормальном характере эмпирического распределения отклоняется.