Проверка нулевой гипотезы
Статистическая проверка гипотез - процедура принятия решения, следует ли на основе данных выборочного исследования принять или опровергнуть некое предположение о характеристиках или свойствах генеральной совокупности.
Для того чтобы содержательная гипотеза могла быть проверена средствами статистики, она должна быть сформулирована как статистическая гипотеза, с выделением нулевой и альтернативной гипотез. Проверка гипотезы сводится к принятию решения, следует ли принять нулевую гипотезу или отклонить ее в пользу альтернативной. При этом нулевая гипотеза (постулирующая отсутствие различий) выступает в качестве утверждения, которое считается справедливым до тех пор, пока не будут найдены противоречащие ему факты.
Критерий нулевой гипотезы строится на основе специально подобранной численной функции, которая вычисляется по выборке и называется статистикой критерия [1, 2, 3, 12, 14, 15].
Нулевой гипотезой называют гипотезу об отсутствии реального различия между двумя сравниваемыми вариационными рядами: эмпирическим и теоретическим или двумя эмпирическими.
Для оценки соответствия эмпирического распределения теоретическому используют критерий согласия (подобия) х2, закон распределения которого открыл К. Пирсон. Кривая распределения, полученная из функции х2 имеет вид [1,8, 14]
(2.4.1) где rii- фактическая частота численности объектов выборки;
F-гипотетическая (теоретическая) частота объектов выборки.
Её вид в сильной степени зависит от числа степеней свободы.
Критерий х2, или критерий согласия (подобия), используется для оценки степени соответствия эмпирических данных определённым теоретическим предпосылкам, нулевой гипотезе.
Гипотеза опровергается, если Хфакт — /теор, и не опровергается, если Хфакт < Хтеор- Если вероятность нулевой гипотезы окажется значительной (более 0,05, но менее 0,95), опыт ненадежный, не доказавший ни наличия, не отсутствия влияния испытываемого фактора. Фактическая частота численности объектов в определен ной части известна из эмпирического распределения. Гипотеза о нормальном характере распределения частот позволяет вычислить теоретические их значения для вероятности Л попасть в i- интервал. Для этого используется следующее выражение
Р{^-1 < f < = Ф - Ф (2.4.2)
где хк_± ихк- концы рассматриваемого интервала (см. лабораторная работа №3);
х, S - параметры распределения, среднее арифметическое и стандартное отклонение соответственно.
В выражении (2.4.2) сначала нормализуют величину а потом вычисляют из неё функцию Лапласа.
Самым строгим и надёжным критерием согласия при обработке сгруппированных данных является критерий Пирсона [14]
= (2.4.3)
где п,— фактическая частота попадания;
пр - теоретическая частота попадания.
При условии nip > 5эта величина имеет приблизительно х2-распределение с количеством степеней свободы т = к — 3, где?-количество интервалов.
Пример. Рассчитать критерий Пирсона для эмпирического вариационного ряда и проверить нулевую гипотезу.
Ход работы
Расчет целесообразно вести с использование табличного процессора Microsoft Excel. Для данного примера используем данные лабораторной работы №3.
1. Перенесите из лабораторной работы №3 в новый документ Microsoft Excel интервал группировки, частоту попадания в каждый интервал, среднее значение х и стандартное отклонение 5 (рис .2.4.1)
А |
в |
С |
Р |
Е || |
|
1 |
Интервал |
ч |
Л |
S |
|
2 |
45 |
54 |
1 |
81,115 |
11,29491 |
3 |
55 |
64 |
4 |
||
4 |
65 |
74 |
21 |
||
5 |
75 |
84 |
40 |
||
6 |
85 |
94 |
23 |
||
7 |
95 |
104 |
8 |
||
8 |
105 |
115 |
3 |
Рис. 2.4.1.Исходная таблица данных
Проведите расчет теоретических значений npi попадающих в соответствующие интервалы (выражение 2.4.2). Значение функции Лапласа принимается по таблице для каждого в отдельности. Поэтому во избежание затруднений при вычислениях оставим три столбца.
2. В столбце F вычислите Фтах = Ф гДе хк ~ последнее значение интервала.
F2 ? A =(В2-$Р$2)/$Е$2
А |
В |
С |
Р |
Е |
F |
|
1 |
Интервал |
п |
Л- |
S |
ф max |
|
2 |
45 |
54 |
1 |
81,115 |
11,294911 |
-2,40064 |
3 |
55 |
64 |
4 |
-1,51528 1 |
||
4 |
65 |
74 |
21 |
-0,62993 |
||
5 |
75 |
84 |
40 |
0,255425 |
||
6 |
85 |
94 |
23 |
1,140779 |
||
7 |
95 |
104 |
8 |
2,026134 |
||
8 |
105 |
115 |
3 |
3,000024 |
Рис. 2.4.2.Промежуточные вычисления
3. Для полученных данных найдите по таблице значения функции Лапласа Ртах (приложение Г)
А |
В |
С |
D |
Е |
F |
G |
|
1 |
Инте |
рвал |
п |
1 К |
S |
Ф max |
Ртах |
2 |
45 |
54 |
1 |
81,115 |
11,29491 |
-2,40064 |
-0,4918 |
3 |
55 |
64 |
4 |
-1,51528 |
-0,4345 |
||
4 |
65 |
74 |
21 |
-0,62993 |
-0,2357 |
||
5 |
75 |
84 |
40 |
0,255425 |
0,1026 |
||
6 |
85 |
94 |
23 |
1,140779 |
0,3729 |
||
7 |
95 |
104 |
8 |
2,026134 |
0,4803 |
||
8 |
105 |
115 |
3 |
3,000024 |
0,49865 |
Рис. 2.4.3.3начения функции Лапласа для Фтах
4. В столбце Н вычислитеФШ1П = Ф где - первое значение интервала. Для этих данных найдите значения функции Лапласа (приложение Г).
Н2 ? Д =(А2-$Р$2)/$Е$2
А |
в |
С |
D |
Е |
F |
G |
Н |
I |
|
1 |
Инте |
рвал |
п |
X |
S |
Ф max |
Ртах |
Ф тт |
Pmin |
2 |
45 |
54 |
1 |
81.115 |
11,29491 |
-2,40064 |
-0,4918 |
-3,197461 |
-0,49931 |
3 |
55 |
64 |
4 |
-1,51528 |
-0,4345 |
-2,3121 |
-0,4895 |
||
4 |
65 |
74 |
21 |
-0,62993 |
-0,2357 |
-1.42675 |
-0,4236 |
||
5 |
75 |
84 |
40 |
0,255425 |
0,1026 |
-0,54139 |
-0,2054 |
||
6 |
85 |
94 |
23 |
1,140779 |
0,3729 |
0,34396 |
0,1331 |
||
7 |
95 |
104 |
8 |
2,026134 |
0,4803 |
1,229315 |
0,3907 |
||
8 |
105 |
115 |
3 |
3,000024 |
0,49865 |
2,114669 |
0,4825 |
Рис. 2.4.4.Нахождение функции Лапласа для каждого значения интервала группировки
5. Столбец J заполните теоретическими значениями npi попадающими в соответствующий интервал, где н,- объем выборки (количество измерений). N=100
J2 ?- A =1OO*(G2-I2)
А |
в |
С |
D |
Е |
F |
G |
Н |
I |
J |
|
1 |
Инте |
рвал |
X |
S |
Ф max |
Ртах |
Ф тт |
Pmin |
||
2 |
45 |
54 |
1 |
81,115 |
11.29491 |
-2,40064 |
-0,4918 |
-3,19746 |
-0,49931 |
0.751JI |
3 |
55 |
64 |
4 |
-1,51528 |
-0,4345 |
-2,3121 |
-0,4895 |
5.5 |
||
4 |
65 |
74 |
21 |
-0,62993 |
-0,2357 |
-1,42675 |
-0,4236 |
18,79 |
||
5 |
75 |
84 |
40 |
0,255425 |
0,1026 |
-0,54139 |
-0,2054 |
30,8 |
||
6 |
85 |
94 |
23 |
1,140779 |
0,3729 |
0,34396 |
0,1331 |
23,98 |
||
7 |
95 |
104 |
8 |
2,026134 |
0,4803 |
1,229315 |
0,3907 |
8,96 |
||
8 |
105 |
115 |
3 |
3,000024 |
0,49865 |
2,114669 |
0,4825 |
1,615 |
Рис. 2.4.5.Нахождение теоретического значения npi для каждого интервала
Для нахождения критерия Пирсона (выражение 2.4.3) необходимо соблюдение условия npt > 5, что на самом деле не выполня
ется в ячейках J2 и J8. Для этого допускается объединение интервалов, в данном случае двух первых и двух последних (рис. 2.4.6).
Инте |
рвал |
.Г |
S |
Ф max |
Ртах |
Ф тт |
Pmin |
”Pi |
||
45 |
54 |
1 |
81,115 |
11,29491 |
-2,40064 |
-0,4918 |
-3,19746 |
-0,49931 |
0,751 |
|
55 |
64 |
4 |
-1,51528 |
-0,4345 |
-2,3121 |
-0,4895 |
5,5 |
|||
65 |
74 |
21 |
-0,62993 |
-0,2357 |
-1,42675 |
-0,4236 |
18,79 |
|||
75 |
84 |
40 |
0,255425 |
0,1026 |
-0,54139 |
-0,2054 |
30,8 |
|||
85 |
94 |
23 |
1,140779 |
0,3729 |
0,34396 |
0,1331 |
23,98 |
|||
95 |
104 |
8 |
2,026134 |
0,4803 |
1,229315 |
0,3907 |
8,96 |
|||
105 |
115 |
3 |
3,000024 |
0,49865 |
2,114669 |
0,4825 |
1,615 |
|||
Рис. 4.6.Объединяемые интервалы
Выражение для первого интервала примет вид
- ((п-1+П2)-(пр-|+пр2))2 < Л ^Г- г Г/ Ъ Л Z-X
- ------, гдеиу=1, /22=4, /2/27=0,75, /2/22=5,5(см. рис. 2.4.6)
- 6. Выполните вычисления для каждого интервала и суммируйте все полученные значения.
К2 - A =((C2+C3)-(J2+J3))n2/(J2+J3)
А |
В |
С |
D |
Е |
F |
G |
Н |
I |
J |
К |
|
1 |
Инте |
рвал |
П |
X |
S |
Ф max |
Ртах |
Ф ш |
Pmin |
(”. ~ nv |
|
2 |
45 |
54 |
1 |
81,115 |
11,29491 |
-2,40064 |
-0,4918 |
-3,19746 |
-0,49931 |
0,751 |
|
3 |
55 |
64 |
4 |
-1,51528 |
-0,4345 |
-2,3121 |
-0,4895 |
5,5 |
0,25036 |
||
4 |
65 |
74 |
21 |
-0,62993 |
-0,2357 |
-1,42675 |
-0,4236 |
18,79 |
0,259931 |
||
5 |
75 |
84 |
40 |
0,255425 |
0,1026 |
-0,54139 |
-0,2054 |
30,8 |
2,748052 |
||
6 |
85 |
94 |
23 |
1,140779 |
0,3729 |
0,34396 |
0,1331 |
23,98 |
0,04005 |
||
7 |
95 |
104 |
8 |
2,026134 |
0,4803 |
1.229315 |
0,3907 |
8,96 |
|||
8 |
105 |
115 |
3 |
3,000024 |
0,49865 |
2,114669 |
0,4825 |
1,615 |
0,01708 |
||
9 |
3,315473 |
Рис. 2.4.7.Вычисление критерия Пирсона
При числе степеней свободы т = к — 3 где к - количество интервалов имеем т = 7 — 3 = 4. По таблице значение критерия Пирсона (приложение Д) Хо,95 = 0,71.
Таким образом, фактическое значение критерия Пирсона %факт = 3,31, теоретическое х?еор = 0,71, условие х|акт > х?еоР выполняется - нулевая гипотеза опровергается.
Контрольные вопросы и задания
- 1. Найдите значения функции Лапласа используя данные из лабораторной работы 3.
- 2. Вычислите фактическое значение критерия Пирсона и сравните его с табличным.
- 3. Оформите работу с использованием текстового процессора и дайте обоснование полученных данных в выводе.