Критерии, основанные на сравнении теоретической и эмпирической функций распределения вероятностей
Пусть дана выборка Хх < х2 <....< хп. Обозначим через Fn(x) эмпирическую функцию распределения вероятностей, а через F(x) — теоретическую функцию
распределения (х,.
if/-0.5'
I п )
Расстояние между эмпирической и теоретической функциями распределения вероятностей является весьма эффективной статистикой для проверки гипотез о виде закона распределения вероятностей случайной величины.
Среди известных критериев согласия такого типа отметим серию критериев, использующих различные варианты анализа расстояния между Fn(x) и F(x): критерий Джини, критерий Крамера-фон Мизеса, критерий Колмогорова-Смирнова, критерий Смирнова-Крамера-фон Мизеса и др.
Критерий Колмогорова-Смирнова
Пусть Fn(x) - эмпирическая функция распределения случайной величины х,
представленной выборкой 1 2 • • • • /7 *
0. х<х{
xt
Для проверки нулевой гипотезы HQ: Fn(x) = F(x), где F(x) - полностью определенная (с точностью до параметров) теоретическая функция распределения, рассматривается расстояние между эмпирической и теоретической функциями распределения
Dn=supFn(x)-F(x); D+n =sup(Fw(x)-F(x)); DJ =-inf(Fw(x)-F(x)).
Здесь sup, inf - точные верхняя и нижняя границы соответствующих разностей.
Для практического применения используются формулы
(i ( /-1> / ч
Dzz= max —F(xz.) ; Dn =тах F(x)--; DZ7 = тах()
- 1 . . - " / ' fl X fl ' г
- 17 ft] '
Критические значения разностей рассчитываются по приближенным формулам
; ?>+(-) ’ п
!<«
- 1 2
- (a) = <—In----
" [2 1-aJ
Если Dn > Z)zz(a), то гипотеза согласия HQ отклоняется на уровне значимости a .
При п > 20 полезна аппроксимация
- 1. 1
- (a) = <—In
- 2 1 -a
распределение которой описывается распределением /2 с v = 2 степенями свободы. При п > 10 необходимо использовать более точное приближение
1 |
( 2/-4y-l) |
1/2 |
1 |
( У |
2n |
18/7 ) |
6n |
у 2n ) |
где у — —Ina для a) и у = —ln(a/2) для Z)w, при 0,01
Стефенс предложил следующие преобразования статистик , Dn
n Э7ч 0,04 п + 0,275--
— для нижней процентной точки;
ri + 0,12-1
— для верхней процентной точки;
+(-)
n
Критические значения статистик Стефенса приведены в табл. 4.1.
74 ~+(—)
Таблица 4.1. Процентные точки статистик Dn и Dn
а |
0,150 |
0,100 |
0,050 |
0,025 |
0,010 |
Dn |
0,973 |
1,073 |
1,224 |
1,358 |
1,518 |
ЪУ |
1,138 |
1,224 |
1,358 |
1,480 |
1,628 |
Критерий Колмогорова-Смирнова применяется при п > 50.
Критерий Крамера-фон Мизеса
Статистика критерия имеет вид где F(x) - теоретическая функция распределения.
Необходимо помнить, что теоретическая функция распределения должна быть известна с точностью до параметров. Распространенная ошибка — использование в качестве F(x) функции распределения с параметрами, оцениваемыми по выборке приводит к уменьшению величины критического значения статистики, т.е. к увеличению количества ошибок второго рода.
При объеме выборки п > 40 можно использовать приведенные в табл. 2 квантили
2 ,
распределения w , которые следуют из его предельного распределения (а- уровень значимости, принятый для проверки Но).
Таблица 4.2. Квантили распределения vr2
а |
0,900 |
0,950 |
0,990 |
0,995 |
0,999 |
w2(oc) |
0,3473 |
0,4614 |
0,7435 |
0,8694 |
1,1679 |
При п < 40 можно использовать аппроксимацию
z 2V Г 2 0-4 0,бЛ 4 П
(w2) = w2—- + -у- • 1 + - ? у п п J у п)
Критерий Колмогорова
Критерий Колмогорова для простой гипотезы является наиболее простым критерием проверки гипотезы о виде закона распределения Он связывает эмпирическую функцию распределения Fn (х) с функцией распределения F(x) непрерывной случайной величины X
Пусть •X- I «X- 2 • • •’X' - конкретная выборка из распределения с неизвестной непрерывной функцией распределения F(x) и Fn (х) - эмпирическая функция распределения. Выдвигается простая гипотеза HQ :
F(x) = Fq(x) (альтернативная Н} : F(x) # FQ(x).x G R ).
Сущность критерия Колмогорова состоит в том, что вводят в рассмотрение функцию
D = max F„ (х) — Fo (x), называемой статистикой Колмогорова, представляющей *, .
собой максимальное отклонение эмпирической функции распределения (х) от гипотетической (т.е. соответствующей теоретической) функции распределения F0(x).
Колмогоров доказал, что при /? —> оо закон распределения случайной величины y[ri'Dn независимо от вида распределения СВ X стремится к закону распределения Колмогорова:
А-=-оо
где F(x) - функция распределения Колмогорова. Найдем порог Do из условия
P(D„>Do) = а . Чтобы перейти к распределению Колмогорова запишем
Здесь х0 = - процентная точка распределения Колмогорова. При п»1
приближенное значение корня уравнения можно найти как
в таблице
а |
0.1 |
0.05 |
0.02 |
0.01 |
0.001 |
1.224 |
1.358 |
1.52 |
1.627 |
1.95 |
1 2
Тогда Dq = J—In—, если D17
противном случае - ее отвергают.
Принадлежность двух выборок одному и тому же распределению
Предположим, что имеются две выборки (х1?х2...х„) и (
с независимыми элементами, каждая из которых принадлежит некоторому распределению. Представляет интерес проверить гипотезу о том, что обе эти выборки принадлежат одному и тому же распределению. Пусть Fx (z) и Fy (z) - эмпирические функции распределения, построенные по указанным выборкам. В качестве критерия согласия примем величину
D = maxFI‘(x)-F1‘(s)|,
Как доказал Н.В. Смирнов при я —> оо
- 1 Л
- 2 , ч
Если а - уровень значимости, то в первом приближении величина порога
м Г1 Г 11. 2
Do = J—4---J—In —
у п т V 2 а
Правило проверки гипотез: выборки принадлежат одному и тому же распределению, если D < Do.
Пример 4.2. Монету бросали 4040 раз (Бюффон). Получили П) = 2048 выпадений герба и /?2 = 1992 выпадений решки. Проверить, используя а) критерий Колмогорова; б) критерий Пирсона, согласуются ли эти данные с гипотезой Но о симметричности монеты (ОС = 0,05).
Случайная величина У принимает два значения: xi = -1 (решка) и Х2 = 1 (герб). Гипотеза HQ : Р{х = -1} = Р{х=1} = 1/2.
- а) По таблице распределения Колмогорова находим корень уравнения К(х) = 1 - ОС при а = 0,05. Следуетло = 1.358. Тогда = -^= = 1*358 ~ q q2 j
- 4п л/4040
Для нахождения по выборке Dn строим функции Fo (х) и Fn (х) и вычисляем величину D = max F* (х) - Fo (х) .
Xi |
решка Xi = - 1 |
герб Х2 = 1 |
Pi |
0.5 |
0.5 |
- 0, х<-1
- 0.5, -1 < х < 1

X, |
решка Xi = - 1 |
герб х2 = 1 |
rii |
1992 |
2048 |
Pi |
~ 0,493 |
~ 0,507 |
0, х<-1

1, 1 < х
Максимальное отклонение F0(x) от Р'п (х) равно 0,007, т.е. D„ = 0,007. Поскольку Dn < Do, то нет оснований отвергать гипотезу HQ; опытные данные согласуются с гипотезой HQ о симметричности монеты.
- 2
- б) Вычисляем статистику % :
- 6 и2
- 2 р
ХнабЛ=Ъ--П =
,=1 "Pi
- 19922 20482
- 0.5*4040 0.5*4040
- 4040 =0.776.
По таблице %2 распределения находим критическую точку /2 к = Jfo 05-1 = 3-& Так как 2^-2
%набл < 051 т0 опытные данные согласуются с гипотезой о симметричности монеты. ?