Критерии, основанные на сравнении теоретической и эмпирической функций распределения вероятностей

Пусть дана выборка Хх < х2 <....< хп. Обозначим через Fn(x) эмпирическую функцию распределения вероятностей, а через F(x) — теоретическую функцию

распределения (х,.

if/-0.5'

I п )

Расстояние между эмпирической и теоретической функциями распределения вероятностей является весьма эффективной статистикой для проверки гипотез о виде закона распределения вероятностей случайной величины.

Среди известных критериев согласия такого типа отметим серию критериев, использующих различные варианты анализа расстояния между Fn(x) и F(x): критерий Джини, критерий Крамера-фон Мизеса, критерий Колмогорова-Смирнова, критерий Смирнова-Крамера-фон Мизеса и др.

Критерий Колмогорова-Смирнова

Пусть Fn(x) - эмпирическая функция распределения случайной величины х,

представленной выборкой 1 2 • • • • /7 *

0. х<х{

xt xz+1, 1 < i < n -1; n 1, x>xn.

Для проверки нулевой гипотезы HQ: Fn(x) = F(x), где F(x) - полностью определенная (с точностью до параметров) теоретическая функция распределения, рассматривается расстояние между эмпирической и теоретической функциями распределения

Dn=supFn(x)-F(x); D+n =sup(Fw(x)-F(x)); DJ =-inf(Fw(x)-F(x)).

Здесь sup, inf - точные верхняя и нижняя границы соответствующих разностей.

Для практического применения используются формулы

(i ( /-1> / ч

Dzz= max —F(xz.) ; Dn =тах F(x)--; DZ7 = тах()

  • 1 . . - " / ' fl X fl ' г
  • 1ft] '

Критические значения разностей рассчитываются по приближенным формулам

; ?>+(-) ’ п

!

  • 1 2
  • (a) = <—In----

" [2 1-aJ

Если Dn > Z)zz(a), то гипотеза согласия HQ отклоняется на уровне значимости a .

При п > 20 полезна аппроксимация

  • 1. 1
  • (a) = <—In
  • 2 1 -a

распределение которой описывается распределением /2 с v = 2 степенями свободы. При п > 10 необходимо использовать более точное приближение

1

( 2/-4y-l)

1/2

1

( У

2n

18/7 )

6n

у 2n )

где у — —Ina для a) и у = —ln(a/2) для Z)w, при 0,01

Стефенс предложил следующие преобразования статистик , Dn

n Э7ч 0,04 п + 0,275--

— для нижней процентной точки;

ri + 0,12-1

— для верхней процентной точки;

+(-)

n

Критические значения статистик Стефенса приведены в табл. 4.1.

74 ~+()

Таблица 4.1. Процентные точки статистик Dn и Dn

а

0,150

0,100

0,050

0,025

0,010

Dn

0,973

1,073

1,224

1,358

1,518

ЪУ

1,138

1,224

1,358

1,480

1,628

Критерий Колмогорова-Смирнова применяется при п > 50.

Критерий Крамера-фон Мизеса

Статистика критерия имеет вид где F(x) - теоретическая функция распределения.

Необходимо помнить, что теоретическая функция распределения должна быть известна с точностью до параметров. Распространенная ошибка — использование в качестве F(x) функции распределения с параметрами, оцениваемыми по выборке приводит к уменьшению величины критического значения статистики, т.е. к увеличению количества ошибок второго рода.

При объеме выборки п > 40 можно использовать приведенные в табл. 2 квантили

2 ,

распределения w , которые следуют из его предельного распределения (а- уровень значимости, принятый для проверки Но).

Таблица 4.2. Квантили распределения vr2

а

0,900

0,950

0,990

0,995

0,999

w2(oc)

0,3473

0,4614

0,7435

0,8694

1,1679

При п < 40 можно использовать аппроксимацию

z 2V Г 2 0-4 0,бЛ 4 П

(w2) = w2—- + -у- • 1 + - ? у п п J у п)

Критерий Колмогорова

Критерий Колмогорова для простой гипотезы является наиболее простым критерием проверки гипотезы о виде закона распределения Он связывает эмпирическую функцию распределения Fn (х) с функцией распределения F(x) непрерывной случайной величины X

Пусть •X- I «X- 2 • • •’X' - конкретная выборка из распределения с неизвестной непрерывной функцией распределения F(x) и Fn (х) - эмпирическая функция распределения. Выдвигается простая гипотеза HQ :

F(x) = Fq(x) (альтернативная Н} : F(x) # FQ(x).x G R ).

Сущность критерия Колмогорова состоит в том, что вводят в рассмотрение функцию

D = max F„ (х) — Fo (x), называемой статистикой Колмогорова, представляющей *, .

собой максимальное отклонение эмпирической функции распределения (х) от гипотетической (т.е. соответствующей теоретической) функции распределения F0(x).

Колмогоров доказал, что при /? —> оо закон распределения случайной величины y[ri'Dn независимо от вида распределения СВ X стремится к закону распределения Колмогорова:

А-=-оо

где F(x) - функция распределения Колмогорова. Найдем порог Do из условия

P(D„>Do) = а . Чтобы перейти к распределению Колмогорова запишем

Здесь х0 = - процентная точка распределения Колмогорова. При п»1

приближенное значение корня уравнения можно найти как

в таблице

а

0.1

0.05

0.02

0.01

0.001

1.224

1.358

1.52

1.627

1.95

1 2

Тогда Dq = J—In—, если D17Q, то гипотезу Fo нет оснований отвергать; в а

противном случае - ее отвергают.

Принадлежность двух выборок одному и тому же распределению

Предположим, что имеются две выборки (х1?х2...х„) и (

с независимыми элементами, каждая из которых принадлежит некоторому распределению. Представляет интерес проверить гипотезу о том, что обе эти выборки принадлежат одному и тому же распределению. Пусть Fx (z) и Fy (z) - эмпирические функции распределения, построенные по указанным выборкам. В качестве критерия согласия примем величину

D = maxFI‘(x)-F1‘(s)|,

Как доказал Н.В. Смирнов при я —> оо

  • 1 Л
  • 2 , ч

Если а - уровень значимости, то в первом приближении величина порога

м Г1 Г 11. 2

Do = J—4---J—In —

у п т V 2 а

Правило проверки гипотез: выборки принадлежат одному и тому же распределению, если D < Do.

Пример 4.2. Монету бросали 4040 раз (Бюффон). Получили П) = 2048 выпадений герба и /?2 = 1992 выпадений решки. Проверить, используя а) критерий Колмогорова; б) критерий Пирсона, согласуются ли эти данные с гипотезой Но о симметричности монеты (ОС = 0,05).

Случайная величина У принимает два значения: xi = -1 (решка) и Х2 = 1 (герб). Гипотеза HQ : Р{х = -1} = Р{х=1} = 1/2.

  • а) По таблице распределения Колмогорова находим корень уравнения К(х) = 1 - ОС при а = 0,05. Следуетло = 1.358. Тогда = -^= = 1*358 ~ q q2 j
  • 4п л/4040

Для нахождения по выборке Dn строим функции Fo (х) и Fn (х) и вычисляем величину D = max F* (х) - Fo (х) .

Xi

решка Xi = - 1

герб

Х2 = 1

Pi

0.5

0.5

  • 0, х<-1
  • 0.5, -1 < х < 1

X,

решка

Xi = - 1

герб х2 = 1

rii

1992

2048

Pi

~ 0,493

~ 0,507

0, х<-1

1, 1 < х

Максимальное отклонение F0(x) от Р'п (х) равно 0,007, т.е. D„ = 0,007. Поскольку Dn < Do, то нет оснований отвергать гипотезу HQ; опытные данные согласуются с гипотезой HQ о симметричности монеты.

  • 2
  • б) Вычисляем статистику % :
    • 6 и2
    • 2 р

ХнабЛ=Ъ--П =

,=1 "Pi

  • 19922 20482
  • 0.5*4040 0.5*4040
  • 4040 =0.776.

По таблице %2 распределения находим критическую точку /2 к = Jfo 05-1 = 3-& Так как 2^-2

%набл < 051 т0 опытные данные согласуются с гипотезой о симметричности монеты. ?

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >