Пирсона х2-критерий согласия
Пусть необходимо проверить нулевую гипотезу Но о том, что случайная величина X подчиняется определённому закону распределения io(^)i то есть Но: F(x) = ^о(т)- Если не оговорено иное, то под альтернативной гипотезой Hi будем понимать дополнение к нулевой, то есть Hi'. F(x) ф Fo(x). Для того чтобы определить, согласуются ли результаты наблюдений с нулевой гипотезой Но, принято использовать критерии согласия.
Критерием согласия называется статистический критерий проверки гипотезы о соответствии эмпирического распределения вероятностей — теоретическому. Выделяют общие критерии согласия, применимые для проверки любых видов распределений вероятностей, и специальные критерии, применимые для проверки определенных групп распределений. В последнем случае при формулировании критериев согласия используются свойства функций для выбранной группы распределений.
Критерии согласия могут быть основаны на изучении разницы между теоретической плотностью распределения и гистограммой (к примеру, критерий согласия %2), а могут—на изучении разницы между теоретической и эмпирической функциями распределения (к примеру, критерий Колмогорова-Смирнова).
Гипотезы: Проверяется нулевая гипотеза Но : F(x) = Fo(x,0) против альтернативной Нх : F(x) ф Fo(x,e), где Fo(х, в) — теоретическая функция распределения случайной величины Х в € Rm — m-мерный вектор в общем случае неизвестных параметров распределения X.
Статистика: Критерий согласия х2> предложенный К. Пирсоном в 1900 году, основывается на анализе группированных данных. При этом область возможных значений реализации выборки {xi,X2,..., т„} разбивают на к непересекающихся интервалов: Xj € (ао, а*] = (oo,aij U (04, <22] U... U(a*,-i ,а*;] и вычисляют статистику, имеющую распределение %2 с числом степеней свободы к - т - 1:

где пг — эмпирическая частота попаданий выборочных значений Xj в интервал (a4_i,аг] рг — теоретическая вероятность попадания значений случайной величины X в интервал (a,._i,a,J: рг = Fo(ai,0n) - F0(ai-1,0п), где вп ? Rm — выборочная оценка m-мерного вектора неизвестных параметров распределения в.
Критерий: Если наблюдаемое значение статистики превосходит на заданном уровне значимости а квантиль распределения х2 с тем же числом степеней свободы: Xj > Xa,k-m-1> то нУле_ вая гипотеза на уровне значимости а отвергается в пользу альтернативной Нх : F[x) ф Fq(x,0). В противном случае
при Xj ^ xi k-m-i Г0В0РЯТ1 что нулевая гипотеза Но : F(x) = = ^о(ж, в) на уровне значимости а согласуется с выборочными данными.
В ряде случаев критерий согласия х2 может демонстрировать слабую устойчивость на выборках с низкочастотными событиями пг < 5. Для решения этой проблемы обычно рекомендуется объединять интервалы, не отвечающие критерию щ ^5, с соседними до достижения частот приемлемого уровня или использовать равновероятное группирование, при котором щ к где i = 1,2,... ,к.
Необходимо отметить, что по действующим рекомендациям уменьшение числа степеней свободы в распределении х2 на число неизвестных параметров m до к — т — 1 оправдано лишь в том случае, когда эти параметры в оценивались по группированным данным. Если же оценки параметров в вычислялись по негруппированной реализации выборки, то действительное распределение наблюдаемой статистики будет заключено между xl-m-i и xl-i и ПРИ определённых допущениях будет лучше аппроксимироваться распределением xl-i-
Пример 3.3. Для реализации выборки, использованной в примере
3.1, выполним проверку нулевой гипотезы Но : F(x) = Fo(x, (x,sx)), где Ео(а:, (х, sx)) = Ф(2^12-) + § при альтернативной Нх = Но по критерию согласия Пирсона на уровне значимости а = 0.05.

Назначение команд в строках 11-41 целиком аналогичны ранее указанным в примере 3.1. В строке 15—61 вычисляются наибольшее и наименьшее значения по реализации: а:тщ яг 4,24, ттах ?= 14,35.
При построении равномерного разбиения указанный диапазон следует «расширить» до ближайших целых или рациональных значений: 1тщ | тт1п и ттах | ?юах таким образом, чтобы общая длина была кратной выбранному шагу /г: ?тах — ттш = АЛ, а число интервалов группировки лежало бы в диапазоне: к € [5,15]. Этому соответствует разбиение целыми точками интервала: (imin,imax] = = (4,15] = (4,5] U (5,6] U ... U (14,15].
В строке [7] формируется вектор граничных точек «Ы» и с помощью суперпозиции функций «table(cut О)» осуществляется группировка выборочных значений по указанным интервалам |8-п |.

Из приведённых в строках 18—и | данных видно, что первый интервал группировки и четыре последних содержат слишком мало значений: П1 = 3, пв = пд = Пю = Пц = 1. Тогда, для соответствия условию пг ^ 5, следует попытаться объединить эти интервалы с соседними: (4,5] и (5,6] = (4,6] и (И, 12] и (12,13] и (13,14] и (14,15] = (11,15]. Новый вектор граничных точек «Ь2» и соответствующая ему группировка выборочных значений показаны в строках 112-141.
Для подсчёта вектора теоретических частот «рЗ» в строке [Т|] используется дополнительный вектор «ЬЗ», «расширяющий» границы эмпирического разбиения на всю область определения функции ^о(ж). Значение «1п1:» в системе Я соответствует бесконечности, а суперпозиция функций «<И:Е:? (рпогтО)» по вектору заданных граничных точек «ЬЗ» вычисляет приращения функции нормального распределения Ф(2^12-) + §, которые показаны в строке ГГ7~|.
В строке [Тэ] с помощью критерия х2 выполняется проверка гипотезы о соответствии эмпирических частот—теоретическим для нормального закона распределения М(х, зх). Из данных в строке [22] видно, что достигаемый для исследуемой реализации выборки «х» уровень значимости «р-уа1ие = 0.6849» значительно превосходит заданное значение а = 0,05, что позволяет сделать вывод о согласии исследуемых данных с нулевой гипотезой: Но : И(х) = Ф(2^5-) +

Рис. 3.5. Гистограмма /„д(х) выборки значений и график плотности вероятности

Рис. 3.6. 0-0 график для выборки значений и графикфункции распределения
В качестве иллюстрации в строках 123-241 выполняются построения гистограммы для вышеуказанной группировки выборочных данных и кривой плотности вероятности /(х) = которые
показаны на рис. 3.5.
Ещё одной удобной иллюстрацией к проверке гипотезы о нормальности распределения является квантиль-квантильный (СЗ-СЗ) график, построение которого реализовано в строке [Ц] и показано на рис. 3.6. Для построения СЗ-СЗ графика используется функция <^погт()», которая выполняет отображение выборочных данных на «нормальной вероятностной бумаге», где абсциссами являются теоретические, а ординатами—эмпирические квантили выборочных данных. Теоретические квантили вычисляются в предположении, что параметры нормального распределения соответствуют их несмещённым точечным оценкам, то есть X ~ Д/"(8,30, 1,82). Функция «qqline()» добавляет к выборочным данным график функции нормального распределения
, выглядящий в указанной системе координат как прямая линия. При этом использованы два параметра: «рсЬ=3» — отображение выборочных точек символами «+»; «1бу=2» —отображение С)-С3 графика Е(ж) штриховой линией.
Из приведённых иллюстраций видно, что отклонения эмпирических распределений выборочных данных от теоретических весьма незначительны и вполне согласуются с принятой нулевой гипотезой.