Первичная обработка статистических данных

Выборка. Эмпирическая функция распределения. Гистограмма

В математической статистике имеют дело со стохастическими экспериментами, состоящими в проведении п повторных независимых наблюдений над некоторой случайной величиной X- {х;} = х(, х2, хп, имеющей неизвестное распределение вероятностей, т.е. неизвестную функцию распределения Fx(x) = F(x).

В этом случае множество X возможных значений наблюдаемой случайной величины X называют генеральной совокупностью, имеющей функцию распределения F(x).

Числа х/,, ...,хп, х;еХ, i = ,п, являющиеся результатом п независимых наблюдений над случайной величиной X, называют выборкой из генеральной совокупности или выборочными (статистическими) данными. Число п называется объемом выборки.

В табл. 4 приведены обозначения параметров выборки для выборочных значений.

Таблица 4

Параметры выборки

Параметр

Обозначение

Определение

Выборочные данные

Xj, где i = 1,... п

Наблюденные значения случайной величины

Объем выборки

п

Количество случайных чисел в выборке

Выборка является исходной информацией для статистического анализа и принятия решений о неизвестных вероятностных характеристиках наблюдаемой случайной величины X. Однако на основе конкретной выборки обосновать качество статистических выводов невозможно. Для этих целей на выборку следует смотреть априори как на случайный вектор (Х, Хп), координаты которого являются независимыми, распределенными так же как и X, случайными величинами, и который еще не принял конкретного значения в результате эксперимента. Существует несколько способов представления статистических данных. Простейший из них - в виде статистического ряда:

Номер наблюдения i

1 2 ... п

Результат наблюдения х.

X/ х2 ... хп

Если среди выборочных значений имеются совпадающие, то статистический ряд удобнее записывать в виде следующей табл. 5.

Таблица 5

Статистический ряд

Выборочные значения у;

У1

У2

Уг

Частоты mi

mi

m2

тг

Относительные частоты pj* = ггц/п

m|/n

пъ/п

тг/п

Здесь (у/, ...,у,.) (г < п) - различные значения среди хь ...,хп; пц-частота значения у„ р* = т,/п - относительная частота значения у,. Очевидно, что

=п, ea=i-/=1 i=i

Совокупность пар у,,р* i = ,r называют иногда эмпирическим законом распределения, а саму таблицу статистического ряда - таблицей частот. Выборочные значения xh ...,х„, упорядоченные по возрастанию, носят название вариационного ряда'.

Х(1) < Х(2) <... < Х(п), где X(i) — min{x/, ...,хп}, Х(„) - шах{х/, ...,хп}.

Величина R = х(п) ~x(i) называется размахом выборки.

Эмпирической функцией распределения, соответствующей выборке X/ ..., хп, называется функция

* п 1

Fn = 1 / n't I(x, < х) - — и(х), z=l п

где 1(A) — индикатор множества А, а и,(х) — число выборочных значений, не превосходящих х. Для каждой выборки X/, х„ функция F„*(x) является неубывающей и непрерывной слева. Ее график имеет ступенчатый вид:

  • - если все значения X/, х„ различны, то F„*(x) = i/n при XG[X(Z)X(j+/)), Х(р) = -00, Х(„+7) = оо;
  • - если yh ...,уг - различные значения среди х/, ...,х„, то F„ * (х) = 1 / п т,.

i:y,

Эмпирическая функция распределения F„*(x) служит статистическим аналогом (оценкой) неизвестной функции распределения F(x), которую называют при этом теоретической. Если X/, ..., х„- выборка объема п из генеральной совокупности, имеющей непрерывное распределение с неизвестной плотностью вероятностей Д(х) = Дх), то для получения статистического аналога /(х) следует произвести группировку данных. Она состоит в следующем:

1. По данной выборке х7, ..., х„ строят вариационный ряд х(7) (2)<..<Х(„).

  • 2. Промежуток [х(/)> х(,()] разбивают точками и0 - хuL ~ Х(п)‘-uoL на L непересекающихся интервалов Jk = [uk_i, ик) (на практике L«ri).
  • 3. Подсчитывают частоты vk попадания выборочных значений в к-ый интервал Jk
  • 4. Полученную информацию заносят в таблицу, которую называют интервальным статистическим рядом (табл. 6).

MA=-(W, +Uk_J,

k = ,L

Таблица 6

Интервальный статистический ряд

Интервалы Jk

0, ид

[Ч1,и2)

[ul-1, 1ц]

Частоты vk

V1

V2

VL

Относительные частоты к = vk /п

V]/n

v2/n

vjn

L

Очевидно, что vk = ,1>

к=1

L

^р*к = 1. Поэтому совокупность пар

А-=1

называют иногда эмпирическим законом распределения, полученным по сгруппированным данным.

Далее в прямоугольной системе координат на каждом интервале Jk как на основании длины Дщ - ик - ик_/ строят прямоугольник с высотой hk - Vk , k-,L. Получаемую при этом ступенчатую фигуру называют ги-пик

стограммой. Поскольку при больших п выполняется И «f(uk), то пЛик

верхнюю границу гистограммы можно рассматривать как оценку неизвестной плотности Дх).

Ломаная с вершинами в точках (uk,hk) называется полигоном частот и для гладких плотностей является более точной оценкой, чем гистограмма.

На практике при группировке данных обычно берут интервалы одинаковой длины Aw = const, а число интервалов группировки определяют с помощью т.н. правила Стаджерса, согласно которому полагается

L = [1 +3,32 ln(«)] + 1,

или следующими рекомендациями:

при п > 1000 L = 11... 15;

n>400L= 10;

п > 200 L = 9;

100 < п < 200 критерий применяют в исключительных случаях с числом интервалов L = 7...9.

Если интервалы выбраны одинаковой длины, то ширина их равна х„~хх

L

Располагая только сгруппированными данными, можно определить аналог эмпирической функции распределения следующим образом:

F„(x) = - .

п к : ик < х

Статистическим аналогом (оценкой) теоретической числовой характеристики

g = Mg(x) = j g(x)dF(x)

-00

является выборочная (эмпирическая) числовая характеристика g*, определяемая как среднее арифметическое значений функции g(x) для элементов выборких/, ...уХи:

g* = j g(x)dFn*(x) = -Xg(xi).

п (=1

В частности, k-й выборочный момент есть величина

п ,=1

При к = 1 величину а*/ называют выборочным средним и обозначают х:

- 1 V

X = ~Xxi.

п ,=1

При к = 2 величину р2* называют выборочной дисперсией и обозначают s2:

п 1=1

Между выборочными начальными и выборочными центральными моментами сохраняются те же соотношения, что и между теоретическими. Например, справедливо равенство

s2 = а‘-(х)2 = -?х/2-[-?х/| ,

п ,=1 п ,=1 )

являющееся аналогом известного равенствар.2 = DX= а2 -а,]2 = М{Х} 2 - (M{X}f. Для вычисления выборочных моментов к-го порядка по сгруппированным данным используются формулы:

п ,=1 п ,=1

В частности, выборочное среднее и выборочная дисперсия по сгруппированным данным определяются с помощью формул

I ;V 1 ;V

Х=—5 2 = ^(zZ-Jt) И.

П ,=| П ,=1

Проверка статистических гипотез

Статистической гипотезой называют любое утверждение о виде или свойствах, наблюдаемых в эксперименте случайных величин. Правило, позволяющее по имеющимся статистическим данным (выборке) принять или отклонить выдвинутую гипотезу, называется статистическим критерием.

Если формулируется только одна гипотеза Но и требуется проверить, согласуются ли статистические данные с этой гипотезой или же они ее опровергают, то критерии, используемые для этого, называются критериями согласия.

Если гипотеза Но однозначно фиксирует закон распределения наблюдаемых случайных величии, то она называется простой, в противном случае - сложной.

Пусть относительно наблюдаемой случайной величины X сформулирована некоторая гипотеза X; х}, ...,хп- выборка объема п, являющаяся реализацией случайного вектора (X, ???, X), координаты которого X, z = 1,« независимы и распределены так же, как X.

Общий метод построения критерия согласия для проверки гипотезы Но состоит в следующем. Вначале ищут статистику Т = Т (Ху, ..., X) (случайную величину!), характеризующую отклонение эмпирического распределения от теоретического, распределение которой в случае справедливости Но можно определить (точно или приближенно). Далее задают некоторое положительное малое число а, так что событие с вероятностью а можно считать практически невозможным в данном эксперименте. Затем для заданного а определяют подмножество Ка в множестве К = {t: t = Т(х/, ...,xfl)} возможных значений статистики Т, так чтобы Р{ {X/, ..., Хп) е Ка / Но} < а. Критерий согласия имеет следующий вид:

  • -если t = Т(х/, ..., х„) - значение статистики T(Xi, ..., Х„), соответствующее данной выборке xIt ... х„ и teKa, то гипотеза Но отвергается;
  • -если ta, то гипотеза Но принимается.

Статистика Т = Г(Х, ..., X) называется статистикой критерия; множество Ка - критической областью для гипотезы Но, число а - уровнем значимости критерия.

Проверка гипотезы о виде распределения

Пусть Xi, .... х„ - выборка объема п, представляющая собой результат п независимых наблюдений над случайной величиной X относительно распределения которой выдвинута простая гипотеза Но: Fx(x) = F(x). (F(x) -теоретическая функция распределения, соответствующая гипотезе Но).

Наиболее распространенным критерием проверки этой гипотезы Но является критерии %2 Пирсона. Чтобы воспользоваться критерием %2 Пирсона, выборочные данные %/, ...,хп следует предварительно сгруппировать, представив их в виде интервального статистического ряда (см. табл. 6).

Пусть Jk = [икк+]),к = l,L - интервалы группировки; vvL - частоты попадания выборочных значений в интервалы соответственно (У/ + ... + Vl = п). Обозначим рк теоретическую (соответствующую Но) вероятность попадания случайной величины X в интервал Jkк =P{ukk+x} = F(uM)-F(uk),k = ,L, где F(uk+i), F(uk) - значение теоретической функции распределения соответственно на правой и левой границах k-ого интервала гистограммы, построенной по табл. 6.

При расчетах принимают F(ui) = 0, F(ul+i) = 1.

- 2 2 г(Ук~ПРк)2

Статистикой критерия % является величина %п =2^—------—,

*=1 пРк

где L - количество интервалов гистограммы, построенной по табл. 6; vk -количество реализаций СВ, попавших в k-й интервал; рк - вероятность попадания случайной величины в к-й интервал, вычисленная для теоретического закона распределения; п - объем выборки (количество случайных чисел в выборке).

Она характеризует отклонение эмпирической функции распределения Fn*(x) (ук/п - приращение Fn*(x) на интервале Л) от теоретической функции распределения F(x) (рк - приращение F(x) на том же интервале Jk). Поскольку относительные частоты vjn сближаются с вероятностями рк при п—>оо, к = 1, L, то в случае справедливости Но значение величины /и2 не должно существенно отличаться от нуля. Поэтому критическая область критерия %2 задается в виде Ка = {t>ta}, где t = %„2(х/, ...,х„) - значение величины хЛ вычисленное для заданной выборки, а порог ^определяется по заданному уровню значимости а так, чтобы Р{у,(&K(JHo}-ck. Нахождение ta основано на том факте (известном как теорема Пирсона), что случайная величина х/ имеет при п—>оо предельное распределение хи-квадрат с (?-1) степенью свободы y?(L-).

На практике предельное распределение х2(?-1) можно использовать с хорошим приближением при п > 50 и Vk > 5, к = ,L. При выполнении этих условий для заданного уровня значимости а можно положить ta - х21-а,ь-ь где x2i-a,?-i- (1-а)-квантиль распределения х2(?-1).

Таким образом, критерий согласия х2 Пирсона состоит в следующем:

  • 1. По табл. 6 строится интервальный статистический ряд.
  • 2. Строится гистограмма.
  • 3. По виду гистограммы формулируется гипотеза о виде закона распределения.
  • 4. Вычисляются теоретические вероятности попадания случайной величины в каждый из интервалов гистограммы по форму-лел = F(uk+l)-F(uk),k = l,L.
  • 5. Вычисляется значение статистики %2„ (х/, ...,x„) = t.
  • 6. По таблице распределения для вычисленного значения %2„ и числа степеней свободы n = s = L- k- 1, где к - количество параметров теоретического закона распределения (для экспоненциального равно 1, для нормального и Вейбулла - 2), по заданному уровню значимости а находится по таблице распределения Пирсона %2i-a,L-i-
  • 7. Если t > x2i-ax-i, то гипотезу Но отвергают.
  • 8. Если t < %2i-ax-i, то гипотезу Но принимают.

Если случайная величина X дискретная, Хк, к = ,L - различные выборочные значения, а Р{Х= х^ = Рк я случае справедливости Но, то всегда можно определить L интервалов, содержащих ровно по одному выборочному значению. Поэтому в данном случае можно сразу считать, что ц = тк, к = ,L, где тк - частота выборочного значения х*.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >