Эмпирические распределения частот
Одной из основных задач в теории ошибок в области испытания сельскохозяйственной техники можно считать разработку методов наблюдения, учета и отбора проб, позволяющих исключить систематические и ограничить случайные ошибки при сравнительно небольшом числе замеров величин, так как даже при лабораторно-полевых испытаниях машин невозможно пересчитать или измерить все изменения среды в результате воздействия на неё рабочих органов [9,11].
Наблюдения могут быть сплошными, при которых обследованию подвергают всю совокупность, и выборочными, при которых обследованию подвергают часть совокупности, характеризующей всю совокупность признака. Порядок отбора части совокупности может быть повторным и бесповторным. В практике испытания сельскохозяйственной техники применяют только бесповторный отбор, при котором ранее отобранную часть не возвращают в совокупность при последующих отборах [9, 11].
В зависимости от свойства и характера изучаемого явления, а также цели испытания могут быть выборки случайные, механические, типические или серийные.
Серийная выборка применяется при отборе проб для анализа почвы, зерна, измельчённых кормов, масел, угля и других сыпучих тел и жидкостей. Техника отбора проб (серий) должна обеспечивать представительство в пробе составляющих пропорционально их наличию в генеральной совокупности [7].
Многие исследования начинаются обычно со сбора обширного цифрового материала, понимание которого облегчается систематизацией и представлением исходных данных в виде таблиц и графиков
Число N = ??-1 Tii называется объемом выборки.
Для построения гистограммы частот определяют размах варьирования результатов измерений [13]
R = Xmax-Xmin, (2.3.1)
где R - размах варьирования, см;
Хтах, Xmin~ соответственномаксимальное и минимальное значения.
При большом количестве измерений производится группировка полученных значений на к групп.
Величина интервала определяется соотношением
R
- (2.3.2)
- (2.3.3)
- 1 ~ к’
где i - величина интервала, к - число групп, п - количество значений.
Ориентировочно число групп равно квадратному корню из объема выборки, и оно должно быть не меньше 5, но не более 20.
По интервальному ряду можно построить гистограмму частот - множество прямоугольников с основаниями, равными длинам интервалов, высотой [13,14]
^ = 7^ (2.3.4)
хк хк-1
где rifc- частота с которой встречаются значения к — го интервала; хк — максимальное значение одного интервала;
хк-1 ~ минимальное значение этого же интервала.
Средняя арифметическая х - представляет собой обобщённую, абстрактную характеристику всей совокупности в целом. Формула для определения средней арифметической имеет следующий вид

Рис. 2.3.1. Гистограмма эмпирического распределения
(2.3.5)
Кривая линия, соединяющая середины интервалов полигоном.
Дисперсия 82и стандартное отклонение S служат мерами вариации, рассеяния изучаемого признака.
называется
основными
Дисперсия представляет собой частное отделения суммы квадратов отклонений на число измерений без единицы
^=^S?=i(Xi-x)2, (2.3.6)
где Х[ - значение признака, варианты,
х - среднее арифметическое.
Размерность дисперсии равна квадрату размерности изучаемого признака, что неудобно и заставляет ввести для измерения рассеяния другую характеристику, имеющую размерность варьирующей величины и называемую стандартным или средним квадратическим отклонением. Его получают извлечением квадратного корня из дисперсии
S = y/? = (2.3.7)
где S - стандартное отклонение.
Среднее арифметическое, или просто среднее, - одна из основных характеристик выборки. Среднее арифметическое - такое значение признака, сумма отклонений от которого выборочных значений признака равна нулю (с учетом знака отклонения) [1].
Если воспользоваться геометрической интерпретацией, то среднее арифметическое можно определить как точку на оси х, которая является абсциссой центра масс гистограммы.
Если данные сгруппированы, то
_ n1xi+n2xi+ -+nkxii _ 1 vfc
х ---------2-1=1 nixi> (Z.3.8)
где xt - среднее значение интервала,
nf - частота, с которой встречаются значения в интервале, N - объём выборки.
Таким образом, при наличии сгруппированных частот дисперсию и стандартное отклонение определяют по формуле
?t=l ni(x~xi) ^2 3 С))
где nt - частота с которой встречаются значения i - го интервала,
N- объём выборки (общее количество всех значений),
х - среднее арифметические всех измерений,
- среднее значение интервала.
Коэффициент вариации V - стандартное отклонение, выраженное в процентах к средней арифметической данной совокупности [1]
V = |100 , (2.3.10)
где V - коэффициент вариации, %.
Коэффициент вариации является относительным показателем изменчивости. Использование коэффициента вариации имеет смысл при изучении вариации признака, принимающего только положительные значения. Не имеет смысла, например, коэффициент вариации, вычисленный для характеристики колебания среднегодовой температуры, близкой к 0°, когда варьирующий признак принимает как положительные так и отрицательные значения.
Изменчивостью принято считать незначительной, если коэффициент вариации не превышает 10%; средней, если V выше 10%, но менее 20%; и значительной, ели коэффициент вариации более 20%.
Ошибка выборочной средней или ошибка выборки S* является мерой отклонения выборочной средней х от средней всей (генеральной) совокупности N. Ошибки выборки возникают вследствие неполной репрезентативности (представительности) выборочной совокупности и свойственны только выборочному методу исследования. Они связаны с перенесением результатов, полученных при изучении выборки, на всю генеральную совокупность. Величина этих ошибок зависит от степени изменчивости изучаемого признака и от объема выборки [4].
Ошибка выборочной средней прямо пропорциональна выборочному стандартному отклонению S и обратно пропорциональна корню квадратному из числа измерений N, т.е.
(2.3.11)
Ошибка средней арифметической тем меньше, чем меньше варьирует опытный материал и чем из большего количества измерений вычислено среднее арифметическое. Ошибка выборки, выражается в процентах от соответствующей средней, называется относительной ошибкой выборочной средней
5х% = Y100’ (2.3.12)
где Sx% - относительная ошибка выборочной средней, %.
Стандартное отклонение служит показателем, который даёт представление о наиболее вероятной средней ошибке отдельного, единичного наблюдения, взятого из данной совокупности. В пределах одного значения (±75) укладывается примерно 2/3 всех наблюдений, или, точнее 68,3% всех вариант, т.е. основное ядро изучае мого ряда величин. Поэтому стандартное отклонение называют также основным отклонением вариационного ряда. Следовательно, возможны отклонения от х, превосходящие ±IS, но вероятность их по мере удаления отклонений от ±1S всё время уменьшается. Так, вероятность встретить вариант, отклоняющуюся от х на величину больше ±35, составляет всего около 0,3%. Поэтому утроенное значение стандартного отклонения принято считать предельной ошибкой отдельного наблюдения, и, следовательно, почти все значения вариант в вариационном ряду укладываются в пределах ±35. Шестикратное значение среднего квадратического отклонения (от +35 до -35) даёт ясное представление о ширине ряда наблюдений, о его рассеянности:
х — 35 < ~х< х + 35. (2.3.13)
Пример. Измерена высота прикрепления нижнего боба (мм) у 100 растений сои. Полученные данные занесены в таблицу 2.3.3. Определить интервальный статистический ряд. Построить гистограмму и полигон эмпирического распределения
Таблица 2.3.3
Данные измерений
№ пп |
Значение |
№ пп |
Значение |
№ пп |
Значение |
№ пп |
Значение |
№ пп |
Значение |
1 |
76 |
21 |
45 |
41 |
70 |
61 |
77 |
81 |
89 |
2 |
82 |
22 |
59 |
42 |
67 |
62 |
76 |
82 |
85 |
3 |
80 |
23 |
60 |
43 |
100 |
63 |
88 |
83 |
93 |
4 |
68 |
24 |
63 |
44 |
103 |
64 |
89 |
84 |
90 |
5 |
69 |
25 |
78 |
45 |
69 |
65 |
63 |
85 |
79 |
6 |
74 |
26 |
87 |
46 |
72 |
66 |
82 |
86 |
83 |
7 |
72 |
27 |
94 |
47 |
74 |
67 |
80 |
87 |
91 |
8 |
69 |
28 |
91 |
48 |
66 |
68 |
81 |
88 |
87 |
9 |
80 |
29 |
88 |
49 |
67 |
69 |
77 |
89 |
89 |
10 |
79 |
30 |
90 |
50 |
72 |
70 |
80 |
90 |
94 |
11 |
90 |
31 |
79 |
51 |
72 |
71 |
79 |
91 |
92 |
12 |
109 |
32 |
84 |
52 |
68 |
72 |
78 |
92 |
91 |
13 |
99 |
33 |
84 |
53 |
80 |
73 |
83 |
93 |
76 |
14 |
100 |
34 |
108 |
54 |
81 |
74 |
92 |
94 |
79 |
15 |
115 |
35 |
83 |
55 |
84 |
75 |
93 |
95 |
73 |
16 |
68 |
36 |
84 |
56 |
77 |
76 |
81 |
96 |
84 |
17 |
70 |
37 |
99 |
57 |
79 |
77 |
82 |
97 |
79 |
18 |
72 |
38 |
98 |
58 |
81 |
78 |
86 |
98 |
84 |
19 |
73 |
39 |
102 |
59 |
84 |
79 |
89 |
99 |
79 |
20 |
70 |
40 |
101 |
60 |
76 |
80 |
93 |
100 |
84 |
Ход работы
Необработанные (первичные) экспериментальные данные представлены в виде неупорядоченного набора чисел, записанных в порядке их поступления. Этот набор данных трудно обозрим, и сделать по ним какие-то выводы невозможно. Поэтому первичные данные нуждаются в обработке, которая всегда начинается с их группировки.
Группировка представляет собой процесс систематизации, или упорядочения, первичных данных с целью извлечения содержащейся в них информации. Группировка заключается в распределении вариант выборки по группам, или интервалам группировки, каждый из которых содержит некоторый диапазон значений [14,15].
1. Определите размах варьирования результатов измерений по формуле 3.1.
R=115-45=70mm.
где 115 - максимальное значение измерений (таблица 2.3.3),
- 45 - минимальное значение измерений (таблица 2.3.3).
- 2. Определите величину интервала групп. В нашем случае целесообразно взять семь групп. В этом случае получим
. R 70
i = — = —
к 7
Таким образом, в каждом интервале по 10 чисел.
- 3. При помощи табличного процессора Microsoft Excel подготовим макет таблицы сгруппированного распределения частот результатов измерений. При записи в таблицу интервалов следует обратить внимание на то, чтобы верхняя граница группы была меньше, чем нижняя граница, прилегающей соседней группы на единицу измерения. В данном случае на 1 мм. Так значения в диапазоне от наименьшего 45 до 45+10-1=54 встречаются 1 раз, от 55 до 64 - 4 раза ...
- 4. Определим среднее арифметическое (формула 2.3.8) произведем дальнейшие вычисления с использованием формулы 2.3.9
А |
в |
С |
D |
Е |
F |
G |
Н |
|
1 |
Инте |
рвал |
Ч |
Xi |
х - х. |
(х - х,. / |
п,.-(х-х,-? |
|
2 |
45 |
54 |
1 |
49,5 |
49,5 |
31,615 |
999,5082 |
'999,508225 |
3 |
55 |
64 |
4 |
59,5 |
238 |
21,615 |
467,2082 |
1868,8329 |
4 |
65 |
74 |
21 |
69,5 |
1459,5 |
11,615 |
134,9082 |
2833,07273 |
5 |
75 |
84 |
40 |
79,5 |
3180 |
1,615 |
2,608225 |
104,329 |
6 |
85 |
94 |
23 |
89,5 |
2058,5 |
-8,385 |
70,30823 |
1617,08918 |
7 |
95 |
104 |
8 |
99,5 |
796 |
-18,385 |
338,0082 |
2704,0658 |
8 |
105 |
115 |
3 |
110 |
330 |
-28,885 |
834,3432 |
2503,02968 |
9 |
итого |
100 |
8111,5 |
12629,9275 |
||||
10 |
срзнач х |
81,115 |
Рис. 2.3.2. Расчёт квадратов суммы отклонений
4. Определим стандартное отклонение с использованием формулы 2.3.9
А |
в |
С |
D |
Е |
F |
G |
н |
|
1 |
Инте |
рвал |
Ч |
Xi |
п. ? х,. |
X I I I |
(х - X. / |
К- -(Х - X, |
2 |
45 |
54 |
1 |
49,5 |
49,5 |
31,615 |
999,5082 |
999,508225 |
3 |
55 |
64 |
4 |
59,5 |
238 |
21,615 |
467,2082 |
1868,8329 |
4 |
65 |
74 |
21 |
69,5 |
1459,5 |
11,615 |
134,9082 |
2833,07273 |
5 |
75 |
84 |
40 |
79,5 |
3180 |
1,615 |
2,608225 |
104,329 |
6 |
85 |
94 |
23 |
89,5 |
2058,5 |
-8,385 |
70,30823 |
1617,08918 |
7 |
95 |
104 |
8 |
99,5 |
796 |
-18,385 |
338,0082 |
2704,0658 |
8 |
105 |
115 |
3 |
110 |
330 |
-28,885 |
834,3432 |
2503,02968 |
9 |
итого |
100 |
8111,5 |
12629,9275 |
||||
10 |
срзнач х |
81,115 |
S= |
11,2949115 |
Рис. 2.3.3. Нахождение стандартного отклонения
5. Определим ошибку выборочной средней, коэффициент вариации и относительную ошибку выборочной средней по формулам 2.3.10, 2.3.11 2.3.12
А |
в |
С |
D |
Е |
F |
G |
н |
|
1 |
Интервал |
Ч |
Х| |
п,. ? х. |
X I I I |
X I I * I |
rt,. ‘(х-х,- f |
|
2 |
45 |
54 |
1 |
49,5 |
49,5 |
31,615 |
999,5082 |
999,508225 |
3 |
55 |
64 |
4 |
59,5 |
238 |
21,615 |
467,2082 |
1868,8329 |
4 |
65 |
74 |
21 |
69,5 |
1459,5 |
11,615 |
134,9082 |
2833,07273 |
5 |
75 |
84 |
40 |
79,5 |
3180 |
1,615 |
2,608225 |
104,329 |
6 |
85 |
94 |
23 |
89,5 |
2058,5 |
-8,385 |
70,30823 |
1617,08918 |
7 |
95 |
104 |
8 |
99,5 |
796 |
-18,385 |
338,0082 |
2704,0658 |
8 |
105 |
115 |
3 |
110 |
330 |
-28,885 |
834,3432 |
2503,02968 |
9 |
итого |
100 |
8111,5 |
12629,9275 |
||||
10 |
срзнач х |
81,115 |
S= |
11,2949115 |
||||
11 |
Sx= |
1,12949115 |
||||||
12 |
V= |
13,9245657 |
||||||
13 |
Sx%= |
1,39245657 |
Рис. 2.3.4. Нахождение выборочной средней, коэффициента вариации и ошибки выборочной средней
6. Для построения гистограммы необходимо вычислить высоту
интервалов h (формула 2.3.4) и определить полигон эмпирического
распределения
|
.13) |
||||
16 |
_ 3S= |
33,88473 |
|||
17 |
h |
Xt |
х-зз= |
47,23027 |
|
18 |
0,111111 |
49,5 |
x+3S= |
114,9997 |
|
19 |
0,444444 |
59,5 |
|||
20 |
2,333333 |
69,5 |
|||
21 |
4,444444 |
79,5 |
|||
22 |
2,555556 |
89,5 |
|||
23 |
0,888889 |
99,5 |
|||
24 |
0.3 |
110 |
Рис. 2.3.5. Нахождение высоты интервалов и определение полигона эмпирического распределения
7. На основании полученных расчетов показать на графике (см.

Рис. 2.3.6. Гистограмма и полигон эмпирического распределения
Контрольные вопросы и задания
- 1. Определите размах варьирования и величину интервала групп всего эксперимента используя данные из приложения В (по заданию преподавателя).
- 2. Определите стандартное отклонение, коэффициент вариации.
- 3. Вычислите высоту интервалов и определите полигон эмпирического распределения.
- 4. Выполните построение гистограммы и полигона эмпирического распределения.
- 5. Оформите работу с использованием текстового процессора и дайте обоснование полученных данных в выводе.