Эмпирические распределения частот

Одной из основных задач в теории ошибок в области испытания сельскохозяйственной техники можно считать разработку методов наблюдения, учета и отбора проб, позволяющих исключить систематические и ограничить случайные ошибки при сравнительно небольшом числе замеров величин, так как даже при лабораторно-полевых испытаниях машин невозможно пересчитать или измерить все изменения среды в результате воздействия на неё рабочих органов [9,11].

Наблюдения могут быть сплошными, при которых обследованию подвергают всю совокупность, и выборочными, при которых обследованию подвергают часть совокупности, характеризующей всю совокупность признака. Порядок отбора части совокупности может быть повторным и бесповторным. В практике испытания сельскохозяйственной техники применяют только бесповторный отбор, при котором ранее отобранную часть не возвращают в совокупность при последующих отборах [9, 11].

В зависимости от свойства и характера изучаемого явления, а также цели испытания могут быть выборки случайные, механические, типические или серийные.

Серийная выборка применяется при отборе проб для анализа почвы, зерна, измельчённых кормов, масел, угля и других сыпучих тел и жидкостей. Техника отбора проб (серий) должна обеспечивать представительство в пробе составляющих пропорционально их наличию в генеральной совокупности [7].

Многие исследования начинаются обычно со сбора обширного цифрового материала, понимание которого облегчается систематизацией и представлением исходных данных в виде таблиц и графиков

Число N = ??-1 Tii называется объемом выборки.

Для построения гистограммы частот определяют размах варьирования результатов измерений [13]

R = Xmax-Xmin, (2.3.1)

где R - размах варьирования, см;

Хтах, Xmin~ соответственномаксимальное и минимальное значения.

При большом количестве измерений производится группировка полученных значений на к групп.

Величина интервала определяется соотношением

R

  • (2.3.2)
  • (2.3.3)
  • 1 ~ к’

где i - величина интервала, к - число групп, п - количество значений.

Ориентировочно число групп равно квадратному корню из объема выборки, и оно должно быть не меньше 5, но не более 20.

По интервальному ряду можно построить гистограмму частот - множество прямоугольников с основаниями, равными длинам интервалов, высотой [13,14]

^ = 7^ (2.3.4)

хк хк-1

где rifc- частота с которой встречаются значения к — го интервала; хк максимальное значение одного интервала;

хк-1 ~ минимальное значение этого же интервала.

Средняя арифметическая х - представляет собой обобщённую, абстрактную характеристику всей совокупности в целом. Формула для определения средней арифметической имеет следующий вид

Гистограмма эмпирического распределения

Рис. 2.3.1. Гистограмма эмпирического распределения

(2.3.5)

Кривая линия, соединяющая середины интервалов полигоном.

Дисперсия 82и стандартное отклонение S служат мерами вариации, рассеяния изучаемого признака.

называется

основными

Дисперсия представляет собой частное отделения суммы квадратов отклонений на число измерений без единицы

^=^S?=i(Xi-x)2, (2.3.6)

где Х[ - значение признака, варианты,

х - среднее арифметическое.

Размерность дисперсии равна квадрату размерности изучаемого признака, что неудобно и заставляет ввести для измерения рассеяния другую характеристику, имеющую размерность варьирующей величины и называемую стандартным или средним квадратическим отклонением. Его получают извлечением квадратного корня из дисперсии

S = y/? = (2.3.7)

где S - стандартное отклонение.

Среднее арифметическое, или просто среднее, - одна из основных характеристик выборки. Среднее арифметическое - такое значение признака, сумма отклонений от которого выборочных значений признака равна нулю (с учетом знака отклонения) [1].

Если воспользоваться геометрической интерпретацией, то среднее арифметическое можно определить как точку на оси х, которая является абсциссой центра масс гистограммы.

Если данные сгруппированы, то

_ n1xi+n2xi+ -+nkxii _ 1 vfc

х ---------2-1=1 nixi> (Z.3.8)

где xt - среднее значение интервала,

nf - частота, с которой встречаются значения в интервале, N - объём выборки.

Таким образом, при наличии сгруппированных частот дисперсию и стандартное отклонение определяют по формуле

?t=l ni(x~xi) ^2 3 С))

где nt - частота с которой встречаются значения i - го интервала,

N- объём выборки (общее количество всех значений),

х - среднее арифметические всех измерений,

- среднее значение интервала.

Коэффициент вариации V - стандартное отклонение, выраженное в процентах к средней арифметической данной совокупности [1]

V = |100 , (2.3.10)

где V - коэффициент вариации, %.

Коэффициент вариации является относительным показателем изменчивости. Использование коэффициента вариации имеет смысл при изучении вариации признака, принимающего только положительные значения. Не имеет смысла, например, коэффициент вариации, вычисленный для характеристики колебания среднегодовой температуры, близкой к 0°, когда варьирующий признак принимает как положительные так и отрицательные значения.

Изменчивостью принято считать незначительной, если коэффициент вариации не превышает 10%; средней, если V выше 10%, но менее 20%; и значительной, ели коэффициент вариации более 20%.

Ошибка выборочной средней или ошибка выборки S* является мерой отклонения выборочной средней х от средней всей (генеральной) совокупности N. Ошибки выборки возникают вследствие неполной репрезентативности (представительности) выборочной совокупности и свойственны только выборочному методу исследования. Они связаны с перенесением результатов, полученных при изучении выборки, на всю генеральную совокупность. Величина этих ошибок зависит от степени изменчивости изучаемого признака и от объема выборки [4].

Ошибка выборочной средней прямо пропорциональна выборочному стандартному отклонению S и обратно пропорциональна корню квадратному из числа измерений N, т.е.

(2.3.11)

Ошибка средней арифметической тем меньше, чем меньше варьирует опытный материал и чем из большего количества измерений вычислено среднее арифметическое. Ошибка выборки, выражается в процентах от соответствующей средней, называется относительной ошибкой выборочной средней

5х% = Y100’ (2.3.12)

где Sx% - относительная ошибка выборочной средней, %.

Стандартное отклонение служит показателем, который даёт представление о наиболее вероятной средней ошибке отдельного, единичного наблюдения, взятого из данной совокупности. В пределах одного значения (±75) укладывается примерно 2/3 всех наблюдений, или, точнее 68,3% всех вариант, т.е. основное ядро изучае мого ряда величин. Поэтому стандартное отклонение называют также основным отклонением вариационного ряда. Следовательно, возможны отклонения от х, превосходящие ±IS, но вероятность их по мере удаления отклонений от ±1S всё время уменьшается. Так, вероятность встретить вариант, отклоняющуюся от х на величину больше ±35, составляет всего около 0,3%. Поэтому утроенное значение стандартного отклонения принято считать предельной ошибкой отдельного наблюдения, и, следовательно, почти все значения вариант в вариационном ряду укладываются в пределах ±35. Шестикратное значение среднего квадратического отклонения (от +35 до -35) даёт ясное представление о ширине ряда наблюдений, о его рассеянности:

х — 35 < ~х< х + 35. (2.3.13)

Пример. Измерена высота прикрепления нижнего боба (мм) у 100 растений сои. Полученные данные занесены в таблицу 2.3.3. Определить интервальный статистический ряд. Построить гистограмму и полигон эмпирического распределения

Таблица 2.3.3

Данные измерений

№ пп

Значение

№ пп

Значение

№ пп

Значение

№ пп

Значение

№ пп

Значение

1

76

21

45

41

70

61

77

81

89

2

82

22

59

42

67

62

76

82

85

3

80

23

60

43

100

63

88

83

93

4

68

24

63

44

103

64

89

84

90

5

69

25

78

45

69

65

63

85

79

6

74

26

87

46

72

66

82

86

83

7

72

27

94

47

74

67

80

87

91

8

69

28

91

48

66

68

81

88

87

9

80

29

88

49

67

69

77

89

89

10

79

30

90

50

72

70

80

90

94

11

90

31

79

51

72

71

79

91

92

12

109

32

84

52

68

72

78

92

91

13

99

33

84

53

80

73

83

93

76

14

100

34

108

54

81

74

92

94

79

15

115

35

83

55

84

75

93

95

73

16

68

36

84

56

77

76

81

96

84

17

70

37

99

57

79

77

82

97

79

18

72

38

98

58

81

78

86

98

84

19

73

39

102

59

84

79

89

99

79

20

70

40

101

60

76

80

93

100

84

Ход работы

Необработанные (первичные) экспериментальные данные представлены в виде неупорядоченного набора чисел, записанных в порядке их поступления. Этот набор данных трудно обозрим, и сделать по ним какие-то выводы невозможно. Поэтому первичные данные нуждаются в обработке, которая всегда начинается с их группировки.

Группировка представляет собой процесс систематизации, или упорядочения, первичных данных с целью извлечения содержащейся в них информации. Группировка заключается в распределении вариант выборки по группам, или интервалам группировки, каждый из которых содержит некоторый диапазон значений [14,15].

1. Определите размах варьирования результатов измерений по формуле 3.1.

R=115-45=70mm.

где 115 - максимальное значение измерений (таблица 2.3.3),

  • 45 - минимальное значение измерений (таблица 2.3.3).
  • 2. Определите величину интервала групп. В нашем случае целесообразно взять семь групп. В этом случае получим

. R 70

i = — = —

к 7

Таким образом, в каждом интервале по 10 чисел.

  • 3. При помощи табличного процессора Microsoft Excel подготовим макет таблицы сгруппированного распределения частот результатов измерений. При записи в таблицу интервалов следует обратить внимание на то, чтобы верхняя граница группы была меньше, чем нижняя граница, прилегающей соседней группы на единицу измерения. В данном случае на 1 мм. Так значения в диапазоне от наименьшего 45 до 45+10-1=54 встречаются 1 раз, от 55 до 64 - 4 раза ...
  • 4. Определим среднее арифметическое (формула 2.3.8) произведем дальнейшие вычисления с использованием формулы 2.3.9

А

в

С

D

Е

F

G

Н

1

Инте

рвал

Ч

Xi

х - х.

(х - х,. /

п,.-(х-х,-?

2

45

54

1

49,5

49,5

31,615

999,5082

'999,508225

3

55

64

4

59,5

238

21,615

467,2082

1868,8329

4

65

74

21

69,5

1459,5

11,615

134,9082

2833,07273

5

75

84

40

79,5

3180

1,615

2,608225

104,329

6

85

94

23

89,5

2058,5

-8,385

70,30823

1617,08918

7

95

104

8

99,5

796

-18,385

338,0082

2704,0658

8

105

115

3

110

330

-28,885

834,3432

2503,02968

9

итого

100

8111,5

12629,9275

10

срзнач х

81,115

Рис. 2.3.2. Расчёт квадратов суммы отклонений

4. Определим стандартное отклонение с использованием формулы 2.3.9

А

в

С

D

Е

F

G

н

1

Инте

рвал

Ч

Xi

п. ? х,.

X I

I I

- X. /

К- -(Х - X,

2

45

54

1

49,5

49,5

31,615

999,5082

999,508225

3

55

64

4

59,5

238

21,615

467,2082

1868,8329

4

65

74

21

69,5

1459,5

11,615

134,9082

2833,07273

5

75

84

40

79,5

3180

1,615

2,608225

104,329

6

85

94

23

89,5

2058,5

-8,385

70,30823

1617,08918

7

95

104

8

99,5

796

-18,385

338,0082

2704,0658

8

105

115

3

110

330

-28,885

834,3432

2503,02968

9

итого

100

8111,5

12629,9275

10

срзнач х

81,115

S=

11,2949115

Рис. 2.3.3. Нахождение стандартного отклонения

5. Определим ошибку выборочной средней, коэффициент вариации и относительную ошибку выборочной средней по формулам 2.3.10, 2.3.11 2.3.12

А

в

С

D

Е

F

G

н

1

Интервал

Ч

Х|

п,. ? х.

X I

I I

X I I

* I

rt,. ‘(х-х,- f

2

45

54

1

49,5

49,5

31,615

999,5082

999,508225

3

55

64

4

59,5

238

21,615

467,2082

1868,8329

4

65

74

21

69,5

1459,5

11,615

134,9082

2833,07273

5

75

84

40

79,5

3180

1,615

2,608225

104,329

6

85

94

23

89,5

2058,5

-8,385

70,30823

1617,08918

7

95

104

8

99,5

796

-18,385

338,0082

2704,0658

8

105

115

3

110

330

-28,885

834,3432

2503,02968

9

итого

100

8111,5

12629,9275

10

срзнач х

81,115

S=

11,2949115

11

Sx=

1,12949115

12

V=

13,9245657

13

Sx%=

1,39245657

Рис. 2.3.4. Нахождение выборочной средней, коэффициента вариации и ошибки выборочной средней

6. Для построения гистограммы необходимо вычислить высоту

интервалов h (формула 2.3.4) и определить полигон эмпирического

распределения

  • (2.3
  • 15

.13)

16

_ 3S=

33,88473

17

h

Xt

х-зз=

47,23027

18

0,111111

49,5

x+3S=

114,9997

19

0,444444

59,5

20

2,333333

69,5

21

4,444444

79,5

22

2,555556

89,5

23

0,888889

99,5

24

0.3

110

Рис. 2.3.5. Нахождение высоты интервалов и определение полигона эмпирического распределения

7. На основании полученных расчетов показать на графике (см.

Гистограмма и полигон эмпирического распределения

Рис. 2.3.6. Гистограмма и полигон эмпирического распределения

Контрольные вопросы и задания

  • 1. Определите размах варьирования и величину интервала групп всего эксперимента используя данные из приложения В (по заданию преподавателя).
  • 2. Определите стандартное отклонение, коэффициент вариации.
  • 3. Вычислите высоту интервалов и определите полигон эмпирического распределения.
  • 4. Выполните построение гистограммы и полигона эмпирического распределения.
  • 5. Оформите работу с использованием текстового процессора и дайте обоснование полученных данных в выводе.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >