Описательная статистика количественных данных. Средние величины

Понятие о средних величинах. Методика расчета

Для анализа количественных признаков в медицинской статистике применяют расчет и анализ средних величин.

Под средней величиной понимают число, выражающее общую меру количественного признака в статистической совокупности, нивелирующей его минимальные и максимальные значения.

Средняя величина является наиболее типичной величиной для количественного признака, около которой сосредоточено большинство других его значений.

На рисунке 36 представлены средние величины, наиболее часто используемые в медицинской статистике.

Условие применения

Способ определения

Распределение анализируемого

Сумма значений всех вариант

признака близко к нормальному

деленная на их количество

Распределение анализируемого

Является серединной вариантой

признака отлично от нормального

ранжированного ряда

Можетбыть использована при

малом числе наблюдений, когда

-

велико влияние состава

Варианта, значение которой

совокупности либо крайних

наиболее часто встречается в

вариант на среднюю

вариационном ряду

арифметическую в

ассиметричных распределениях

Рисунок 36. Средние величины, наиболее часто используемые в медицинской статистике.

Из рисунка 36 следует, что прежде чем определять ту или иную среднюю величину необходимо проанализировать соответствие распределения количественного признака закону нормального распределения. Если оно ему соответствует, то рассчитывается средняя арифметическая величина, если нет - медиана (в большинстве случаев). Отступив от этого правила, исследователь рискует охарактеризовать количественный признак неверно, со всеми вытекающими из этого последствиями.

Средняя арифметическая может быть рассчитана тремя способами. Если число наблюдений при исследовании количественного признака небольшое (менее 30), а значение каждой варианты встречается только один раз, расчеты можно вести простым способом'.

У v

М =^— п

где М - средняя арифметическая величина;

?V - сумма всех вариант;

п - число наблюдений.

Если некоторые варианты имеют одинаковые значения и число наблюдений также небольшое (менее 30), а также при низком разнообразии изучаемого признака, удобно пользоваться способом вычисления средней арифметической взвешенной:

где М - средняя арифметическая величина;

XVp - сумма произведений всех вариант на их частоты; п число наблюдений.

При большом количестве наблюдений и высоком разнообразии изучаемого признака данные способы вычисления средней арифметической неудобны из за громоздкости расчетов. В этом случае прибегают к способу моментов[1]'.

У'ар

М - A + i-=—— п

где М средняя арифметическая;

А - условная средняя;

i - интервал;

а - условное отклонение от условной средней;

р - частота;

п - число наблюдений.

Для расчета средней арифметической величины любым из способов необходимо построить вариационный ряд.

Вариационнымрядомназывается ряд чисел, расположенных в порядке убывания или возрастания, количественно характеризующий изучаемый признак.

Даже при возможности компьютерной обработки количественных данных, построение вариационного ряда является основой их анализа, т.к. позволяет описать распределение количественного признака в статистической совокупности, определить среднее значение признака, его разнообразие, выбирать правильные методики сравнения данных и определения взаимосвязи между признаками. Данные свойства определяются характеристиками ряда -его элементами. Основными элементами вариационного ряда являются:

Варианта (V) - каждое число вариационного ряда, показывающее отдельное количественное выражение признака.

Частота (р) - абсолютная численность отдельной варианты в ряду; сумма всех частот составляет число наблюдений (п).

Интервал (i) - расстояние между отдельными вариантами или группами в вариационном ряду.

Средняя арифметическая (М), медиана (Me), мода (Мо) - характеристики среднего уровня признака.

Варианты минимальная и максимальная (лимит) - характеризуют разнообразие количественного признака по его крайним значениям.

Амплитуда (размах) - разница между минимальной и максимальной вариантами; характеризует разнообразие количественного признака по его крайним значениям.

Среднеквадратическое (стандартное) отклонение (д) — характеристика разнообразия признака в симметричном (близком к нормальному распределению) вариационном ряду, показывающая его внутреннюю структуру.

Квантили - варианты вариационного ряда, делящие его на различные равные части (медиана - на 2, терцили - 3, квартили - 4, децили - 10, процентили - 100), используются для характеристики разнообразия признака в несимметричном вариационном ряду, показывающие его внутреннюю структуру

При небольшом количестве наблюдений достаточно построить простой вариационный ряд из имеющихся вариант, расположив их в порядке возрастания. В случае большого количества наблюдений строят сгруппированный вариационный ряд.

Методика построения сгруппированного вариационного ряда сводится к следующим этапам:

• Первым этапом построения сгруппированного вариационного ряда является определение количества групп в ряду. Чем больше групп, тем более громоздки расчеты; чем меньше групп, тем более скрадывается разнообразие изучаемого признака и снижается точность. Поэтому нежелательно, чтобы количество групп было менее 6 и более 17. Удобно ориентировочно определять количество групп в зависимости от числа наблюдений при помощи специальной таблицы (таб. 3), однако исследователь должен сам решить и обосновать свое решение.

Число групп в зависимости от числа наблюдений

Таблица 3

п (число наблюдений)

31-45

46- 100

101-200

200-500

г (количествогрупп)

6-7

8-10

11-12

12-17

• Вторым этапом построения сгруппированного вариационного ряда является определение интервала между группами по следующей формуле, округляя полученную величину до целого числа:

где i - величина интервала;

Умакс. - максимальная варианта;

Умин. - минимальная варианта г - количество групп.

• На третьем этапе определяем начало и конец в каждой группе, согласно значению интервала.

  • На четвертом этапе распределяем варианты по группам в соответствии с их частотами.
  • На пятом этапе определяем серединную варианту в каждой группе как среднюю арифметическую между крайними вариантами.
  • • Далее для последующего анализа вариационного ряда строим его графическое изображение.

Поясним данные этапы на примере. При исследовании уровня гемоглобина у 54 беременных женщин были получены следующие данные: 113, 114,

  • 115, 116, 116, 117, 117. 118, 118, 119, 120, 120, 119, 119, 120, 120, 121, 121,
  • 122, 122, 122, 121, 121, 122, 122, 123, 123, 123, 123, 124, 124, 124, 124, 124,
  • 125, 125, 125, 125, 126, 126, 125, 126, 127, 128, 128, 128, 129, 129, 129, 130,
  • 130, 131, 132, 133 г/л.
  • 1. Поскольку число наблюдений в ряду п = 54, то пусть количество групп будет равно 8 (согласно таблице 1).
  • 133-113
  • 2. Определим интервал: i =-------= 2,5 ® 3

О

3. Определим начало и конец в каждой группе согласно значению интервала. Так первая варианта равна 113, значит под ней должна располагаться варианта 113 + 3 (значение интервала) =116, тогда первая группа будет включать в себя варианты от 113 до 115, вторая от 116 до 118 и т.д. Продолжаем осуществлять группировку, пока все варианты вариационного ряда не войдут в состав соответствующих групп (таблица 4).То, что количество групп в результате получилось не 8, а 7, не является ошибкой и является следствием округления величины интервала до целого числа.

Таблица 4

Результат третьего этапа построения сгруппированного вариационного

ряда

V

113 -

115

116

118

119

121

122

124

125

127

128

130

131

133

4. Распределим варианты по группам в соответствии с их частотами, т.е. в группу 113 - 115 входит 3 варианты, в группу 116-118 - 6 вариант и т.д. Результат этапа представлены в таблице 5.

Таблица 5

Результат четвертого этапа построения сгруппированного вариационного ряда

V

Р

113-115

3

116- 118

6

119- 121

11

122- 124

14

125 - 127

9

128- 130

8

131 - 133

3

  • 5. Определим серединную варианту в каждой группе как среднюю арифметическую между крайними вариантами. Так середина группы 113 - 115 будет равна (113+115):2=114, следующей группы 117 и т.д. В результате получаем сгруппированный вариационный ряд (таблица 6).
  • 6. Построим графическое изображение ряда (рис. 37), наглядно иллюстрирующее распределение уровней гемоглобина у беременных женщин, из которого видно, что оно близко к симметричному," из чего следуют выводы, что для характеристики среднего уровня гемоглобина можно применять среднюю арифметическую, для характеристики разнообразия - среднеквадратическое отклонение, а при необходимости последующего сравнения данных и определения взаимосвязи между признаками - так называемые параметрические методы.

Таблица 6

Сгруппированный вариационный ряд

V

Р

114

3

117

6

120

11

123

14

126

9

"При анализе соответствия распределения признака симметричному в научных исследованиях используют не только графическое изображение, но и специальные критерии: Колмогорова - Смирнова, Лиллисфорса, Шапиро Уилка (не рассматриваются в настоящем учебном пособии).

129

8

132

3

Уровень гемоглобина

Рисунок 37. Распределение беременных женщин по уровню гемоглобина.

По сгруппированному вариационному ряду можно рассчитать среднюю арифметическую способом моментов по формуле:

У'ар

М = A + i^-l п

За условную среднюю (А) можно взять любую варианту вариационного ряда, однако для удобства принято брать варианту, значение которой будет близко к средней арифметической. Обычно за условную среднюю берут моду либо медиану. В данном ряду модой является варианта, имеющая значение 123 г/л (см. таблицу 7, условная средняя выделена жирным шрифтом).

Далее необходимо найти условное отклонение вариант от условной средней (а). Если бы определялось истинноеотклонение вариант от условной средней (<1),то расчет бы проводился по формуле d= V - А(в таблице 7 результаты вычисления d выделены серым фоном).Изтаблицы 11 видно, что значения d различаются друг от друга на величину интервала.Для упрощения последующих вычислений рассчитывается нс истинное отклонение, а условное (а) - интервал условно принимаем за 1, т.е. каждое отклонение будет отличаться от последующего на 1. Не грудно заметить, что условное отклонение а = сУЦвпоследствии при расчете средней арифметической эта допускаемая условность устраняется умножением момента первой степени на значе-62

ние интервала[2]) Естественно, что при расчетах нет никакой потребности, определять и а, и <1, проще сразу установить условное отклонение. В настоящем примере расчеты d приведены исключительно ради объяснения. Далее построчно находим произведение ар, ?ар и подставляем данные в формулу, получая значение средней арифметической.

Таблица 7

Вычисление данных, необходимых для расчета средней арифметической величины по способу моментов

V

Р

d

а

ар

114

3

-9

-3

-9

117

6

-6

-2

-12

120

11

-3

1

11

123

14

0

0

0

126

9

3

1

9

129

8

6

2

16

132

3

9

3

9

п = 54

Zap = 2

М = д + ,2^ = 123 + 3— = 123,1 »123г/л п 54

Таким образом, средний уровень гемоглобина у беременных женщин составил 123 г/л.

Однако в данной задаче анализируемый признак имел распределение близкое к нормальному. В 60 - 80% медицинских исследований анализируемые признаки распределены ассиметрично. Расчет средней арифметической величины в данном случае приведет к некорректным результатам. Покажем это на примере. Предположим, что в отдельной больнице «N» врачи (n=31) имеют следующие значения ежемесячной оплаты труда (руб.): 7200, 7200, 7200, 7400, 7400, 7400, 7400, 8425, 8678, 9000, 12300, 12500, 12500, 12500, 12500, 12500, 13000, 13000, 13000, 13000. 14000, 14000, 14000, 14000, 14000. 15000, 16000, 16000, 25000. 28000. 74000.

Рассчитанная средняя арифметическая составила 14455 рублей. Однако очевидно, что распределение оплаты труда не подчиняется закону нормаль-

ного распределения (рис. 38), и на значение средней арифметической оказывают влияние не типично высокие для данной больницы единичные суммы заработной платы. Следовательно и сама средняя арифметическая величина не будет является типичной для данной совокупности. В этом случае целесообразно охарактеризовать оплату труда врачей медианой (серединной вариантой). Она равна 12500 рублям. Поскольку медиана делит ряд пополам, можно сделать вывод, что около половины врачей получают менее 12500 рублей, а половина более чем 12500 рублей. Данные вычисления проводились в нечетном ряду. В случае если ряд четный медиана определяется как среднее арифметическое между двумя центральными вариантами.

Шапиро-Уилка W=.48424. р=.00000

Распределение ежемесячной оплаты труда врачей в больнице N

Рисунок 38. Распределение ежемесячной оплаты труда врачей в больнице N.

Таким образом, средняя арифметическая величина и медиана (в зависимости от тех или иных условий позволяют выявить наиболее общую меру уровня количественного признака - центральную тенденцию.

  • [1] ,0Способы вычисления средней арифметической взвешенной и моментов, являются актуальными при отсутствии возможности компьютерной обработки данных, т.к. упрощают расчеты проводимые «в ручную».
  • [2] 1-’Таким образом, для расчета средней арифметической по способу моментов можно использовать и истинное отклонение вариант от условной средней, но тогда формула будет иметь следующий вид: М =А + ^-2- п
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >