Понятие о характере распределения признаков
Характер распределения признаков относится к так называемым «групповым свойствам статистической совокупности, т.е. к свойствам, которые могут проявиться только в группе (в статистической совокупности) и не наблюдаются у отдельной единицы наблюдения. По сути, описательная статистика как раз и направлена на характеристику признака в статистической совокупности, т.е. на описание его распределения.
Распределение признака - свойство, заключающееся в неодинаковом распределении элементов совокупности по величине признака.
В настоящем учебном пособии мы не стали рассматривать подробно все виды и характеристики распределения признаков[1] и решили остановиться на принципиальных и практически значимых аспектах.
Выделяют альшермашмвяое(биномиальное) распределение, характерное для качественных явлений (явление либо есть, либо его нет). По альтернативному распределению распределены номинальные качественные признаки. Например, распределение населения по полу, наличие или отсутствие заболевания имеют два варианта ответов. Как вариант альтернативного распределения качественные порядковые признаки могут быть распределены полиномиально - имеют более двух вариантов ответов, но каждый вариант исключает прочие. Например, при характеристике инвалидов, часть из них будут иметь I, часть II и часть III группы инвалидности, но наличие одного варианта, исключает другие. Для описания таких видов распределения достаточно рассчитать пропорции между абсолютными частотами (относительные величины).
Количественные признаки имеют более сложный характер распределения, т.к. обладают таким свойством как вариабельность (разнообразие). Одним из важнейших типов распределения является нормальное или симметричное распределение. Оно характерно для многих количественных явлений. Например, в определенной возрастной и половой группе не много людей, имеющих невысокий рост; чем выше значения роста, тем больше количество людей до достижения его среднего значения; в дальнейшем происходит симметричное снижение количества лиц имеющих все более высокий рост. На практике идеальное симметричное распределение особенно количественных признаков в медицинских данных часто получить не удается (как правило, в виду небольших групп исследования). И в самом начале анализа количественных данных исследователь должен определить соответствие распределения анализируемого количественного признака закону нормального распределения.
На рисунке 19 представлена гистограмма распределения значений общего холестерина крови у больных сахарным диабетом с наложенной линией
нормального распределения. Чем лучше реальное распределение вписывается в наложенную кривую, тем более оно может быть расценено как близкое к нормальному. Таким образом, для ориентировочного определения характера распределения может быть применен графический метод. Однако для более точного определения соответствия распределения полученных данных нормальному распределению, рекомендуется пользоваться специальными критериями, наиболее мощным из которых считается критерий Шапиро - Уилка[2]. При уровне статистической значимости критерия р>0,05 можно считать распределение близким к нормальному (на рис.2 р=0,6). Что следует из такого характера распределения в практическом плане? Шапиро-Уилка W=,98923, р=,60265 Общий холестерин (ммоль/л) Рисунок 19. Пример нормального распределения количественного признака. При распределении количественного признака, приближенного к нормальному распределению, главной его характеристикой будет являться средняя арифметическая величина, а разнообразие количественного признака может быть определено с помощью стандартного отклонения. В дальнейшем для анализа групп по количественному признаку могут быть применены параметрические методы оценки.
Параметрические методы статистики — класс статистических методов, используемых для анализа данных. Названы так потому, что опираются на анализ параметров нормального распределения (средней арифметической, срсднсквадратичсского отклонения и др.). Если распределение отличается от нормального и является ассимет-ричным (правосторонним, левосторонним, двугорбым, многогорбым), то характеристиками такого явления не могут быть средняя арифметическая величина и стандартное отклонение[3]. При описании ассиметричных распределений для иллюстрации центральной тенденции (центр распределения) пользуются медианой, а для характеристики разнообразия - квантилями. Для анализа различий или взаимосвязи между такими признаками применяют непараметрические мет оды. Непараметрические методы - класс статистических методов, не предполагающих знания вида характера распределения. Продемонстрируем на примере, как можно определить характер распределения количественного признака в программе Statistica, которая представляет для этого достаточно возможностей. Одна из них - использование нормальных вероятностных графиков. На рисунке 20 отображена таблица данных о больных сахарным диабетом. Проведем анализ характера распределения общего холестерина и ТАГ с помощью нормальных вероятностных графиков. Для этого в меню «Графика» выберем в подменю «2М Графики» данный тип графического изображения.
A SUTBDCA ? Ь|М СД~ фэйл Прдвсз Вид Bfra«s Форцэт Утилиз ДсСсуэ Дзгте« Грефигл С?рсис Дгггые Qmo Спрэдо М ДвСмт* Гродолжить.. Cttl.R «1ит«( MSWcrd ВОЗрЭСГ В z U gggS И 1>ниьи: Е-гм.СД' J6Ov' 100с) Г ж тс*|мм»ш.. Дижрэммы рассеет».. Гр<фии- средиид с сшибыми... Г мфио» повер>яостей-- R1 А'Гр.ф Г»стогр*ы1 имт от СУМ JM Посл»лс*>'*ли*» ? р»ф)ЖИ ЗМ XY2 Гр1ф«ии У г-ричюе графики.. Гжгтогрэфики . Киглсрмкявнны» грмфюи Грэфиш ПОЛ»1ОЫТС^> 5 45 СД сред» 30 99 ? Г Емфиш блсжсеи» дэнпи» 6 45 СД сред- 27 96 Гр*фио» ицэдгеи доны» 7 55 СД сред» 30.5 99 Паке-ием анели} 8 48 СД сред- 29 98 11 ч PtiuKij»») насколми» графике* 9 55 СД сред- 30 90 ОТГГ -------ГСЗ------Г2~Л31 4 Л 10 48 СД сред» 20 82 0.8 146 88 ЗЯ 11 56 СД с ред- 23 80 0.8 125 104 6 5а 12 45 СД сред» 25 89 0.8 151 145.4 ? 1 13 50 СД сред- 30 101 1.2 165 96.8 52Я 14 47 СД сред» 33 103 121 144 19144 4 3 15 48 СД сред» 22 88 0.9 156 117 48 4 1 16 54СДтяж 36 112 1.1 136 163,1 51 17 54 СД сред» 29.5 92 1 145 107 67 41 18 46 СД тян 28 118 1.18 163 21244 8 4 19 46 СД сред» 32 118 1.4 171 2016 5 3? 20 48 СД сред» 26 93 1.1 135 117 56 1______63 Диграммы pjCCCiWH- 3 Диграммы рэссемжя с оиабоыи.» Диграммы кондоормгии.. I рафики ЩЗ Диграмме) ди«п,;ок«.- 3 Пикгрграфжи рассмии*.. Л‘] Диграмм») расссяпия с цзсбражсниши.. Диграмме) рассеапмя с гистограммами.. стстер) Рисунок 20. Меню выбора нормальных вероятностных графиков. Рисунок 21. Диалоговое окно нормальных вероятностных графиков. В появившемся диалоговом окне (рис. 21) выберем нужные переменные. Также необходимо поставить галочку в пункте «Критерий Шапиро-Уилка» (по умолчанию опция его расчета отключена). Также обращаем внимание на возможности определения характера распределения признака не со 42 всеми единицами наблюдения, а по группам либо задав более сложные условия включения / исключения отдельных случаев. Эта опция весьма полезна, т.к. зачастую вся группа целиком может быть неоднородной (в таблице имеются данные по основной и контрольной группе и др.). После нажатия кнопки ОК можно последовательно рассмотреть полученные результаты (рис. 22, 23). Все результаты анализа сохраняются в рабочей книге Statistica. К ним легко вернуться и легко скопировать данные в другие приложения (например, в MS Word). На рисунках красная прямая отражает ожидаемое нормальное распределение. Около нее расположены точки, каждая из которых отражает фактическое значение признака отдельной единицы наблюдения (больного). Чем ближе точки расположены к прямой, тем ближе наблюдаемое распределение к ожидаемому нормальному и наоборот. Следовательно, распределение общего холестерина у больных сахарным диабетом приближено к нормальному, а ТАГ отлично от него. Это подтверждают и значения рассчитанных критериев Шапиро - Уилка, уровень статистической значимости которых в первом случае выше порогового (р=0,05, вероятность неправильно отклонить нулевую гипотезу о том что распределение отлично от нормального равна 60%), а во втором - ниже (вероятность отклонить неправильно отклонить нулевую гипотезу о том, что распределение отлично от нормального крайне мала). Нормальные вероятностные графики для холестерин Рисунок 22. Характер распределения общего холестерина у больных сахарным диабетом (распределение близкое к нормальному). Нормальные вероятностные графики для ТАГ | ТАГ: Ш-У W = 0,9227; р = 0,000021 Наблюдаемое значение Рисунок 23. Характер распределения ТАГ у больных сахарным диабетом (распределение отличное от нормального). Из этого практически вытекает то, что для описания холестерина у больных сахарным диабегом можно пользоваться средней арифметической и стандартным отклонением, применять параметрические оценки, а для описания ТАГ - нельзя. Необходимо будет использовать медиану и квантили, использовать нспарамстричсскис методы. Другой вариант определения характера распределения количественных признаков - через построение гистограмм. На ранее приведенном рисунке 19 изображена гистограмма распределения уровня общего холестерина построенная на данных тех же больных. Последовательность действий примерно такая же, как и для построения нормальных вероятностных графиков. Более того, все эти методики доступны из различных диалогов анализа при их проведении.