ИССЛЕДОВАНИЕ МНОЖЕСТВА ДАННЫХ С ИСПОЛЬЗОВАНИЕМ SPSS

Команда Эксполаторный анализ в SPSS предоставляет ряд статистических и связанных диаграмм, которые могут быть весьма полезными при исследовании распределения оценок. Дополнительно к таким показателям дескриптивной статистики, как среднее арифметическое, медиана, мода и стандартное отклонение, команда Эксполаторный анализ предлагает меры асимметрии и эксцесса, стебельно-листовую диаграмму, гистограммы, коробчатые диаграммы и графики нормального распределения. Используйте команду Эксполаторный анализ для анализа всех случаев в распределении результатов национальной оценки или для отдельных подгрупп, например учащихся женского и мужского пола или учащихся, посещающих школы в различных регионах.

В следующем упражнении команда Эксполаторный анализ используется для применения на тех же данных, которые были представлены в книге «Проведение национальной оценки учебных достижений» (Greaney and Kellaghan 2012) (NATASSESS4.SAV)2. Внимание сосредоточено на результатах для одной переменной, Mathss (шкалированный балл по математике). В упражнении 2.1 представлен ряд альтернативных подходов для получения дескриптивных статистик. Перед выполнением упражнения обратитесь к панели инструментов

SPSS. Нажмите Правка - Параметры - Общие и проверьте, чтобы в Списке переменных была выбрана опция Отображать названия. Нажмите ОК.

Вы также можете использовать команду Эксполаторный анализ для выполнения начального анализа для сравнения уровней отдельных переменных, например Пол или Регион. В упражнении 2.2 описано, как посмотреть итоговую статистику по четырем регионам, для которых были получены данные национальной оценки.

УПРАЖНЕНИЕ 2.1

Использование команды «Эксполаторный анализ» в SPSS для одной зависимой переменной (один уровень)

1. Откройте файл с данными АНАЛИЗ ДАННЫХ NAEAMOH ДАННЫЕ SPSS

NATASSESS.SAV (Обратите внимание, что вы сохранили данные из упражнения 1.1 в эту подпапку.)

  • 2. Проверьте, чтобы все весовые коэффициенты были включены: Данные -Взвесить наблюдения - Взвесить наблюдения по - Wgtpop - ОК.
  • 3. На панели инструментов выберите Анализ - Описательные статистики -Эксполаторный анализ.
  • 4. Переместите Mathss (шкалированный балл по математике) в Список зависимых переменных. Переместите Studid в ячейку Метить значениями3.
  • 5. Убедитесь, что опция Все была выбрана под Выводить (чтобы в вашем выходном файле были представлены и диаграммы, и статистические данные). Нажмите Статистики (в верхнем правом углу).

Убедитесь, что Описательные статистики отмечены галочкой.

Нажмите Продолжить - Графики. Убедитесь, что опция для построения стебельно-листовой диаграммы - Ствол-лист - отмечена галочкой.

Нажмите Продолжить - ОК.

6. Нажмите Окно на панели инструментов и затем нажмите Результат!.

Сохраните полученный результат в АНАЛИЗ ДАННЫХ NAEAMOH РЕШЕНИЯ УПРАЖНЕНИЕ 2.1. SPVb.

В табл, к упражнению 2.1 .А представлена сводная информация по обработке данных. Поскольку данные были взвешены по размеру генеральной совокупности, 4 747 случаев из базы данных представляют генеральную совокупность из 51 713. Случаи пропуска отсутствуют (эффективный процент: 100).

ТАБЛИЦА К УПРАЖНЕНИЮ 2.1 .А. Сводная информация по обработке случаев

Переменная

Данные

Эффективные

Пропуск

Итого

N

%

N

%

N

%

Mathss

51 713

100,0

0

0,0

51 713

100,0

Ниже приведены пояснения в отношении того, как толковать статистические данные в табл, к упражнению 2.1 ,ВС:

• Средний балл (250,0) - это средневзвешенное арифметическое. Стандартная ошибка среднего равна 0,22. (См. гл. 4 для получения информации

о стандартных ошибках.)

• 95-процентный доверительный интервал для среднего арифметического - расчетный примерный диапазон значений с вероятностью включения неизвестного среднего значения популяции национальной оценки 95 %. Доверительный интервал простирается от 249,6 (нижняя граница)

до 250,4 (верхняя граница). (На основе среднего ±1,96, умноженного на стандартную ошибку.)

ТАБЛИЦА к УПРАЖНЕНИЮ 2.1 .В. Показатели описательной статистики

Переменная

Название

Статистическое значение

Стандартная ошибка

Mathss

Среднее арифметическое

250,0

0,22

95-процентный доверительный интервал для среднего арифметического

Нижняя граница

249,6

Верхняя граница

250,4

5 % усеченное среднее

251,1

Медиана

256,3

Дисперсия

2 499,8

Стандартное отклонение

50,0

Минимум

88,4

Максимум

400,0

Размах

311,6

Межквартильный размах

67,1

Асимметрия

-0,380

0,011

Эксцесс

-0,101

0,022

  • Усеченное среднее на 5 % - среднее арифметическое, рассчитанное путем отбрасывания верхних и нижних 5 % результатов (данных). Оно обеспечивает более эффективную меру центральной тенденции в случае, если данные несимметричны. Усеченное среднее на 5 % составляет 251,1.
  • Медиана представляет собой величину, ниже которой находятся 50 % случаев. Она также представляет собой 50-й процентиль. Рассчитанная медиана равна 256,3.
  • Дисперсия является мерой степени разброса или рассеивания для распределения результатов тестов. Дисперсия равна 2499,8.
  • Стандартное отклонение (квадратный корень из дисперсии) составляет 50,0.
  • Минимум и максимум представляют собой самую низкую (88,4) и самую высокую (400,0) величины в распределении.
  • Размах оценок равен разности (311,6) между самым высоким и самым низким значениями оценок в распределении.
  • Межквартильный размах - это расстояние между значениями у третьего (75-й процентиль) и первого квартилей (25-й процентиль) и является мерой разброса данных. IQR рассматриваемых оценок составляет 67,1.
  • Асимметрия является мерой несимметричности распределения. Нормальное распределение является симметричным, и величина асимметрии в таком случае примерно равна нулю. Величина асимметрии отрицательна (-0,38). Величина асимметрии между -1 и +1 считается очень хорошей для большинства психометрических исследований, но значение между -2 и +2 также считается приемлемым.
  • Эксцесс является мерой степени, в которой наблюдаемые значения величин сгущаются вокруг центральной точки («островершинность» вероятностного распределения). Для нормального распределения величина эксцесса равна или близка к нулю. Положительная величина эксцесса, превышающая нуль, указывает на то, что наблюдения (оценки) более кластеризированы и имеют более плоские хвосты (лептокуртическое распределение), чем при нормальном распределении. В свою очередь избыточная отрицательная величина эксцесса указывает на то, что наблюдения менее кластеризированы и имеют более высокие хвосты (платикуртическое распределение). Как и с асимметрией, значение эксцесса между -1 и +1 считается очень хорошим, но значение между -2 и +2 обычно считается приемлемым. Полученная в примере величина 0,101 является хорошей в рамках обоих ограничений.

На основе анализа построена стебельно-листовая диаграмма (рис. к упражнению 2.1 .А), показывающая относительную плотность и форму распределения данных. Она является способом представления частотного распределения оценок.

66 I ВВЕДЕНИЕ В СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ НАЦИОНАЛЬНОЙ ОЦЕНКИ

УПРАЖНЕНИЕ 2.1 (продолжение)

РИС. К УПРАЖНЕНИЮ 2.1 .А. Стебельно-листовая диаграмма для шкалированных оценок по математике

Диаграмма «Ствол и листья» для шкалированных баллов по математике

Частота

  • 345,60 101,22 314,96 420,52 838,18 821,09 1 031,31 1 151,17
  • 1 453,47
  • 2 092,02
  • 2 451,99 2 716,84
  • 2 557,21
  • 3 687,82
  • 3 404,89
  • 4 134,60 4 588,34 4 204,67
  • 4 387,03 3 105,82 3 052,00 1 795,08 1 085,84 817,82 493, 64 271,30 296,97 56,81 23,51 11,27

Ширина ствола: Каждый лист:

Ствол и листья

Крайние значения (=<117}

  • 11 . 79&
  • 12 . 0379964
  • 13 . 113578844
  • 14 . 013345555667888899&
  • 15 . 00023456677788994
  • 16 . 01112234556667788889
  • 17 . 00123444555566677888899
  • 18 . 0001122222233333455555666777899
  • 19 . 000111112233334444455555666677788888999999
  • 20 . 0000111122222223333344444555555666667777778889999
  • 21 . 00001112222233334444445555555666666777777888899999999
  • 22 . 00000111122223333444445555бббб66777777888в88999999
  • 23 . 00000000011112222222333333334444444555555555566666667777777888888899999999
  • 24 . 000000000111111122222223333333333444444455555566666777777888888899999
  • 25 . 0000000011111222222233333344444444455555555556666666677777777777888888888999999999
  • 26 . 0000000001 11111112222222222222333333333344444444455555555666666677778В888889999999
  • 27 . 0000000001111111112222222223333333334444445555555556666666666677777778888889999999999
  • 28 . 0000000001111111112222222222223333333333334444444444555555566666666677777778888888999999
  • 29 . 000001111122222223333333344444445555566666666677777888888999999
  • 30 . 0000111111112222233333333334444444455555666666677777788899999
  • 31 . 00000001122222333344455555667788889
  • 32 . 011112233445566678899
  • 33 . 0000113445666778&
  • 34 . 0123477899&
  • 35 . 01226&
  • 36 . 01779&4
  • 37 . &
  • 38 . &

Крайние значения (>=386)

  • 10,00
  • 50 случаев

& обозначает фракционные листья.

Каждое наблюдаемое значение (в порядке возрастания) подразделяется на два компонента: ведущие цифры (ствол) и младшие цифры (листья). Ствол представляет собой цифры разряда десятков (или выше) рассматриваемого значения результата, а листья - конечные цифры. Ствол 15, например, показывает, что 821 (взвешенные оценки) учащиеся получили оценки между 150 и 159 (включительно). Данные также указывают на то, что значения не больше 117 и не меньше 386 считаются «крайними» по причинам, которые будут описаны ниже.

Закройте файл с данными SPSS NATASSESS.SAV, выбрав Файл - Выход на панели инструментов. Для данного упражнения есть файл в папке «Ответы к упражнениям».

Команда Эксполаторный анализ также позволяет построить коробчатую диаграмму (или диаграмму типа «ящик с усами») (рис. к упражнению 2.1 .В). Это графическое представление распределения тестовых оценок, которое включает медиану (50-й процентиль) и 25-й и 75-й процентили. Расстояние между верхом и низом ящика (между 25-м и 75-м процентилем) является IQR, или расстоянием между самой высокой и самой низкой оценками в середине 50 % оценок в распределении.

Коробчатая диаграмма также показывает крайние и выпадающие значения. Усы (линии, протянувшиеся от верха и низа ящика) представляют самые высокие и самые низкие значения, которые не являются крайними и выпадающими.

(см. продолжение)

Выпадающие значения (значения, в 1,5-3 раза превышающие IQR) и крайние значения (значения, более чем в 3 раза превышающие IQR) представлены маленькими кружочками за пределами усов. Номера в списке (например, 423410) представляют собой идентификационные номера учащихся (Studid), показавших результаты, которые являются крайними или выпадающими оценками.

Коробчатая диаграмма (рис. к упражнению 2.1 .В) может предоставить полезную информацию в визуальной форме. Она отражает следующие характеристики данных:

РИС. К УПРАЖНЕНИЮ 2.1 .В. Коробчатая диаграмма для шкалированных оценок по математике

  • 400.00
  • 423410 о
  • 419208 4Т7218
  • 300.00
  • 200.00
  • 100.00
  • 0.00
  • --------------------------------------------------------------------------1-------------------------------------------------------------------------

Шкалированные баллы по математике Значения, взвешенные по Wgtpop

  • • Медиана (линия, проходящая через центр коробки) является средней точкой распределения и, как и среднее арифметическое, является мерой центральной тенденции.
  • • Высота коробки (IQR) показывает степень вариации значений результатов тестов в распределении.
  • • Медиана, расположенная в нижней половине ящика, предполагает правостороннюю асимметрию, а в верхней - левостороннюю. Медиана близка к середине ящика, что указывает на относительно незначительную асимметрию (рис. к упражнению 2.1 .В).

УПРАЖНЕНИЕ 2.1 (окончание)

Выпадающие значения, определяемые как значения, находящиеся на расстоянии в 1,5-3 высоты ящика от верхнего (75-й процентиль) и нижнего (25-й процентиль) значения ящика, и крайние значения, определяемые как значения, находящиеся на расстоянии более чем в 3 высоты ящика от указанных точек, должны быть исследованы дополнительно, чтобы убедиться, что они не являются неверными, а являются валидными оценками.

a. Вы также можете провести некоторые опциональные статистические исследования и построить опциональные диаграммы. Нажав на Статистики после этапа 3, вы можете выбрать учащихся с крайними значениями, выбрав Выпадающие значения (где указаны пять самых высоких и самых низких значений в распределении). Аналогично, выбрав процентили, вы можете получить значения для 5-го, 10-го, 25-го, 50-го, 75-го, 90-го и 95-го процентилей, дополнительно к стандартным Показателям описательной статистики. Нажав на Графики, вы можете выбрать раздел Гистограммы дополнительно к стандартной стебельно-листовой диаграмме. И те, и другие могут быть скопированы в документ Word.

b. Обратите внимание, что копия выходного файла для упражнения 2.1 также доступна в папках Анализ данных НАЕАОтветы к упражнениямУпражнение2.1 .SPV.

c. Обратите внимание, что все кроме самых последних оценок в таблице 2.1 .В были округлены - до одной цифры в случае оценок и двух цифр в случае стандартных ошибок. Это было осуществлено путем выделения значений в таблице (кроме асимметрии и куртозиса), нажатия правой кнопкой мыши и выбора Ячейка - Свойства - Формат - Значение -Номер и установки количества цифр после запятой на 1 (или 2).

УПРАЖНЕНИЕ 2.2

Использование команды «Эксполаторный анализ» в SPSS для одной зависимой переменной (более одного уровня)

  • 1. Откройте файл с данными SPSS АНАЛИЗ ДАННЫХ NAEAMOH ДАННЫЕ SPSSNA TASSESS. SA V.
  • 2. Выберите Анализ - Описательные статистики - Эксполаторный анализ.

Переместите Mathss в Список зависимых переменных. Переместите Region в Список факторов. Переместите Studid в ячейку Метить значениями. Убедитесь, что опция «Все» была выбрана под Выводить (чтобы в вашем выходном файле были представлены и диаграммы, и статистические данные). Нажмите Статистические показатели (в верхнем правом углу). Убедитесь, что Описательные статистики отмечены галочкой. Нажмите Продолжить - Графики. Убедитесь, что опция Ствол-листья отмечена галочкой. Нажмите Продолжить - ОК.

В вашем выходном файле прокрутите вниз, чтобы увидеть показатели описательной статистики для каждого из четырех регионов. Обратите внимание, например, что среднее арифметическое для Северо-Запада составляет 233,3. Соответствующе данные для Городской агломерации,

Восточных холмов и Юго-Западного побережья составляют 265,7, 249,1, и 251,2, соответственно3. Прокрутите вниз до конца, чтобы увидеть коробчатые диаграммы для каждого из четырех регионов (рис. к упражнению 2.2.А).

РИС. К УПРАЖНЕНИЮ 2.2.А. Коробчатые диаграммы для шкалированных баллов по математике по регионам

  • 400.00-
  • 457215

то

S ф и

то S о

300.00-

то о

200.00-

то

то о

  • 100.00-
  • 4565 Ц г
  • 456431
  • 22510$ -410103 225103g
  • 511109
  • 327103
  • 321109 412230w450230 456315
  • 422113 о
  • 423410 о
  • 4291116)429109 42911W4i9208
  • 417218

то

  • * 3
  • 0.00-

Северо-запад Городская Восточные агломерация холмы

Юго-западное побережье

регион Значения, взвешенные по Wgtpop

  • 3. Коробчатая диаграмма (рис. к упражнению 2.2.А) показывает медианные значения для четырех регионов (Северо-Запад, Городская агломерация, Восточные холмы и Юго-Западное побережье). Аналитик обратит внимание на относительно большое число «крайних» значений в Городской агломерации, которое является функцией достаточного высокого значения в 25-м процентиле в данном регионе по сравнению, например, с Северо-Западом.
  • 4. Сохраните выходной файл в папку АНАЛИЗ ДАННЫХ NAEAMOH РЕШЕНИЯ УПРАЖНЕНИЕ 2.2.SPV. Сохраните файл сданными SPSS и выйдите из SPSS: Файл - Сохранить и затем Файл - Выход.

а. Соответствующие стандартные ошибки вычислены в упражнении 3.3.

ПРИМЕЧАНИЯ

  • 1. Асимметрия и эксцесс обычно не оцениваются в рамках национальных оценок. Однако они могут иметь диагностическую ценность для идентификации форм распределения, которые могут быть проблематичными.
  • 2. В отличие от NATASSESS4.SAV, NATASSESS.SAVne содержит зон и реплик (показателей) Джекнайф (метод расщепления выборки) (см. приложение 1.С).
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >