АНАЛИЗ ДАННЫХ ПРЕДЪЯВЛЕНИЯ ПИЛОТНОГО ТЕСТА

Используйте набор выборочных данных PILOT1 для выполнения данного упражнения. Ключ к тесту для данного теста приведен в рабочей тетради Excel ItemDataAllTests на листе PILOT1.

В настоящей главе представлен анализ данных пилотного теста с использованием методики анализа заданий и тестов (IATA). Последовательность действий Анализ данных ответа будет применяться для анализа данных по ответам с использованием файла с ключом ответов. Этапы последовательности действий включают загрузку данных, анализы спецификации, заданий, размерности, дифференцированного функционирования заданий и выбор заданий. Шкалированные баллы или стандарты пороговых значений не рассчитываются, поскольку распределение уровня подготовки в пилотной выборке вряд ли будет репрезентативным по отношению к генеральной совокупности.

Рассмотрим следующий сценарий. Группа по проведению национальной оценки и входящие в нее эксперты по составлению учебных программ сформировали набор новых заданий с вариантами ответов, предназначенных для оценивания навыков по математике учащихся 5-го класса. Такие новые тестовые задания, которые были сочтены достаточно адекватными для представления национальной учебной программы, были сформированы для отражения основных содержательных категорий (действия с числами, фигуры и пространство, связи, решение задач и неопределенность), определяемых наРИС. 9.1

Последовательность действий «Анализ данных по ответам»

/АТА

Response data analysis

циопальпым координационным комитетом. Окончательная версия теста, которая должна содержать 50 заданий, предназначалась для предъявления учащимся 5-го класса всех уровней подготовки.

В качестве первого этапа группа по проведению национальной оценки предъявила тест, состоящий из 80 заданий, 262 учащимся, отобранным из семи школ в каждом из трех регионов. Группа использовала большее число заданий, чем будет включено в итоговый тест, предполагая, что, как это обычно происходит, многие задания, предлагаемые к включению в тест, не будут функционировать надлежащим образом по множеству разных причин. (Например, они могут оказаться слишком легкими или слишком сложными, или инструкции по выполнению могут быть непонятными.) В действительности некоторые задания могут быть отклонены экспертными группами еще до проведения предварительного тестирования. Ввиду таких ожидаемых проблем с заданиями в предварительном тестировании должно использоваться как минимум на 50 % больше заданий, чем должно быть в окончательной версии теста. Также обратите внимание, что пилотный тест предназначен для проверки операционных протоколов для исследований, а также для определения композиции заданий в окончательной версии теста.

Файл с данными по ответам учащегося содержит ответы каждого учащегося на каждое из 80 заданий с вариантами ответов. Кроме того, он содержит некоторые переменные уровня школы (идентификация региона, идентификация школы, тип школы, размер школы) и отдельную информацию уровня учащегося (гендерный признак, язык, на котором учащийся говорит у себя дома).

В главном меню нажмите на первую опцию Анализ данных ответа для входа в последовательность действий анализа (рис. 9.1). Если на любом этапе последовательности действий возникает ошибка или если полученные результаты отличаются от ожидаемых, вернитесь на предыдущий этап или начните анализ заново в главном меню.

ЗАГРУЗКА ДАННЫХ ПО ОТВЕТАМ

Безотносительно выбранного пути анализа в IATA необходимо загрузить ранее собранные или полученные данные (например, национальную оценку данных пилотных тестов или файл с данными по заданиям). IATA является гибкой программой, которая оснащена простыми процедурами и кнопками для загрузки данных по ответам, заданиям или и тех, и других. Безотносительно выбранного пути анализа или типа данных программе IATA необходимо указать, какой файл с данными следует импортировать и какие данные из такого файла следует использовать. IATA может импортировать данные в форматах SPSS (*.sav), Excel (*.xls/*.xlsx), с разграничением знаком табуляции (*.txt) или запятой (*.csv). Поскольку файлы с данными Excel могут содержать несколько отдельных таблиц, необходимо указать, какую таблицу следует импортировать.

Первое окно в данной последовательности действий потребует, чтобы вы импортировали файл с данными по ответам в IATA. Интерфейс для загрузки данных показан на рис. 9.2. Инструкции начинаются со слов ДАННЫЕ ОТВЕТА EXAMINEE, которые указывают на то, что вы загружаете данные, содержащие ответы индивидуальных учащихся на индивидуальные задания. Под инструкциями находятся две ячейки: обзор пути файла и выпадающее меню для выбора таблиц с данными в выбранном файле. Справа от данных ячеек находится кнопка Открыть файл. В таблице в нижней части интерфейса приведены данные для выбранного источника. При наличии более 500 строк с данными будут отображены только первые 500 строк. Если выбранный формат данных предусматривает множественные таблицы, например Excel или Access, то в выпадающем списке появится название первой таблицы в файле с данными. Во всех остальных

Интерфейс загрузки данных по ответам

случаях в нем появится имя самого файла. Для файлов с данными, содержащих несколько таблиц, желаемые данные могут оказаться не в первой таблице. Проверьте, что были выбраны необходимые данные путем просмотра оглавления таблицы с данными, которое появится в большой области в нижней части интерфейса. Если активная таблица не содержит желаемых данных, выберите другую таблицу, нажав на выпадающее меню.

В рассматриваемом примере загрузите файл PILOTl.xls.

  • 1 Нажмите Открыть файл для выбора файла с данными. В браузере файла перейдите в папку на рабочем столе, которая содержит выборочные данные IATA.
  • 2. Выберите (или введите) PILOTl.xls.
  • 3. Нажмите Открыть или нажмите Ввод на клавиатуре.

Когда файл откроется, появится всплывающее окно, в котором вас попросят подтвердить, что выбранные вами данные содержат корректные данные по ответам на задания. Для продолжения нажмите ОК. Подтвердите, что выборочные пробные данные загружены корректно; интерфейс должен выглядеть как на рис. 9.2. На рисунке показаны записи по каждому учащемуся, сдававшему пробный тест. Первые семь переменных слева описывают демографическую и контекстную информацию об учащихся:

  • PILOT1STDID: уникальный идентификационный код учащегося;
  • SCHOOLID: уникальный идентификационный код школы;
  • Sex: пол учащегося (1 = женский, 2 = мужской);
  • SchoolSize: общее число учащихся в школе;
  • Rural: местонахождение школы (0 = городская, 1 = сельская);
  • Region: числовой идентификатор географического региона;
  • Language: числовой идентификатор, указывающий, говорит ли учащийся дома на языке, на котором проводится обучение.

Первое тестовое задание по математике находится в столбце 8 и называется МАТНС1019. Прокрутите вправо через весь набор данных, чтобы увидеть, что файл содержит данные по 80 заданиям; задание в последнем столбце называется МАТНС1041. Названия заданий являются произвольными и не отражают их положение в тесте. Большинство ячеек имеют величины А, В, С или D, указывающие на выбранный учащимся вариант ответа. Если в ячейке указано значение 9 - это значит, что учащийся не ответил на задание.

Как и с большинством пилотных выборок, учащиеся представляют выборку условную, а не вероятностную из генеральной совокупности. Соответственно, файл с данными по ответам не имеет выборочных весовых коэффициентов.

После проверки корректности загруженного файла с данными по ответам нажмите Далее».

ЗАГРУЗКА КЛЮЧА ОТВЕТОВ

Теперь необходимо загрузить ключи ответов к заданиям. Как и с данными по ответам, данные по заданиям представлены в формате Excel в папке с данными IATA на рабочем столе.

  • 1. Нажмите Открыть файл для выбора файла с данными. В браузере файла перейдите в папку на рабочем столе, которая содержит выборочные данные IATA.
  • 2. Выберите (или введите) ItemDataAUTests.xls.
  • 3. Нажмите Открыть или кнопку Ввод на клавиатуре.

Когда файл откроется, появится всплывающее окно, в котором вам напомнят, что IATA будет оценивать любые пропущенные параметры заданий. Для продолжения нажмите ОК. Выбранный файл с данными содержит таблицы для всех примеров в этой книге. Убедитесь, что в выпадающем меню была выбрана таблица PILOT1. Подтвердите, что были загружены нужные данные по заданиям; интерфейс должен выглядеть как на рис. 9.3. Для того чтобы найти информацию по конкретному заданию, отсортируйте задания, нажав на заголовок столбца Name.

После подтверждения загрузки корректных данных по заданиям нажмите Далее» для продолжения.

ЭАНАЛИЗ СПЕЦИФИКАЦИЙ

Все последовательности действий, использующие данные по ответам, требуют определенных параметров, которые будут влиять на результаты всех последующих анализов. Такие спецификации включают информацию, относящуюся к ключу ответов, идентификации респондента, дизайн взвешивания выборки и обработки кодов пропущенных данных. Интерфейс для указания таких спецификаций показан на рис. 9.4. Широкая панель слева содержит таблицу тестовых заданий в файле с данными по ответам, имеющих заголовки столбца Name, Key, Level и Content. Если был загружен файл с данными по заданиям, таблица будет включать только те переменные, которые были идентифицированы как тестовые задания; в остальных случаях таблица будет содержать все переменные. Если вы пропустили загрузку файла с данными по заданиям, вам придется вручную ввести спецификации ключа ответов для каждого задания в таблице (см. параграф «Форматы ключей ответов» в гл. 8 настоящей книги).

Данные по заданиям для данных по ответам PIL0T1

|МАТНСЮ19

D

100

Number knowledge

МАТИС *027

С

400

Number knowledge

МАТИС 1037

В

400

Number knowledge

МАТИС 1047

с

4.00

Njnber knowledge

МАТИС’054

D

400

Number knowledge

МАТИС 1059

В

400

Number knowledge

МАТИС *078

С

4.00

Njnber knowledge

МАТИС 1005

А

300

Number knowledge

МАТ ИС 1009

А

300

Number knowledge

МАТИС’013

В

2.00

Njnber knowledge

МАТИС 1020

В

300

Number knowledge

МАТНС104?

D

200

Number knowledge

МАТИС *052

А

3.00

Njnber knowledge

МАТИС 1021

D

400

Number knowledge

В центральной секции интерфейса находится кнопка Обновление списка значения ответа. Нажмите на нее для изменения спецификаций ключа ответов с помощью ручного ввода ключей ответов либо путем удаления существующих. Когда кнопка нажата, IATA загрузит в два выпадающих меню списки переменных в данные по ответам, которым не был присвоен ключ. Она также перечислит все значения ответов, представленных для переменных, идентифицированных в качестве тестовых заданий. Если вы загрузите файл с данными по заданиям, такие меню уже будут загружены величинами.

Под кнопкой Обновление списка значение ответа находятся несколько элементов управления для установки опциональных спецификаций: выпадающее меню для указания переменной идентификации (далее - ID), выпадающее меню выбора весовой переменной и таблица для указания способа обработки пропущенных значений кодов. Указание переменной ID может быть необходимо для соединения результатов тестов, полученных в IATA, с иными источниками данАнализ спецификаций для данных PILOT1

ных. Переменная ID должна уникально идентифицировать каждого учащегося; если вам не нужно указывать переменную ID, IATA выдаст переменную УникальныйИдентификатор для этой цели. Весовая переменная используется, чтобы убедиться, что статистические показатели, полученные в ходе анализа, подходят для дизайна выборки национальной оценки, но, как уже отмечалось ранее, они не будут применяться в анализе пилотных данных. Если весовая переменная не указана, IATA будет считать, что всем учащимся присвоен один и тот же весовой коэффициент 1.

Вы можете сообщить IATA, что значению ответа присвоен код пропущенного ответа, нажав на одну из ячеек рядом со значением в таблице Укажите отсутствующее лечение. По умолчанию IATA будет считать, что все значения ответов представляют собой фактические ответы учащихся. Если в столбце Неправильный стоит галочка, IATA будет рассматривать соответствующее значение как невалидный ответ, который будет оцениваться как неверный. Если галочка стоит в столбце Менее чем, LATA будет рассматривать такое значение как не включенное, и такое значение не окажет влияния на результаты теста учащегося. Если данные по ответам содержат любые пустые или незаполненные ячейки, IATA будет по умолчанию рассматривать их как неверные, если вы вручную не поставите соответствующую галочку в столбце Менее чем.

Для пошагового примера были введены ключ к тесту7 и данные по ответам, поэтом}7 список заданий, показанный на рис. 9.4, содержит только те переменные, для которых в данных по заданиям содержатся ключи ответов. Рекомендуется просмотреть таблицу7 с ключами ответов для подтверждения того, что ключи и иные данные о каждом задании являются верными и полными; любые ошибки на данной стадии повлеку"!’ за собой еще большие ошибки в последующих задачах в этой последовательности действий. В центре экрана укажите дополнительную информацию об анализе. Применяйте следующие спецификации:

  • 1. Используйте первое выпадающее меню для выбора переменной PILOT1STDID в качестве переменной ID (ID-код, изначально присвоенный учащимся; см. рис. 9.2).
  • 2. Поскольку7 такие данные не имеют выборочного весового коэффициента, вы можете оставить вторую ячейку с выпадающим меню пустой.
  • 3. Поскольку значение 9 будет рассматриваться как неверный ответ, отметьте галочкой соответствующую ячейку в таблице значений в секции Укажите отсутствующее лечение. Хотя данные PILOT1 и не имеют пустых записей, можно оставить установленную по умолчанию спецификацию о рассмотрении пустых записей в качестве неверных ответов.

После ввода спецификаций интерфейс будет выглядеть, как показано на рис. 9.4.

Подтвердите, что спецификации верны, и нажмите Далее» для продолжения. Обработка данных начнется автоматически. Этапы обработки включают установку7 данных, оценивание, приближенную оценку параметров, шкалирование IRT, расчет истинных баллов и факторный анализ. В процессе обработки данных интерфейс будет отображать текущий этап. В зависимости от скорости работы вашего компьютера и размера совокупности данных анализ может занять от нескольких секунд до нескольких минут. После завершения обработки данных IATA результаты отобразятся в интерфейсе анализа заданий.

АНАЛИЗ ЗАДАНИЙ

После завершения обработки данных интерфейс анализа заданий обновится результатами, показанными на рис. 9.5. С использованием интерфейса можно получить доступ к результатам, а также посмотреть и сохранить диагностическую информацию о каждом тестовом задании. Интерфейс отображает четыре типа информации:

  • • статистические показатели и статистические параметры, описывающие каждое задание (слева);
  • • графическая иллюстрация связи между уровнем подготовки учащихся и вероятностью верного ответа на задание, также известная как функция ответов на задание, или IRF (сверху справа);
  • • таблица сопряженности, описывающая доли учащихся с высокими, средними и низкими баллами по тесту, выбравших тот или иной вариант ответа на задание, также известная как анализ дистракторов (в центре справа);
  • • краткий обзор результатов анализа заданий, написанный доступным языком (внизу справа).

В таблице с левой стороны интерфейса анализа заданий представлена статистическая информация, а также символьное описание общей пригодности каждого задания. Name каждого задания указано в столбце справа от суммирующих символов. Изучите подробные результаты какого-либо конкретного задания, используя клавиши стрелок или мышку для выделения соответствующей строки. Используйте ячейки с галочками в столбце Use по соответствующим строкам для включения или исключения заданий из анализа. Снимите галочку с ячейки с заданием, чтобы исключить его из анализа. Затем нажмите кнопку Анализ для повторения анализа с уменьшенным на-

Результаты анализа заданий для данных PILOT1, МАТНС1019

IATA Раде 4/10

бором заданий. (Удаленные задания по-прежпему будут в списке, но около них будут стоять красные треугольники.) Верните все задания в начальное состояние, нажав Сброс элементов и Анализ. Обратите внимание, что нажатие на Сброс элементов восстановит все задания; для того чтобы окончательно удалить задание из анализа, удалите его ключ к тесту в интерфейсе спецификаций анализа. Кнопка Масштаб не будет переоценивать какие-либо параметры задания; она просто рассчитывает шкалированные баллы по теории IRT для данных по ответам с использованием параметров задания, которые уже были оценены или загружены в IATA из внешнего файла с данными.

Статистические показатели заданий

Три столбца справа от столбца с названиями заданий на рис. 9.5 содержат классические статистические показатели заданий. Это: индекс дискриминативности задания (Discr), легкость задания (PYal)

(иногда именуется сложностью задания, хотя большие значения указывают на более легкое тестовое задание) и точечно-бисериальная корреляция (PBis) (см., например, Crocker and Algina 2006; Haladyna 2004). Последние три столбца, которые могут быть не видны (используйте боковую прокрутку, чтобы перейти к концу таблицы), представляют собой оценивание параметров IRT: а) параметр наклона, б) параметр местонахождения или пороговое значение и в) параметр псевдоугадывания.

В целом классические статистические показатели могут интерпретироваться напрямую. Легкость задания (PVal) варьируется от 0 до 1 и описывает степень легкости задания для рассматриваемой выборки: значение 0 указывает на то, что ни один учащийся не ответил верно, а значение 1 указывает на то, что все учащиеся ответили верно. Индекс дискриминативности и точечно-бисериальная корреляция обеспечивают противоположные оценки одного и того же отношения, описывающего силу связи ответов на каждое задание с общим баллом за тест. Для обоих статистических показателей значение должно быть больше 0,2. Это рекомендованное значение не должно считаться абсолютным, поскольку на индексы влияют и иные факторы помимо дискриминативности заданий, например точность общего теста. Легкость задания обычно ограничивает абсолютное значение и индекса дискриминативности, и точечно-бисериальной корреляции. Если легкость задания существенно отличается от 0,5 (менее 0,2 или более 0,8), индекс дискриминативности и точечно-бисериальная корреляция будут недооценивать связь между уровнем подготовки и результатами выполнения учащимися тестового задания. Хотя чрезвычайно легкие или чрезвычайно сложные задания обычно снижают наблюдаемые связи с уровнем подготовки, они могут охватывать важное содержание учебной программы, которое должно быть включено в тест, или (в случае легкого задания, например) потребоваться для поддержания мотивации учащегося во время тестирования. По этим и другим причинам рекомендуется включать в тест относительно небольшое число очень легких и очень сложных заданий.

Параметры IRT не должны интерпретироваться изолированно. Хотя каждый из них описывает конкретное поведение тестового за дания, связь между ответами на задания и общим уровнем подготовки является результатом взаимодействий между всеми тремя параметрами, а также уровнем подготовки индивидуальных учащихся.

Большинство заданий в текущем анализе отмечены зеленым кругом, что указывает на то, что они не вызывают существенных проблем и являются относительно удовлетворительными. Прокрутив вниз список заданий слева, вы увидите 13 заданий, отмеченных предупреждающими ромбами (МАТНС1047, МАТНС1013, МАТНС1002, МАТНС1070, МАТНС1034, МАТНС1035, МАТНС1032, МАТНС1010, МАТНС1068, МАТНС1046, МАТНС1024, МАТНС1058 и МАТНС1030). Одно задание (МАТНС1075) отмечено треугольником и считается потенциально проблематичным. Лучше всего проверить результаты для всех заданий, безотносительно присваиваемых IATA сводных символов. В пошаговом анализе мы сосредоточимся на нескольких примерах.

По умолчанию в графике и в таблице справа приведены результаты для первого задания. IATA присвоила этому заданию МАТНС1019 символ зеленого круга1. Каждый из результатов, выдаваемых IATA для этого задания, описан в последующих разделах.

Функция ответов на задания

В окне с графиком с правой стороны интерфейса анализа заданий IATA отображает Функцию ответов на задания для выбранного тестового задания (см. рис. 9.5). Анализ IRF обычно является более интуитивным, чем исследование параметров IRT или статистических показателей заданий при определении относительной полезности тестового задания. Полезное задание будет сильно связано с уровнем подготовки, на что указывает IRF, имеющая устойчивую S-образную форму, с узким участком, в котором кривая практически вертикальна. Наклон IRF для задания МАТНС1019 явно выраженный положительный, однако связь слаба; ни на одном из участков наклон не является заметно крутым. Такой пологий наклон подтверждается низким индексом дискриминативности (Discr = 0,36) и низкой то-чечно-бисериальной корреляцией (PBis = 0,35).

Как и в любом методе статистического моделирования, IRT полезна, только если эмпирические данные соответствуют теоретической модели. Для каждого задания или величины оценки IATA выдает график теоретической IRF, полученной с использованием расчетных параметров, и эмпирической IRF, оцененной напрямую на основе долей верных ответов на каждом уровне подготовки. Второй график может использоваться в целях оценивания пригодности использования IRT для описания каждого задания. Если модель IRT пригодна, появится красная пунктирная линия, очень схожая со сплошной черной линией. Отклонения между ними будут меньше 0,05, особенно на участке между-1 и 1, включающем основную часть учащихся. Для МАТНС1019 теоретическая и эмпирическая IRF практически идентичны. Это говорит о том, что хотя само задание может иметь слабую связь с уровнем подготовки, его статистические свойства точно описаны IRF.

Анализ дистракторов

В нижней правой части интерфейса анализа заданий, показанного на рис. 9.5, IATA отображает статистические показатели для каждого значения ответа (включая коды пропущенных значений и значения неверных ответов), а также текстовый обзор анализа. Статистические показатели оцениваются отдельно для групп учащихся с низкой, средней и высокой успеваемостью в соответствии с процентной долей данных ими верных ответов. Результаты анализа дистракторов индивидуального задания приведены в табл. 9.1.

ТАБЛИЦА 9.1

Анализ дистракторов для задания МАТНС1019 из данных PILOT1

Группа

9(Х)

А

В

С

D*

С высокой подготовкой

0,0

14,1

23,9

14,1

47,9

Со средней подготовкой

3,1

15,2

37,7

24,1

19,9

С низкой подготовкой

8,6

14,3

42,9

22,9

11,4

Итого

2,3

14,9

34,0

21,4

27,5

Примечание', звездочкой обозначен столбец с верным вариантом ответа.

Задание может иметь низкую или даже отрицательную дискрими-нативную связь с уровнем подготовки по многим причинам. Такие причины включают неясные формулировки задания, нечеткие инструкции, ошибки выборки, а также использование неверных ключей или присвоение неверных кодов ответам. Анализ дистракторов может быть использован для выявления и исправления некоторых из таких распространенных ошибок путем рассмотрения схем ответов на задания. Надежно функционирующее задание должно обладать следующими характеристиками:

  • • Столбец с верным вариантом ответа (D), отмеченный звездочкой (*), должен иметь высокий процент для хорошо подготовленной группы и более низкие (в порядке убывания) проценты для групп со средней и низкой подготовкой. МАТНС1019 выполняет данное условие, показывая значения 47,9,19,9 и 11,4 для групп с высокой, средней и низкой успеваемостью, соответственно.
  • • В группе с низкой подготовкой процентная доля выбравших верный вариант (D) будет ниже, чем процентная доля выбравших любой другой вариант. Все неверные варианты (А, В, С) ответа на задания МАТНС1019 показывают такую схему.
  • • Каждый из столбцов, соответствующих значению неверного ответа, должен иметь примерно равные процентные доли на каждом уровне навыков и в целом по сравнению с иными значениями неверных ответов. МАТНС1019 не соответствует схеме: вариант В был выбран значительно большим процентом учащихся, ответивших неверно, чем А или С.
  • • В группе учащихся с высокой подготовкой процентная доля выбравших верный вариант (D) должна быть больше процентной доли выбравших любой другой вариант. МАТНС1019 соответствует схеме: значение 47,9 больше значений для вариантов А (14,1), В (23,9) и С (14,1).
  • • Во всех группах процент кодов пропущенных значений должен быть близок к нулю. Доля учащихся с пропущенными ответами (код 9) была больше для представителей группы с низкой подготовкой (8,6), чем для представителей группы с высокой подготовкой (0,0). Это указывает на то, что решение рассматривать такой код как неверный (а не как не включенный), было разумным.

• Коды пропущенных ответов, которые рассматриваются как не включенные (обозначены OMIT), должны иметь равные процентные доли учащихся на каждом уровне. Этот код не использовался для рассматриваемых данных.

IATA предоставляет текстовый обзор выполнения задания, включая предупреждения, если дискриминативность неприемлемо низка. В таком случае программа укажет, что можно сделать для ее улучшения. Например, IATA идентифицирует дистракторы, не являющиеся эффективными для выявления подтверждения их неверности из ответов респондентов (или имеющих статистические профили, сходные с профилями верных ответов). Если IATA выявляет распространенные проблемы в данных, текстовый обзор результатов отображается в текстовой ячейке под таблицей с анализом дистракторов.

В результатах для задания МАТНС1019 текстовый обзор в нижней правой части рекомендует дополнительный анализ варианта ответа, закодированного буквой А. Из таблицы с анализом дистракторов видно, что ответ А был выбран практически теми же учащимися с высокой подготовкой, что и учащимися с низкой подготовкой. Это указывает па то, что он плохо выполняет функцию дистрактора.

Анализ дистракторов данных национальной оценки также может быть полезен учебным центрам, проводящим курсы повышения квалификации для преподавателей и сотрудников, составляющих учебные программы, поскольку он может помочь выявить общие неверные представления и ошибки учащихся. Органы, ответственные за подготовку учебных программ, также могут использовать такие данные для определения уместности конкретного материала для определенных классов.

Сравнение заданий

По сравнению с предыдущим заданием (см. рис. 9.6) второе задание в тесте МАТНС 1027 сильнее связано с уровнем подготовки, на что указывают более крутая IRF, а также более высокие показатели дис-криминативности (0,65) и точечио-бисериальной корреляции (0,53).

Результаты анализа заданий для данных PILOT1, МАТНС1027

IATA Раде 4/10

_ ?

X

Теоретическая и эмпирическая IRF практически идентичны, что указывает на то, что статистическая модель ответов на задание соответствует данным по ответам. Таблица с анализом дистракторов показывает, что 73,2 % учащихся в группе с высокой подготовкой выбрали верный вариант (С) по сравнению с 19,9 % в группе со средней подготовкой и 8,6 % в группе с низкой подготовкой. Все значения неверных ответов (А, В, D), а также код пропущенного ответа (9) имели большую вероятность быть выбранными учащимися с низкой подготовкой, чем учащимися с высокой подготовкой.

По сравнению с двумя уже исследованными заданиями задания, отмеченные предупредительным треугольником, обычно являются неэффективными. Их включение в тест может дать вводящие в заблуждение или менее полезные результаты. Число неэффективных заданий, появляющихся в пилотном тесте, аналогичном рассматриваемому, может быть минимизировано, если соблюдать инструкции по разработке заданий, описанных в книге 2 серии (Anderson and

Morgan 2008). В рассматриваемых данных единственным заданием, отмеченным предупредительным символом, является МАТНС1075 (см. рис. 9.7). Нажав на задание, вы увидите, что результаты показывают практически полное отсутствие связи между уровнем подготовки и верными или неверными ответами.

Хотя код отсутствующего ответа по-прежнему связан с уровнем подготовки, ожидаемая схема не прослеживалась. Учащиеся в группе с низкой подготовкой не характеризовались самой высокой вероятностью выбора каждого из трех неверных вариантов, а учащиеся в группе с высокой подготовкой не характеризовались самой низкой вероятностью такого выбора. Задание особенно слабо показывало дифференциацию между учащимися среднего и низкого уровня. Индекс дискриминативности низок (0,14), как и точечно-бисериальная корреляция (0,16). Такое задание может быть связано с уровнем подготовки, но поскольку очень мало учащихся ответило верно (PVal = 0,12), такая связь не может быть оценена. Ответы на

РИС. 9.7

Результаты анализа заданий для данных PILOT1, МАТНС1075

IATA Раде 4/10

задание не показывают четкой зависимости от уровня подготовки, поэтом}7 включение его в тест будет повышать влияние произвольных факторов на результаты тестов. Включение такого задания (и иных проблематичных заданий) в анализ может также снизить точность статистических оценок для других тестовых заданий, поскольку статистические показатели и параметры заданий анализируются с использованием результатов тестов.

Задания могут быть удалены из анализа нажатием на ячейку слева от названия каждого задания и снятия с нее галочки. После удаления задания результаты должны быть пересчитаны при нажатии на кнопку Анализ до удаления любых других заданий. Удаление одного задания повлияет на результаты для всех остальных заданий. При наличии многих проблемных заданий удаляйте их по одному, поскольку некоторые задания, отмеченные как проблематичные, могут быть таковыми только из-за влияния менее эффективных заданий на результаты анализа. Если слишком много заданий случайно оказываются удаленными, поставьте галочки обратно на каждое задание или нажмите Сброс элементов над списком заданий для восстановления полного списка. В рассматриваемом примере удалите МАТНС1075 и проведите анализ повторно для получения результатов, показанных на рис. 9.8, на котором результаты для МАТНС1075 выделены после удаления. Обратите внимание, что данные Discr и PBis для задания были заменены на NaN (не число) или значения вне диапазона; они не повлияют на последующие расчеты. Для удаленных заданий таблица с результатами анализа дистракторов не появится справа, а сообщение в текстовом обзоре будет гласить, что тестовые данные должны быть проанализированы повторно. Поскольку было удалено только одно задание, статистические показатели для остальных заданий останутся без особых изменений.

Вы можете продолжить анализировать все задания, нажимая на каждую строку в списке заданий или перемещаясь вверх и вниз с помощью стрелок на клавиатуре. Обратите внимание, что текстовые обзоры, выдаваемые IATA, основаны исключительно на статистических данных, а не на содержании заданий. Задание, которому IATA присвоит низкий рейтинг, может не быть неэффективным

Результаты анализа заданий для данных PILOT1 после удаления МАТНС1075

повсеместно. Однако низкий рейтинг указывает па то, что задание может не обеспечивать полезную информацию при использовании данных конкретного теста в отношении с генеральной совокупностью учащихся.

В целом рекомендации, которые IATA дает в отношении редактирования или удаления заданий, должны рассматриваться в контексте цели теста и изначальных причин для включения конкретного задания. Некоторые задания могут быть сохранены безотносительно своих статистических свойств ввиду, например, потребности в адекватном представлении ключевых аспектов учебной программы. Но все задания с отрицательными индексами дискриминативпости должны быть удалены либо их ключи ответов должны быть изменены (если ключ был введен неверно) до проведения любого последующего анализа. Такие задания создают шумы и нежелательную дисперсию данных по ответам на задания и снижают точность оценок для других заданий. Удаление некоторых очевидно слабых заданий во время проведения анализа пилотных данных поможет повысить точность статистических результатов. Однако выбор окончательного набора заданий после пилотного или предварительного тестирования должен осуществляться совместно предметными специалистами в тесном сотрудничестве с лицом или группой, ответственной за итоговое качество теста национальной оценки.

По окончании просмотра всех заданий нажмите Далее» для продолжения.

РАЗМЕРНОСТЬ ТЕСТА

Одним из статистических допущений IRT, а также требованием к валидной интерпретации результатов тестов является то, что выполнение тестовых заданий должно представлять единственную интерпретируемую область или размерность. В идеале тест национальных достижений в такой области, как математика или естественные науки, должен оценивать данную единственную предназначенную для оценивания область или быть одноразмерным, он не должен оценивать иные области или размерности, например способность к чтению. Цель построения интерфейса размерности теста заключается в выявлении любых нарушений допущений о том, что: а) единственная доминирующая размерность оказывает влияние на выполнение теста и б) связи между выполнением пар или групп заданий могут быть объяснены такой доминирующей размерностью.

В большинстве случаев второе допущение вытекает из первого, но для длинных тестов (содержащих более 50 заданий) небольшие группы заданий могут быть локально зависимыми без оказания заметного влияния на общую размерность теста.

Анализ размерности теста определяет степень, в которой тест измеряет различные размерности уровня подготовки, а также степень, в которой каждое задание связано с каждой размерностью. Чем меньше число размерностей, которые сильно влияют на тестовые задания, тем более валидными будут интерпретации результатов тестов. Хотя такое доказательство недостаточно для подтверждения валидности теста, оно может предоставлять важную информацию о содержании конкретного задания. Иные аспекты валидности, такие как содержательная валидность (очень важна в контексте национальной оценки), обычно считаются более значимыми, чем статистические данные при определении валидности теста или задания. Андерсон и Морган (Anderson and Morgan 2008) приводят описание процедур, направленных на доказательство того, что тест имеет адекватную содержательную валидность.

С точки зрения статистики оценка параметров и IRT-баллов зависит от концепции вероятности, делающей допущение о том, что вероятность определенного события (например, верного ответа) зависит от единственной размерности, представляющей уровень подготовки. Если задания зависят от различных размерностей, расчетные параметры и баллы будут некорректными.

График, расположенный справа на рис. 9.9, иллюстрирует и собственные значения для теста в целом, и квадрат факторов нагрузки для первого задания МАТНС1019. С левой стороны интерфейса

РИС. 9.9

Размерность тестов и заданий для данных PILOT1, МАТНС1019

находится таблица, аналогичная таблице интерфейса анализа заданий. Суммарные символы (см. гл. 8) в столбце F рядом со столбцом Name указывают на общую пригодность задания в плане его связи с основной размерностью, общей для большинства иных заданий в тесте. Справа от столбца Name показан классический показатель легкости задания (PVal), а также нагрузка задания на основную размерность (Loading). Нагрузка, которая варьируется от-1 до 1, представляет собой корреляцию между результатом выполнения каждого задания и основной размерностью теста. Например, значение 0,34 для МАТНС1019 указывает на то, что оцененные ответы на данное задание имеют корреляцию 0,34 с общим тестовым баллом (% верных ответов). Идеального значения здесь нет2, но нагрузки, близкие к 1, указывают на более эффективные задания.

Результаты в таблице должны интерпретироваться совместно с графическими результатами, представленными в правой половине интерфейса. Основной результат, показанный в окне графика, -это график собственных значений, описывающий долю дисперсии (собственное значение), объясняемую каждой потенциальной размерностью (например, способностью к чтению). Круглые маркеры иллюстрируют относительное влияние каждой потенциальной размерности (собственного значения)3 на отдельные результаты теста. Сплошная линия, соединяющая квадратные маркеры, описывает относительное влияние каждого потенциального измерения на индивидуальные тестовые задания (нагрузка в квадрате). Величина собственного значения менее важна, чем структура графика собственных значений. График собственных значений для теста в целом должен иметь единственное большое собственное значение слева, после которого указываются все прочие собственные значения. Эти значения должны быть относительно небольшими и сходными по величине (рис. 9.10). Такая L-образная структура графика только с двумя отчетливыми отрезками указывает на то, что результаты теста PILOT 1 основаны на единственной общей размерности. Чем большее число выделенных линейных сегментов соединяет самую верхнюю левую точку с практически горизонтальной линией внизу, тем больше размерностей могут влиять на результаты выполнения теста.

Результаты оценки размерности задания для данных PILOT1, МАТНС1035

При выборе любого задания в списке слева справа появится график собственных значений для конкретного задания. В идеале график для индивидуальных заданий должен быть аналогичен графику для теста в целом; самая высокая точка линии графика для конкретного задания должна находиться в самой левой его части (в соответствии с основной размерностью теста). Однако характеристики конкретного задания могут представлять различные структуры, которые необязательно будут проблематичными. Например, задание МАТНС1019 на рис. 9.9 не является проблематичным; хотя в других размерностях и появляются некоторые ненулевые нагрузки, максимальная нагрузка наблюдается на основной размерности. В общем случае результаты для конкретного задания необходимо проанализировать дополнительно только в том случае, если очевидно, что результаты выполнения теста основываются более чем на одной размерности (т.е. если отчетливо видны более двух отрезков линии). В таком случае необходимо идентифицировать и проанализировать задания, графики которых имеют квадраты значений нагрузки, соответствующие тем же размерностям, что и проблематичные собственные значения.

При интерпретации графика собственных значений следует помнить об эффекте легкости задания. В тестах, где большая часть заданий характеризуется сходной степенью легкости, задания, являющиеся гораздо более или менее легкими, чем остальные, обычно создают искусственные факторы сложности. В частности, такие сложности связаны с нарушением нормального распределения процентных долей верных ответов в результатах тестов. Чрезвычайно легкие задания могут казаться определяющими отдельный фактор только потому, что некоторые учащиеся (например, учащиеся с низким или высоким уровнем подготовки) будут генерировать схемы ответов, которые будут казаться сильно связанными по сравнению со связями между иными тестовыми заданиями. Однако такие сложности необязательно по природе своей проблематичны. Анализ нагрузок заданий может помочь определить, являются ли вторичные факторы искажающими или фактическими проблемами. Для того чтобы определить, является ли вторичный фактор фактором сложности, необходимо исследовать нагрузки заданий с низкой (< 0,2) или высокой (> 0,8) легкостью (PVal). Если нагрузки таких заданий имеют пик, соответствующий положению вторичного фактора, вторичный фактор, вероятно, является фактором сложности и может быть проигнорирован.

Нагрузки заданий

Модель IRT предполагает локальную независимость между заданиями, означающую, что ответ на одно из них не должен зависеть от ответов на другие задания. В идеале в модели IRT тест должен содержать вопросы, которые являются независимыми для всех размерностей теста, кроме основной. Существенная локальная зависимость заданий может привести к неточной оценке параметров задания, статистических показателей теста и уровня подготовки учащихся. Например, тест по математике, который включает сложный вопрос, связанный с решением проблем, может состоять из набора различных баллов, присваиваемых каждому из логических этапов, необходимых для расчета итогового ответа. Если учащийся, сдающий тест, ответил неверно на первом этапе, это повлияет на вероятность верного ответа на каждом последующем этапе. Такой набор зависимых тестовых заданий будет неподходящим для моделирования в IRT; в данном случае задание должно рассматриваться как отдельное задание с дифференцированными ответами.

Локальная зависимость обычно представляет проблему только в заданиях, которые слабо связаны с основной размерностью. Поэтому самым эффективным способом использования настоящего интерфейса является сортировка заданий в столбце Loading с помощью нажатия один раз на заголовок столбца4 (см. рис. 9.10) и сравнения заданий со слабой нагрузкой для выявления общих пиков в графиках нагрузки заданий. Если многие задания со слабой нагрузкой имеют в своих графиках нагрузки пики, соответствующие одной и той же размерности, они могут обладать некоторой локальной зависимостью. Поскольку данные статистические показатели обычно чувствительны к ошибкам выборки, любые результаты статистического анализа в таких случаях должны использоваться для обоснования проведения более подробного анализа содержания заданий, а не для вынесения окончательных решений.

После сортировки заданий выбрано задание МАТНС1075. Поскольку данное задание было удалено из анализа на предыдущем этапе анализа, его нагрузка определена как NaN, и никаких результатов для него не показано (на графике отображен только график собственных значений теста в целом). IATA присваивает предупредительный символ в виде треугольника любому заданию, размерность которого может быть проблематичной в плане влияния на оценку иных статистических показателей. Обратите внимание, что ТАТА отметила треугольником еще только одно задание (МАТНС1035) (рис. 9.10). Такое задание относительно слабо связано с основной размерностью и имеет заметно более сильную связь с вторичной размерностью, что указывает на возможность измерения размерности, отличной от размерности большинства других заданий. Однако данные резуль таты сами по себе не являются неопровержимым доказательством необходимости удаления такого задания из теста. Специалисты по составлению учебных программ и опытные педагоги должны анализировать любые статистически проблематичные задания для определения необходимости их удаления или пересмотра ввиду проблем, связанных с содержанием.

IATA присваивает предупреждающий символ в виде ромба любому заданию, которое имеет более сильную нагрузку на вторичную размерность теста, чем на первичную. Такие задания не будут проблематичными в последующих расчетах. Типичный пример представлен на рис. 9.11 для МАТНС1002. Задание связано с несколькими размерностями, но ввиду того, что такие измерения имеют очень незначительное влияние на итоговые результаты теста, что подтверждается относительно малыми собственными значениями (пунктирная линия), соответствующими пикам сильных нагрузок (сплошная линия), определение того, будет ли приемлемой размер-

РИС. 9.11

Результаты оценки размерности задания для данных PILOT1, МАТНС1002

ность задания, следует проводить скорее на основе содержания теста, чем на основе статистических показателей.

Все тесты являются в определенной степени многомерными, поскольку все задания не могут быть направлены на проверку одного и того же. Следовательно, если итоговый график собственных значений не выявляет никаких проблем, влияние любой многомерности или совместимой зависимости на уровне заданий вероятнее всего можно не принимать во внимание. В рассматриваемом примере все задания сохраняются для последующего анализа, поскольку итоговый график собственных значений не указывает на наличие каких-либо проблем.

По окончании анализа заданий нажмите Далее» для перехода к интерфейсу анализа различного функционирования заданий (DIF).

ДИФФЕРЕНЦИРУЮЩЕЕ ФУНКЦИОНИРОВАНИЕ ЗАДАНИЙ (DIF)

Анализ DIF исследует степень стабильности IRF по различным группам учащихся. Если функция IRF отличается для двух групп учащихся (например, для мальчиков и девочек), баллы, рассчитанные с ее помощью, могут содержать смещение измерения для одной из групп или для учащихся с определенным уровнем подготовки в группе. Анализ DIF контролирует различия средних уровней подготовки группы -это означает, что относительные преимущества и неравное положение, выраженные результатами DIF, не зависят от различий в средних уровнях подготовки в группах. Например, если мы заинтересованы в выявлении смещения баллов вследствие гендерных признаков для отдельно взятого тестового задания, результаты анализа DIF покажут, вносит ли задание смещение в пользу мальчиков или девочек после учета общих различий тестовых баллов по гендерному признаку.

Интерфейс анализа DIF показан на рис. 9.12. С левой стороны мы видим четыре элемента управления для установки спецификаций анализа. Выпадающее меню в верхней части позволяет вам выбрать переменную из списка в данных по ответам, которые не являются тестовыми заданиями. После выбора переменной IATA выдаст перечень ее уникальных значений в таблице Возможные

Результаты анализа DIF для данных PILOT1 по гендерному признаку, МАТНС1046

М IATAPage6/10

значения, а также (невзвешенную) процентную долю учащихся, соответствующую каждому значению. Для того чтобы выбрать группы для сравнения, сначала нажмите на значение для желаемой фокус-группы, затем нажмите на значение, представляющее референтную группу. Указание фокус-группы и референтной группы определяет, как будут рассчитываться суммарные статистические показатели; приближенные оценки используют распределение выборки по уровню подготовки фокус-группы для расчета среднего смещения и устойчивости статистических показателей. Для изменения фокус-группы или референтной группы нажмите на значения в таблице Возможные значения; те значения, которые присвоены фокус-группе и референтной группе, будут обновлены в текстовых полях в нижней левой части. Статистические показатели DIF наиболее чувствительны к фокус-группам, поэтому в обычном случае следует убедиться, что фокус-группа представ ляет меньшинство или группу, традиционно находящуюся в невыгодном положении.

В рассматриваемом примере анализ DIF проводится с использованием переменной Sex для того, чтобы определить, находятся ли учащиеся женского пола (код 1) в более невыгодном положении по сравнению с учащимися мужского пола (код 2). Для установления спецификаций анализа и исследования результатов необходимо выполнить следующие этапы:

  • 1. В выпадающем меню слева выберите переменную Sex. В таблице внизу появятся значения 1,00 и 2,00 с указанием 50 % для каждого значения - это означает, что количество мальчиков и девочек в выборке одинаково.
  • 2. В таблице значений нажмите на значение 1,00. В результате значение 1,00 (представляющее девочек) будет введено в качестве фокус-группы в текстовом поле ниже.
  • 3. В таблице значений нажмите па значение 2,00. В результате значение 2,00 (представляющее мальчиков) будет введено в качестве референтной группы в текстовом поле ниже.
  • 4. Нажмите Расчет и дождитесь завершения вычислений.
  • 5. После завершения вычислений в списке заданий нажмите на заголовок столбца S-DIF для сортировки всех заданий по значениям статистических показателей S-DIF.

После завершения данных этапов вы увидите интерфейс, аналогичный показанному на рис. 9.12. В данном примере IATA отметила 15 заданий либо предупредительным, либо предупреждающим символом. Для каждого задания рассчитывается два статистических показателя, S-DIF и U-DIF. S-DIF описывает среднее вертикальное различие между группами (фокус-группа минус референтная группа), a U-DIF описывает средние абсолютные различия между группами. Значение показателя U-DIF всегда положительно и в абсолютном значении превышает S-DIF. Даже если одна из групп не показывает систематического преимущества (S-DIF близок к 0), задание может иметь более сильную связь с уровнем подготовки в одной группе, что даст больший показатель U-DIF.

МАТНС1035 является примером задания с постоянным DIF, где абсолютные значения S-DIF и U-DIF идентичны (см. рис. 9.13). Для данного задания преимущество девочек очевидно по всему диапазону уровня подготовки. Состоятельная оценка различий предполагает, что девочки в целом будут выполнять задание лучше мальчиков даже при абсолютно равном уровне подготовки. Показатель S-DIF указывает на то, что, в среднем, вероятность верного ответа для девочек была на 23 % выше, чем для мальчиков с сопоставимым уровнем подготовки.

В рамках анализа DIF статистические показатели обычно очень чувствительны к ошибкам выборки. Это может привести к тому, что задания будут казаться представляющими различия, которые не будут иметь места в большой выборке. IATA присваивает предупредительный символ, когда коэффициент вариации выборки5 для S-DIF составляет менее 0,2 (указывает на то, что наблюдаемые различия возникли, вероятнее всего, не в результате ошибки выборки) или

РИС. 9.13

Результаты анализа DIF для данных PILOT1 по гендерному признаку, МАТНС1035

когда в S-DIF или в U-DIF возникает очень большое различие, и в таком случае ее необходимо исследовать даже на малых выборках.

Ввиду чувствительности к ошибке выборки графические результаты в некоторых случаях могут быть некорректными. Когда число респондентов на нижней и верхней границах диапазона уровня подготовки невелико, ответы одного или двух учащихся могут привести к появлению графиков в таких крайних значениях. Поскольку сводные статистические показатели взвешивают расчет по числу учащихся фокус-группы на каждом уровне подготовки, случайная ошибка не будет оказывать на них такого влияния, как на графики. График результатов для МАТНС1042 (рис. 9.14) представляет собой пример того, как графические результаты могут в некоторых случаях быть некорректными. Хотя график показывает весьма неравное положение девочек (слегка затемненный участок), фактический статистический показатель S-DIF (-2,01) указывает на относительно слабое неравенство.

РИС. 9.14

Результаты анализа DIF для данных PILOT1 по гендерному признаку, МАТНС1042

Признаки DIF также могут появляться в случаях, когда содержание конкретного задания не так сильно связано с основной размерностью теста, как другие задания. Например, в математике стандартной целью обучения учащихся младшего возраста является умение пользоваться измерительными инструментами для различных единиц измерения (например, сантиметров, килограммов, градусов Цельсия). Учащиеся из отдаленных или отстающих регионов, даже если они сильны в математике, могут ие уметь пользоваться указанными инструментами так же хорошо, как учащиеся из городских регионов. В результате они могут систематически хуже выполнять тестовые задания, требующие использования таких специальных знаний. Однако такое отставание не является свойством тестовых заданий, это лишь следствие конкретного недостатка в подготовке. Перед тем как делать выводы о каком-либо смещении, нарушающем права конкретных групп учащихся, специалисты по подготовке содержания учебной программы, которым известны возможные этнические, географические и гендерные различия, должны проанализировать тестовые задания. Это делается для подтверждения того, что признаки смещения в статистических показателях согласуются с результатами анализа содержания учебной программы.

Анализ DIF должен проводиться для всех демографических характеристик и групп, которые будут сравниваться в рамках основного анализа результатов. Присутствие DIF в отношении одной характеристики обычно не связано с присутствием или отсутствием DIF в отношении другой характеристики. Обычно наиболее значимыми переменными для рассмотрения в рамках DIF являются переменные стратификации выборки (например, Region) или переменные из биографической анкеты. Данные PILOT1 характеризуются тремя географическими переменными: Sex, Language и Region. В качестве самостоятельного упражнения вы можете провести аналогичный анализ DIF для переменных Language и Region путем выполнения тех же этапов, что и в рамках анализа DIF для переменной Sex, обязательно выбрав группу меньшинства в качестве фокус-группы и нажав Расчет для обновления результатов.

Обычный результат DIF, получаемый, когда тест проводится на языке, на котором некоторые из учащихся говорят дома, а другие -нет, показан на рис. 9.15. Результаты приведены из анализа DIF для задания МАТНС1006. Задание является явным примером DIF в том, что верный ответ характеризуется сильной связью с уровнем языковой подготовки в одной генеральной совокупности (в данном случае Language = 2) и слабой или отсутствующей связью - в другой (Language =1).

Диализ DIF в IATA может служить инструментом исследования в целях установления наличия у конкретных групп учащихся проблем с конкретными подобластями знаний. Анализ DIF также может облегчить понимание различий, которые должны быть включены в различные языковые версии теста, который переводится на другие языки. Статистические доказательства на основе DIF могут использоваться для оказания помощи переводчикам в исправлении

РИС. 9.15

Результаты анализа DIF для данных PIL0T1 по языку, на котором учащиеся говорят дома, МАТНС1006

ошибок, обнаруженных в ходе пилотного или предварительного тестирования.

Основная цель анализа DIF заключается в инициации обсуждения и исследования пилотных тестовых заданий и оказании содействия в интерпретации результатов. Для каждого проводимого анализа DIF IATA сохраняет результаты в таблицу с данными6. Такие результаты и любые особенно интересные графики должны быть скопированы7, сохранены и направлены на рассмотрение специалистам по подготовке содержания учебных программ для получения возможных объяснений о структуре различий между фокус-группой и референтной группой. Если смещение задания для определенной группы однозначно подтверждено, его необходимо удалить из спецификаций анализа на странице 2 IATA и повторить ранее проведенный анализ IATA. Поскольку результаты анализа DIF очень чувствительны к ошибкам выборки, любое решение о том, стоит ли включать определенное тестовое задание в итоговую версию теста на основе подозрения о смещении, должно быть подкреплено веским обоснованием в отношении учебной программы и содержания. Мы продолжим наш пошаговый пример без удаления каких-либо тестовых заданий.

После проведения анализа DIF и рассмотрения его результатов нажмите Далее».

АНАЛИЗ ШКАЛЫ

Методика разработки числовой метрики для интерпретации результатов выполнения теста называется шкалированием. IATA выдает результаты тестов с использованием следующих шкалированных баллов: процентный балл, процентиль, необработанный Z-балл, Z-балл, IRT-балл и истинный балл. Данные шкалы более подробно описаны в табл. 8.1. Результаты по таким стандартным шкалам резюмируются по шкале от 0 до 100 либо по стандартной шкале, среднее значение которой равно 0, а стандартное отклонение - 1. Используйте ту шкалу, которая будет иметь большую практическую ценность для установленных целей сообщения результатов. Различные группы заинтересованных лиц могут предпочитать различные типы шкал. В общем случае IRT-балл является наиболее практичным для самого широкого диапазона целей, но у него есть коммуникационный недостаток - около половины учащихся имеет отрицательный балл. Поскольку многие заинтересованные стороны могут не иметь представления о том, как интерпретировать отрицательные шкалированные баллы, предпочтительно создать новую шкалу, так чтобы ни один из результатов учащихся не был меньше нуля.

Интерфейс для анализа шкалированных баллов и создания дополнительных шкалированных баллов показан на рис. 9.16. С левой стороны находится выпадающее меню и окно с графиком. Можно выбрать любой тип шкалированных баллов из выпадающего меню, после чего на графике отобразится распределение выбранного шкалированного балла. На рисунке представлен график для выбранного шкалированного балла - PercentScore. Справа находится панель, представляющая сводные статистические показатели для выбранного балла. Внизу справа находятся элементы управления для повторного

РИС. 9.16

Интерфейс анализа и установки шкалы

шкалирования IRT-балла путем применения нового стандартного отклонения и среднего значения. Процедура повторного шкалирования применяется только к IRT-баллу, который является основным видом результатов в IATA.

Распределение тестовых баллов и тестовая информация

IATA отображает распределение баллов в виде гистограмм. Каждый столбик представляет диапазон баллов, а высота каждого столбика пропорциональна доле учащихся с баллом, попадающим в данный диапазон. Для типов баллов, которые выражены на шкалах со средними значениями, примерно равными нулю, и стандартными отклонениями, примерно равными 1 (стандартизированный Z-балл, необработанный Z-балл и IRT-балл), IATA также строит информационную функцию теста в виде сплошной линии. Информационная функция теста описывает точность теста для различных уровней подготовки на стандартной шкале, в которой размещаются задания. Она обратно пропорциональна стандартной ошибке измерения; если информация, обеспечиваемая тестом, высока, стандартная ошибка измерения будет низка. Информационная функция теста должна интерпретироваться в связи с конкретными потребностями тестирования или целями теста. Например, если цель теста заключается в идентификации учащихся с низким уровнем подготовки, тест, который является наиболее точным для учащихся с высоким уровнем подготовки, будет неприемлем и не сможет послужить подходящим инструментом оценивания для идентификации учащихся с низким уровнем подготовки. В общем случае, средняя ошибка измерения для всех учащихся минимизирована, если информационная функция теста охватывает более широкую область, но в целом имеет ту же форму и местонахождение, что и распределение уровня подготовки тестируемых учащихся. Сравнение информационной функции теста с распределением его результатов может указать, выиграет ли дизайн теста от изменения баланса заданий в сторону большей точности для учащихся с высоким и низким уровнем подготовки или нет.

Сводные статистические показатели

IATA выдает следующие сводные статистические показатели для каждого тестового балла:

  • 1. Mean (среднее арифметическое).
  • 2. StDev (стандартное отклонение).
  • 3. Skewness (асимметрия).
  • 4. Kurtosis (эксцесс).
  • 5. InterQuartileRange (межквартильный диапазон).
  • 6. Р-25 (25-й процентиль).
  • 7. Median (медиана).
  • 8. Р-75 (75-й процентиль).
  • 9. ResponseRate (доля ответов).
  • 10. Reliability (надежность).
  • 11. Total number of respondents (общее число респондентов).
  • 12. Number of items in the test (число заданий в тесте).
  • 13. Number of items included in the analysis (число заданий, включаемых в анализ).

Первые восемь статистических показателей описывают распределение приближенных баллов. С помощью прокрутки справа от поля со статистическими показателями и значениями, как показано на рис. 9.16, переместитесь вниз, чтобы просмотреть последние пять строк. Данные статистические показатели помогут определить соответствие шкалированных баллов различным целям (например, для вторичного статистического анализа или отчетности по квантилям). Последние пять статистических показателей описывают условия, при которых анализ был проведен, и дают общий рейтинг теста, который должен быть отмечен галочкой для подтверждения того, что анализ был проведен на основании надлежащих данных в соответствии с корректными спецификациями. Доля ответов описывает среднее число валидных (не пропущенных) ответов на каждое задание. Надежность является общей сводной оценкой средней точности теста для рассматриваемой выборки учащихся. И доля ответов, и надежность варьируются от 0 до 1 и должны быть максимально высокими.

Общее число заданий, включенных в анализ, отражает тот факт, что некоторые задания могут быть исключены из анализа, если они были сочтены несоответствующими ввиду неточных формулировок, их неясности для учащихся или иных методических несоответствий. В рассматриваемом пошаговом примере число респондентов составляет 262, число заданий - 80, а число приемлемых заданий - 79. (МАТНС1075 было удалено из анализа.)

Интерфейс шкалирования более полезен для предъявления итоговых оценок, чем для пилотного тестирования. Поскольку невзвешенная выборка пробного теста не является репрезентативной, распределения результатов не должны обобщаться для всей генеральной совокупности. Кроме того, поскольку результаты тестов не включаются в официальные отчеты, нет необходимости обобщать полученные шкалированные баллы. Дополнительные результаты из интерфейса шкалирования не имеют отношения к анализу данных PILOT1. Нажмите Далее» для перехода к следующей задаче.

ВЫБОР ТЕСТОВЫХ ЗАДАНИЙ

Оптимальный выбор заданий с использованием IATA доступен каждый раз, когда файл с данными по заданиям загружается или создается в ходе анализа данных по ответам. IATA может автоматически выбрать задания на основе их статистических характеристик для получения максимально эффективного теста в соответствии с заданной длиной и целями теста. Основной принцип, лежащий в основе конструирования тестов на основе IRT, заключается в том, что дополнительно к требованиям в отношении сбалансированного содержания, подлежащего включению в тест, разработчик имеет определенные ожидания в отношении степени ошибки измерения для различных уровней подготовки.

В целом, чем больше в тесте заданий, тем больше информации он может дать об уровнях подготовки экзаменуемых учащихся. К сожалению, тесты со слишком большим числом заданий обычно не являются ни практичными, ни желательными; они могут нарушить заведенный в школе порядок или привести к чрезмерной усталости учащегося и снижению уровня его мотивации, что в итоге приводит к менее точным результатам. Кроме того, слишком длинные тесты характеризуются повышенными расходами, связанными с их разработкой, предъявлением, оцениванием и обработкой. Для обеспечения максимальной эффективности теста в него необходимо включать только наиболее информативные задания из пула имеющихся тестовых заданий. IATA может оказать содействие в разработке теста с минимальным числом тестовых заданий, необходимых для достижения целей лиц, ответственных за формирование политики, и иных заинтересованных лиц.

Определение приемлемого уровня стандартной ошибки зависит от цели оценивания. В идеале необходимо построение теста, обеспечивающего высокий уровень точности на всех уровнях подготовки. Однако это потребовало бы большого количества заданий, которые увеличили бы количество времени, затрачиваемого каждым учащимся на прохождение теста. Это могло бы привести к снижению валидности результатов теста, поскольку на них могли повлиять факторы скуки и усталости. Если тест нормативно-ориентированный, то для всех уровней подготовки требуется детальная информация (и более низкая ошибка измерения). Напротив, если тест критериально-ориентированный, информация необходима только в непосредственной близости к пороговым значениям для уровней подготовки, на которых принимаются решения.

Однако выбор заданий на пилотной стадии не должен определяться исключительно результатами статистического анализа. Валидность результатов интерпретации является важнейшим ориентиром при конструировании тестов для национальной оценки. Результаты тестов должны адекватно в достаточной мере и точно представлять измеряемую область. Важнейшими инструментами обеспечения валидности теста являются теоретические концепции и таблица спецификаций или проект теста. Проект теста помогает определить правильный баланс содержания и уровней когнитивных навыков, подлежащих включению в тест (см. Anderson and Morgan 2008).

Рассмотрим интерфейс для выбора оптимальных тестовых заданий (рис. 9.17). Выпадающее меню слева позволяет выбрать источник выбора заданий из списка доступных источников данных, которые автоматически создаются IATA на основании загруженных данных и любого ранее проводимого анализа (см. табл. 8.5). В данном примере нам доступна таблица Задания!, содержащая результаты текущего анализа8. Под полем выбора источника данных находятся ячейки ввода, позволяющие указать название, подлежащее применению к выборке заданий, и общее число заданий, подлежащих выбору из данных по заданиям. Таблица под полями содержит список всех откалиброванных заданий в выбранном источнике данных, а также уровень подготовки (Level) и содержательную область (Content), связанные с каждым заданием. Последние два поля с данными обычно передаются в IATA в файле с данными по заданиям. Такие данные также могут быть отредактированы вручную непосредственно в таблице. Процесс статистического выбора не требует установления спецификаций Level и Content, однако наличие подробной информации о каждом задании поможет оптимизировать выбор заданий для

РИС. 9.17

Результаты выбора заданий для данных PILOT1,50 заданий

  • ?AIAPageS/IO
  • - пП

обеспечения желаемого представления содержания. Если вы нажмете на ячейку слева от названия задания, отметив ее галочкой, то IATA выберет такое задание, безотносительно его статистических свойств.

Под таблицей заданий два скользящих регулятора позволяют указать диапазон уровня подготовки, в рамках которого вы хотите максимизировать точность теста. Регуляторы установлены по умолчанию так, что минимальное значение соответствует 2-му процентилю уровня подготовки, а максимальное - 98-му (текущее выбранное значение отображается справа от каждого регулятора). Вы можете установить более узкий диапазон для максимизации информации путем сдвига верхней и нижней границ в соответствии с целями вашего оценивания. IATA выберет задания для максимизации средней стандартной ошибки измерения в диапазоне уровня подготовки между нижней и верхней границами, что предполагает нормальное распределение уровня подготовки в оцениваемой выборке учащихся.

Основная цель пилотных тестовых заданий заключается в определении того, какие задания будут максимально полезны в процессе окончательного проведения национальной оценки. Если уровень подготовки учащихся в пилотной выборке считается выше среднего, это должно быть принято во внимание при выборе заданий. Помня о том, что вы хотите сформировать окончательный тест, содержащий 50 заданий, введите в IATA следующие спецификации:

  • 1. В ячейке Имя выделенного элемента введите 50Items (название может быть произвольным; указанное название используется здесь для того, чтобы можно было сравнить полученные результаты с результатами в папке выборочных данных IATA).
  • 2. В ячейке Общее число элементов введите число 50.
  • 3. Переместите скользящий регулятор Верхней границы на значение 80. Эта спецификация указывает на то, что выбор заданий не будет максимизировать точность выше 80-го процентиля в распределении уровня подготовки учащихся в выборке. Установка выбрана для компенсации возможности более высокого уровня подготовки пилотной выборки по отношению к общей генеральной совокупности.
  • 4. Нажмите Выбор элементов.

Когда IATA выполнит задачу, появится интерфейс, показанный на рис. 9.17. С левой стороны в списке заданий вы можете увидеть 50 заданий, которые были выбраны (последнее из них - МАТНС1041). Справа на графике показана общая информация и ожидаемая ошибка измерения выбранных заданий в случае их предъявления в тесте. Результаты указывают на то, что выбор заданий является наиболее точным около нулевого уровня подготовки (который представляет собой средний уровень подготовки в текущей выборке). В таблице под графиком резюмировано распределение выбранных заданий по областям содержания и когнитивным уровням. (Для таких данных всем заданиям было по умолчанию присвоено значение 1; значения могут быть отредактированы непосредственно в задании с таблицами или загружены в изначальный файл с данными по заданиям.) Если данные в таблице указывают на то, что статистически оптимальный выбор недостаточно соответствует проекту теста, вы можете изменить баланс содержания путем ручного выбора и удаления конкретных заданий с использованием ячеек около названия каждого задания в таблице слева. Выбор задания вручную приведет к автоматическому обновлению сводных свойств теста справа.

Выбор заданий также регистрируется в виде таблицы данных по заданиям в IATA под названием CustomTest50ItemsA (Индивидуализированный тест на 50 заданий А). Как и со всеми результатами, генерируемыми IATA, вы можете просматривать и экспортировать эту таблицу с данными, перейдя вперед к заключительному интерфейсу последовательности действий (см. разд. «Этап 10: просмотр и сохранение результатов»). Задания в таблице отсортированы в порядке соответствия критериям выбора с расположением наиболее соответствующих заданий в самых верхних строках.

Учитывая небольшое число заданий в текущем анализе, пользователь может использовать IATA просто для сортировки всех заданий в порядке соответствия желаемому диапазону уровней подготовки (т.е. ниже 80-го процентиля в текущей выборке). Затем группа по разработке теста может проанализировать файл с данными по заданиям и, выбирая задания для окончательного теста, использовать ранжирование заданий по соответствию, обеспечивая поддержание надлежащего баланса содержания. Для создания нового выбора заданий выполните следующие этапы:

  • 1. Нажмите Очистить для удаления всех ранее выбранных заданий из списка заданий.
  • 2. Введите новое название для выбора заданий - 79Items (если такое название уже было использовано - более ранние результаты будут перезаписаны).
  • 3. Введите максимальное число доступных заданий (79) в качестве общего числа заданий. Если вы введете число, превышающее число доступных заданий, IATA осуществит выбор только из доступных заданий.
  • 4. Оставьте верхнюю границу на отметке 80, поскольку целевой диапазон уровней подготовки не изменился.
  • 5. Нажмите Выбор элементов.

Некоторые результаты анализа такого пилотного теста из 79 заданий представлены на рис. 9.18. Таблица результатов (которая

РИС. 9.18

Результаты выбора заданий для данных PILOT1,79 заданий

называется CustomTest79ItemsA (Индивидуализированный тест из 79 заданий)) была добавлена в набор результатов IATA, ее можно увидеть, перейдя на заключительный интерфейс последовательности действий. Разработчики тестов могут использовать такую информацию для повышения качества заданий путем выявления и устранения наименее эффективных заданий.

Процесс выбора заданий зависит от качества доступных заданий. IATA не может представить точность для конкретных регионов подготовки, если задания с информацией по таким регионам отсутствуют.

Автоматизированный процесс может помочь выбрать лучшие из доступных заданий, но он не может повысить точность самих заданий. После просмотра результатов нажмите Далее» для продолжения.

СТАНДАРТЫ ПОРОГОВЫХ ЗНАЧЕНИЙ

Пробные этапы тестирования не обеспечивают достаточную информацию для поддержки установления стандартов выполнения. Некоторая информация о статистических свойствах заданий и спецификации, используемые для создания заданий, доступны, но подробной информации о распределении уровня подготовки в генеральной совокупности учащихся пока нет. Следовательно, любая попытка установления стандартов выполнения на пробной стадии была бы излишней и потенциально недостоверной.

Поскольку пошаговый пример анализа данных пилотного теста не требует установления стандартов, нажмите Далее» для перехода к интерфейсу просмотра и сохранения результатов.

ПРОСМОТР И СОХРАНЕНИЕ РЕЗУЛЬТАТОВ

Для всего анализа последовательности действий IATA выдает определенное число различных результатов в формате таблиц с данными. Такие результаты можно посмотреть и сохранить в заключительном интерфейсе каждой последовательности действий. Это позволит вам просматривать каждую из таблиц с результатами, полученными при выполнении последовательности действий анализа. Интерфейс отображает таблицу с данными, выбранную в выпадающем меню. Для изменения источника данных выберите другую таблицу в выпадающем меню, как показано на рис. 9.19. Полный список и описание доступных таблиц с данными, создаваемых IATA, приведены в табл. 8.5.

Обратите внимание, что хотя создание каких-либо стандартов выполнения не было указано, таблица PLevels (Уровни Р) создается автоматически с использованием значений спецификации, установленных по умолчанию.

Вы можете сохранить такие таблицы с результатами в едином выходном файле или в нескольких файлах, нажав Сохранить данные. Вы можете сохранить одну или все таблицы одновременно сразу в нескольких форматах. Для сохранения выходного файла IATA рекомендуются два формата файлов: Excel (*.xls/*.xlsx) и SPSS (*.sav).

РИС. 9.19

Просмотр результатов анализа данных PILOT1

М IATA?age10/10

Формат Excel является более предпочтительным, поскольку все таблицы с данными могут быть сохранены в один файл с данными. Этот формат также может открываться с помощью бесплатного программного обеспечения, такого как OpenOffice, которое можно загрузить с сайта (http://www.openoffice.org). Однако более ранние версии Excel ограничены максимальным количеством в 255 переменных. Если файл с данными содержит большее количество переменных, IATA сохранит только первые 255 в файл *.xls. Для сохранения более объемных файлов с данными используйте форматы *.sav или *.xlsx. Преимущество файлов SPSS заключается в том, что они могут эффективно хранить более объемные таблицы, а также мета-данные, если они отредактированы в программном пакете SPSS. Обратите внимание, что SPSS имеет одно существенное ограничение: каждая таблица с данными будет сохраняться в отдельном файле.

В открывшемся диалоговом окне файла вас попросят указать имя и местоположение файла с результатами, а также формат выходного файла. Выберите желаемый формат данных и нажмите Сохранить для завершения сохранения таблицы или таблиц9. Выходные файлы содержат все табличные результаты, получаемые на протяжении выполнения всей последовательности действий анализа, и представляют собой документацию анализа.

Для справки, результаты пошагового анализа из таблицы с результатами Задания! включены в файл ItemDataAUTests.xls. Рабочий лист, содержащий данные из таблицы Задание! в текущем анализе, был переименован в ReferencePl (Справочный лист Р1). В сохраненных результатах значения «Да» и «Нет» в столбце Е (ОК) указывают, какие задания были включены в итоговый анализ. В данных результатах только в отношении задания МАТНС1075 указано значение «Нет».

Для реального анализа пилотного теста (т.е. теста, использующего имитационные данные) таблицы с результатами и любые графики, скопированные и вставленные при выполнении последовательности действий анализа, должны быть представлены разработчикам тестов. Они могут использовать информацию для модификации теста с помощью выбора, заказа и добавления заданий в соответствии с требованиями для максимизации точности и полезности окончательной формы теста.

ПРИМЕЧАНИЯ

  • 1. См. табл. 8.6, где приведено описание символов и их значений.
  • 2. Нагрузка, равная 1, нецелесообразна, поскольку она подразумевала бы, что каждый респондент должен иметь одинаковую оценку по каждому заданию. Это требование подразумевает, что тест может выдать только два различных значения оценки, что не является очень информативным.
  • 3. Отображенные в IATA значения были стандартизированы для выражения доли общей дисперсии, учитываемой по каждому собственному значению.
  • 4. Двойное нажатие на заголовок отсортирует данные в столбце в порядке убывания.
  • 5. Коэффициент дисперсии выборки рассчитывается как стандартная ошибка S-DIF, поделенная на абсолютное значение S-DIF.
  • 6. Все результаты пошагового примера доступны для справки и сравнения в папке с выборочными данными IATA в таблице Excel под названием ReferencePILOTl.xls. Таблицы с результатами DIF представлены на рабочих листах с названиями, начинающимися с DIF_.
  • 7. Можно скопировать любые диаграммы анализа DIF, поместив курсор на график и выбрав опции Сору и Paste в меню, вызываемом при нажатии на правую кнопку мыши.
  • 8. Для анализа, включающего связывание, выберите изданных по ранее откалиброванным заданиям (Задания2) или набора заданий, который является общим для двух источников данных по заданиям (ОбъединенныеЗадания).
  • 9. Если сохранить все таблицы и выбрать формат выходного файла SPSS (*.sav), каждая таблица с результатом будет экспортироваться в качестве отдельного файла с данными *.sav, а ее название будет использовано в качестве префикса ко всем названиям таблиц.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >