АНАЛИЗ ДАННЫХ ПО ОТВЕТАМ С ПАРАМЕТРАМИ ЯКОРНЫХ ЗАДАНИЙ

В предыдущих главах все параметры заданий IRT принимались за неизвестные и должны были рассчитываться из данных по ответам учащихся. Параметры тестовых заданий были рассчитаны для каждой национальной оценки (например, CYCLE1 и CYCLE2) и использовались для расчета констант связывания.

IATA также предоставляет возможность импортирования фиксированных параметров заданий из более ранних оценок, которые могут быть использованы для связывания результатов текущего оценивания с последующим оцениванием. Сначала она рассчитывает параметры текущего оценивания и связывает их с нескорректированными параметрами более раннего оценивания. Задания, используемые в процессе связывания, называются якорными. Параметры якорных заданий а, b и (опционально) с являются параметрами, которым были присвоены значения в файле данных для некоторых тестовых заданий до анализа конкретного файла с данными по ответам, преимущественно аналогично тому, как якорные задания используются в формальном связывании. Когда данные по ответам анализируются с использованием параметров якорных заданий, рассчитываются параметры новых или неякорных заданий, в то время как параметры якорных заданий остаются фиксированными со своими предварительно заданными значениями. Вновь рассчитанные результаты, такие как параметры IRT для неякорных заданий и IRT-баллы учащихся, выражаются по шкале, определяемой параметрами якорных заданий. Этот метод предпочтительнее, чем формальный процесс связывания, в случаях, когда оценки параметров задания, полученные с использованием текущих данных по ответам, могут уступать по качеству оценкам, полученным на основе уже существующих оценок. Такая ситуация может возникнуть, если текущая выборка меньше по размеру или является менее репрезентативной по сравнению с выборкой, использованной для расчета существующих параметров заданий. Рассматриваемый метод также подходит в случае, когда большая часть (более 70 %) заданий в текущем оценивании уже имеет существующие оценки параметров. Единственная разница между использованием якорных заданий и последовательностью действий, описанных ранее, заключается в том, что некоторые задания уже будут иметь свои параметры в файле вводимых параметров задания.

Предположим, координационный комитет по национальной оценке принял решение использовать тест из предыдущего цикла национальной оценки с незначительными изменениями набора тестовых заданий. В таком случае выполнение полной процедуры связывания, описанной в гл. 13, необязательно. Для относительно небольшого количества новых заданий, используемых в текущем оценивании, IATA автоматически откалибрует их параметры IRT и поместит их в ту же шкалу, что и параметры якорных заданий. Итоговые IRT-баллы учащихся будут основаны как на параметрах якорных заданий, так и на вновь откалиброванных заданиях, и будут выражены по той же шкале, что и параметры якорных заданий.

Используйте пример набора данных CYCLE3 для выполнения текущего упражнения. Данные по заданиям для этого теста находятся в рабочей тетради Excel ItemDataAllTests. Такие данные представляют собой третий цикл программы национальной оценки, который был проанализирован выше. Для третьего цикла координационный комитет принял решение использовать задания из теста CYCLE2 после внесения незначительных изменений в содержание некоторых заданий и замены лишь восьми заданий с вариантами ответов и всех заданий, требующих краткого ответа. Вместо того чтобы пересчитывать новые параметры и константы связывания, комитет принял решение использовать параметры заданий из CYCLE2 для якорного закрепления приблизительных баллов параметров для новых заданий.

Для проведения анализа с якорными заданиями выполните следующие этапы:

1. Выберите последовательность действий Анализ данных от

вета из главного меню.

  • 2. Загрузите данные по ответам учащихся CYCLE3.xls (содержащие 2539 записи и 61 переменную) из папки выборочных данных IATA (страница 1/10 IATA). Убедитесь, что первый учащийся в списке файла с данными имеет следующие значения: SCHOOLID = 30, Sex = 2, SchoolSize = 21, МАТНС2047 = С. Нажмите Далее».
  • 3. Загрузите файл ItemDataAllTests.xls и выберите таблиц}’ CYCLE3 в качестве данных по заданиям (страница 2/10 IATA). Таблица содержит 53 записи и 7 переменных. Обратите внимание, что МАТНС2047, задание на действия с числами, имеет значения 0,80 и -0,75 параметров а и Ь, соответственно. В отличие от файлов с данными, используемых в предыдущих заданиях, значения параметров а и b присутствуют в некоторых, но не во всех заданиях, как показано на рис. 14.2. Параметры заданий, имеющие присвоенные значения, являются параметрами якорных заданий. Эти значения были сформированы во время анализа данных CYCLE2 и привязаны к изначальной шкале,

РИС. 14.2

Данные по заданиям для CYCLE3 с параметрами якорных заданий

LAIAPageZnO

установленной для оценки CYCLE1. Нескольким заданиям с определенными ключами ответов, не имеющим параметров заданий (например, МАТНС2069), были присвоены новые параметры заданий, рассчитанные из данных по ответам. Так как якорные параметры уже были привязаны к шкале CYCLE1 в предыдущем анализе, вновь рассчитанные параметры текущего анализа данных CYCLE3 были также привязаны к шкале CYCLE1. Нажмите Далее» для перехода к спецификациям анализа.

  • 4. Установите идентификационную переменную CYCLE3STDID, весовой коэффициент CYCLE3Weight и отметьте галочкой значение 9 (страница 3/10 IATA). Обратите внимание, что дополнительные числовые значения (0, 1, 2, 3) в столбцах значений представляют собой оценки по заданиям с дифференцированными ответами. Нажмите Далее», чтобы приступить к анализу.
  • 5. Полученные результаты показаны на рис. 14.3. Обратите внимание, что теперь все задания имеют параметры заданий, но

РИС. 14.3

Результаты анализа заданий с параметрами якорных заданий, данные CYCLES, МАТНС2047

И 1АТАРаде4/10 - п ВЛ

якорные задания сохраняют свои исходные значения (см. значения а и b для МАТНС2047 на рис. 14.2 и 14.3). В отличие от связывания на уровне теста в целом здесь вы можете увидеть, как параметры якорных заданий согласовываются с текущими данными по ответам, если сравните теоретические и эмпирические IRF для каждого задания. Например, МАТНС2047 использовало параметры якорного задания; IRF, подписанная как Теоретическая на рис. 14.3, получена на основе данных CYCLE2, a IRF, подписанная как Эмпирическая, основана на данных CYCLE3. В целом сопоставление якорных заданий обычно менее эффективно по сравнению с новыми заданиями, чьи параметры рассчитываются на основе текущих данных. Если соответствие между индивидуальными теоретическими и эмпирическими IRF слабое (это означает, что величина вертикального разрыва между теоретическими и эмпирическими IRF стабильно больше 0,05), а выборка новых данных по ответам велика, задания не следует использовать в качестве якорных параметров. Однако если выборка мала (например, менее 500), то недостаточное соответствие между7теоретическими и эмпирическими IRF может быть вызвано просто случайной ошибкой и, соответственно, может не приниматься во внимание.

Несколько заданий (таких как МАТНС1046 и МАТНС2034) отмечены желтыми ромбами. Такие задания менее связаны с уровнем подготовки, но были сохранены д ля целей этого упражнения. Обратите внимание, что оценка 1 за задание с дифференцированными ответами МАТНА006 (МАТНА006@1) отмечена красным треугольником. Почти 99 % учащихся получили оценку 1 или выше за это задание. Однако сохранение оценки 1 не окажет существенного влияния на качество результатов. Отметка просто указывает на то, что балл незначительно отличен от 0, тогда как баллы, равные 2 и 3 в этом задании (МАТНА006@2 и МАТНА006@3), четко различимы от друтих значений баллов. В общем случае настоятельно рекомендуется пересмотреть балльную систему для текущего задания для рассмотрения баллов 2 и 3 в качестве применимых (соответствующий ввод с клавиатуры в ТАТА будет «2:1;3:2»). Однако в рассматриваемом примере сохранение существующей системы баллов не создает неудобств, поскольку7 IATA откорректировала оценку баллов для отражения низкого уровня подготовки, связанного с такой оценкой дифференцированных ответов.

  • 6. Страницы 5/10и6/10 IATA, содержащие проверку7 размерности и анализ дифференцированного функционирования заданий, можно пропустить: обе задачи идентичны аналогичным задачам, выполненным в предыдущих последовательностях действий. Нажмите Далее».
  • 7. Поскольку7 задания автоматически привязываются к шкале CYCLE1, среднее значение и стандартное отклонение переменной IRTScore (страница 7/10 IATA) поданным CYCLE3 могут значительно отклоняться 0 и 1 в текущей выборке (в данном случае среднее значение равно 0,02, стандартное отклонение - 1,04). Важным фактором, подлежащим учету при шкалировании результатов, является то, что использование параметров якорных заданий возможно, поскольку IRT-баллы закреплены за связывающими параметрами из CYCLE2. Вам необходимо использовать опцию Изменить масштаб для получения шкалированных баллов с указанием величин среднего значения и стандартного отклонения, используемых при разработке шкалы NAMscore в CYCLE1. Вставьте NAMscore и исходные значения стандартного отклонения (100) и среднего значения (500). Нажмите Расчет. Значения среднего арифметического и стандартного отклонения по измененной шкале для NAMscore равны 501,71 и 103,96, соответственно. Нажмите Далее».
  • 8. Пропустите выбор задания (страница 8/10IATA). IRT-баллы представлены в шкале, установленной по данным CYCLE1, примените пороговые значения стандартов выполнения из CYCLE1 (Уровень 4 = 0,95, Уровень 3 = 0,35, Уровень 2 = -0,25, Уровень 1 = -0,85) к набору данных CYCLE3 (страница 9/10 IATA). Нет необходимости устанавливать уровень RP, так как делящие точки уже определены. Это позволит убедиться, что учащиеся CYCLE3 были оценены по пороговым значениям CYCLE1. Нажмите Ввод после введения пороговых значений. Нажмите Добавить уровни, чтобы определить для учащихся стандарты или уровни выполнения. Нажмите Далее».

9. Нажмите Сохранить данные и сохраните все таблицы результатов для оценки CYCLE3. Отметьте, что в файлах данных ОЦЕНЕННЫЕ результат первого учащегося имеет IRT-баллы и NAM 1,41 и 641,10, соответственно. Для сравнения результаты данных по заданиям этого анализа (Jtemsl) включены в файл ItemDataAUTests. xls в таблице ReferenceC3.

Наконец, обратите внимание, что якорные параметры заданий особенно полезны в случаях, когда размер выборки новой национальной оценки мал, тесты имеют много общих заданий или данные по ответам предоставлены из обоих тестов. В последнем случае данные по ответам должны включать всех респондентов обоих циклов для облегчения анализа дифференцированного функционирования заданий между двумя тестами; данные по заданиям будут включать ключи ответов ко всем заданиям, и только параметрам для заданий, используемых в предыдущем цикле, будут присвоены значения.

Во время проведения различных анализов рассмотренного типа группа по оценке может вносить такие изменения, как удаление заданий или корректировка уровней подготовки или категорий содержания учебной программы. Если количество или степень изменений значительны, не следует использовать связывание заданий.

Принимая во внимание вероятность того, что аналитики или иные ключевые сотрудники будут меняться от одной национальной оценки к друтой, важно сохранять все таблицы данных и представлять четкие объяснения ключевых решений и изменений, произведенных с файлами данных по заданиям. Для облегчения процесса будущей национальной оценки аналитики должны составлять краткое описание любого изменения, произведенного с файлом данных по заданиям в ходе текущего анализа, в текстовом файле ReadMe (см. Freeman and O’Malley' 2012).

ПРИМЕЧАНИЕ

1. Загрузка таких данных опциональна, так как для оценки статистической связи необходимы только параметры заданий. Если IRT-баллы не загружаются на этой стадии, примените результаты связывания, используя другой пакет программного обеспечения (например, SPSS или Excel).

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >