ПРОВЕДЕНИЕ ПОЛНОГО АНАЛИЗА ДАННЫХ ПРЕДЪЯВЛЕНИЯ ОКОНЧАТЕЛЬНОГО ТЕСТА

Для выполнения упражнения используйте набор выборочных данных CYCLE1. Ключ к тесту для теста приведен в рабочей тетради Excel ItemDataAUTests.xls на листе CYCLE1.

Анализ, описанный в этой главе, основан на результатах учащихся, которые были получены ими в ходе национальной оценки за тест по математике, предъявленный национальной выборке учащихся. Окончательный тест включал 50 заданий, представляющих пять содержательных областей (действия с числами, фигуры и пространство, связи, решение задач и неопределенность) в пропорциях, определенных спецификациями теста. Дизайн окончательной выборки представлял собой стратифицированную кластерную выборку7, где основной единицей были школы, с целевой выборкой из 30 учащихся из каждой школы. Выборка включала 79 школ, выбранных в качестве репрезентативных пяти национальных регионов и стратифицированных по статусу местонахождения (сельская/городская) и языку обучения. Общее число учащихся в выборке составляло 2242 учащихся, представляющих генеральную совокупность около 86 000 учащихся.

Пошаговый анализ проводится с соблюдением тех же этапов, что и анализ данных пилотного теста в гл. 9. Однако поскольку окончательный тест в основном направлен на получение и интерпретацию оценок, анализ заданий обычно проводится без исследовательского акцента, характерного для анализа данных пилотных тестов. Соот ветственно пошаговый пример фокусируется на отдельных аспектах анализа данных окончательного теста, которые отличают его от анализа данных пилотных тестов. Дополнительно к анализу пилотных данных анализ полных тестовых данных в настоящей главе включает расчет шкалированных баллов и установление стандартов выполнения теста. Если этапы анализа идентичны этапам, описанным в гл. 9, просим обращаться к информации, представленной в указанной главе.

Приступите к анализу, выбрав Анализ данных ответа в главном меню анализа заданий и тестов (IATA).

НАСТРОЙКА ПАРАМЕТРОВ АНАЛИЗА

Процедуры настройки параметров анализа аналогичны процедурам, описанным в гл. 9. Сначала загрузите файл с ответами, затем загрузите файл с данными по заданиям и установите спецификации анализа. Если необходима более подробная информация, обратитесь к гл. 9 (этапы 1-3) для получения подробных инструкций. Папка с выборочными данными IATA содержит следующие файлы:

  • • файл с данными по ответам для настоящей главы CYCLEl.xls (содержит 2242 записи и 58 переменных);
  • • файл с данными по заданиям находится в файле Excel под названием ItemDataAllTests.xls в таблице CYCLE1. Убедитесь, что в интерфейсе загрузки данных по заданиям выбрано верное название таблицы (файл с данными по заданиям CYCLE1 содержит 50 записей).

Задания в тесте национальной оценки являются подмножеством заданий пилотного теста, описанных в гл. 9. Спецификации анализа немного отличаются от спецификаций анализа данных пилотных тестов, в основном потому что использовалась вероятностная выборка в полном предъявлении теста в национальной оценке. Первое отличие заключается в названии идентификационной переменной -CYCLE1STDID. Второе отличие, которое окажет влияние на результаты анализа, заключается в присутствии дизайна с весовыми коэффициентами выборки, который называется CYCLElweight. Данные спецификации переменных должны быть выбраны в выпадающих меню. В таких данных значение 9 представляет собой пропущенные ответы, которые рассматриваются как неверные. Полные спецификации должны выглядеть так, как показано на рис. 10.1.

Обратите внимание, что данные по заданиям для итоговой оценки также включают данные в третьем столбце Level таблицы слева. Такие данные представляют собой натуральные числа (от 1 и выше), отражающие ожидаемый уровень выполнения или необходимой подготовки, который специалисты по разработке содержания учебных программ присвоили каждому тестовому заданию. Таким образом, уровень 1 представляет собой самый низкий уровень выполнения (т.е. минимальную компетентность), а уровень 4 - самый высокий. Хотя каждому заданию присвоен определенный уровень, некоторые учащиеся могут не достигнуть даже самого низкого уровня.

После верификации корректности спецификаций и данных нажмите Далее» для продолжения. Анализ начнется автоматически,

РИС. 10.1

Спецификации анализа для данных CYCLE1

м

IATA Раде 3/10

периодически обновляя интерфейс. При больших массивах данных и медленных компьютерах анализ может показаться медленным на стадии оценивания параметров, которая обычно занимает больше всего времени. Не закрывайте программу; IATA продолжит работать и предоставит обновление по завершению анализа.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ АНАЛИЗА

Поскольку проблематичные задания были идентифицированы и удалены во время анализа данных пилотного теста, в полном наборе данных проблематичных заданий не осталось. Подтвердите, что задания ведут себя надлежащим образом, с помощью рассмотрения результатов: а) анализа заданий (страница 4/10 IATA) и б) анализа размерности результатов теста (страница 5/10 IATA). Для получения инструкций по выполнению данных этапов обратитесь к гл. 9 (этапы 4-5). Обратите внимание, что все задания, перечисленные на странице 4/10 IATA, отмечены (зелеными) кругами, за исключением МАТНС1046, которое было идентифицировано в гл. 9 как характеризующееся определенными проблемами, но было оставлено в тесте. По окончании перейдите к интерфейсу дифференцированного функционирования заданий (DIF) (страница 6/10 IATA).

АНАЛИЗ ДИФФЕРЕНЦИРУЮЩЕГО ФУНКЦИОНИРОВАНИЯ ЗАДАНИЙ

Хотя анализ DIF был проведен для данных пилотного теста, рекомендуется повторение анализа для полной выборки, поскольку результаты анализа DIF обычно чувствительны к ошибкам выборки. Среди других причин, по которым следует проводить повторный анализ DIF, можно назвать следующие: полная выборка может содержать переменные, которые были недоступны в пилотной выборке, и выборка предоставляет более приемлемое число случаев для анализа DIF.

В этом примере анализ DIF проводится для проверки возможности смещения измерения для учащихся из городских зон, чтобы ответить на вопрос: находятся ли учащиеся из сельской местности в более невыгодном положении по сравнению с учащимися из городских регионов? Для данных CYCLE1 значение 1 для показателя означает, что учащийся посещает сельскую школу, значение 0 - учащийся посещает городскую школу. Для установления спецификаций анализа и исследования результатов необходимо выполнить следующие этапы:

  • 1. В выпадающем меню слева выберите переменную Rural. В таблице под выпадающим меню появятся значения 0,00 и 1,00 со значениями 56 % для 0,00 и 44 % для 1,00, что указывает на то, что 44 % учащихся (не взвешенный показатель) в выборке посещают сельские школы.
  • 2. В таблице значений нажмите 1,00. В результате значение 1,00 (представляющее учащихся, посещающих сельские школы) будет введено в качестве фокус-группы в текстовом поле ниже.
  • 3. В таблице значений нажмите 0,00. В результате значение 0,00 (представляющее учащихся, посещающих городские школы) будет введено в качестве референтной группы в текстовом поле ниже.
  • 4. Нажмите Расчет и дождитесь завершения вычислений.
  • 5. После завершения вычислений в списке заданий нажмите на заголовок столбца S-DIF для сортировки всех заданий по значениям статистических показателей S-DIF.

После выполнения этих этапов появится интерфейс, показанный на рис. 10.2. Большая часть статистических показателей S-DIF и U-DIF меньше 5, что указывает на то, что после контроля различий в уровне подготовки между сельскими и городскими учащимися различия результатов выполнения заданий между учащимися в этих местонахождениях в общем случае можно не принимать во внимание.

Цель проведения анализа DIF на стадии предъявления окончательного теста национальной оценки заключается в определении того, стоит ли признать задание непригодным для расчета баллов учащихся. 11а текущей стадии анализа будет уместно поделиться результатами статистического анализа с координационным комитетом национальной оценки. Комитет определит, стоит ли сохранить или

РИС. 10.2

Результаты анализа DIF для данных CYCLE1 по местонахождению школ, МАТНС1043

удалить потенциально проблематичные задания. Если задание будет удалено, анализ может быть проведен повторно либо после удаления ключа ответов задания в интерфейсе спецификаций анализа, либо после снятия галочки с данного задания в интерфейсе анализа заданий. В рассматриваемом примере мы допускаем, что все задания были оставлены в анализе.

После просмотра всех заданий нажмите Далее» для продолжения.

ШКАЛИРОВАНИЕ

Шкала, используемая по умолчанию для расчета результатов для шкалированных баллов современной теории тестирования (IRT), является стандартной шкалой, или шкалой Z, имеющей среднее значение 0 и стандартное отклонение 1. Многие заинтересованные лица испытывают сложности при работе с баллами по этой шкале, поскольку баллы примерно половины учащихся являются отрицательными. Аналогично баллы, ограниченные 0 и 100, характеризуются проблемами при сообщении пользователям; многие получатели информации склонны предполагать, что 50 представляет собой проходной балл, это может быть не так в зависимости от спецификаций теста.

Для поставленных целей сообщения результатов тестов со средним баллом менее 50 % или ниже 0 могут быть нежелательными. Некоторые крупномасштабные оценки преобразуют свои рассчитанные баллы в шкалы, имеющие средние значения 500, 100 или 50 и стандартные отклонения 100, 20 и 10, соответственно. Каждая группа по проведению национальной оценки должна выбрать тип балла, который вероятнее всего облегчит эффективное сообщение результатов.

В IATA можно проводить два типа шкалирования: установление шкалы и повторное шкалирование. Установление шкалы позволяет вам указать желаемое среднее значение и стандартное отклонение шкалированных баллов. Изменение шкалы позволяет вам применить простую линейную трансформацию к IRT-баллам, которая полезна, если шкалированные баллы нужно сравнить с оценками по шкале, созданной в рамках ранее проведенного анализа. В таком случае параметры задания из предыдущего цикла могут быть использованы для оценивания результатов тестов или выравнивания результатов из данных учащихся в новом цикле, так что IRT-баллы, рассчитываемые IATA, сопоставимы с IRT-баллами, рассчитанными в предыдущем цикле. Шкала оценки рассчитанных результатов может затем быть изменена с использованием функции изменения шкалы для обеспечения их сопоставимости с сообщаемой шкалой предыдущего цикла.

Балл по новой шкале создается путем ввода названия новой оценки и определения стандартного отклонения и среднего значения в соответствующих ячейках. После нажатия вами кнопки Расчет IATA выдаст новые шкалированные баллы и отобразит распределение и сводные статистические показатели.

В отличие от анализа пилотного теста, основная функция которого заключается в предоставлении информации о дизайне теста, главная функция анализа данных тестов национальной оценки за ключается в получении оценок. Следовательно, рассматриваемый пошаговый пример требует тщательного изучения и указания свойств результатов тестов, которые осуществляются с использованием интерфейса шкалирования. Во-первых, сравнение распределения оценок уровня подготовки с точностью теста для каждой оценки уровня подготовки (также называемое тестовой информацией) дает информацию для обеспечения качества выводов, которые могут быть сделаны в отношении различных диапазонов уровней подготовки. Во-вторых, создание сообщаемой шкалы для результатов тестов формирует метрик)' передачи результатов заинтересованным лицам.

График на рис. 10.3 показывает, что тестовая информация, которая проиллюстрирована сплошной черной линией, распределена хорошо относительно распределения уровней подготовки в выборке. Пик частоты с левой стороны графика примерно на -3 по шкале уровней подготовки соответствует учащимся, которые ни на одно задание теста не ответили верно. Тест не дает достаточной информации для

рис. ю.з

Распределение уровней подготовки (IRT-балл) и тестовой информации, данные CYCLE1

точного определения того, насколько в действительности низок уровень подготовки учащихся; в результате им всем присваивается одинаковый произвольный низкий балл.

Для анализа распределения IRT-баллов выберите IRTscore из выпадающего меню в верхнем левом углу интерфейса. Интерфейс обновится описательными деталями о IRT-баллах и тестовой информацией, как показано на рис. 10,3. Среднее арифметическое распределения IRTscore составляет -0,02, а стандартное отклонение - 1,08. Эти значения сами по себе несущественны, поскольку они представляют произвольную шкалу, по которой задания были откалиброваны.

Сравните результаты со статистически идеальной формой функции тестовой информации в плане максимизации общей надежности теста для генеральной совокупности с нормальным распределением, как показано на рис. 10.4. Для сравнения, стандартное нормальное распределение показано пунктирной линией. Идеальная информация для выборки должна предоставлять большую часть информации на уровнях подготовки, представляющих большинство учащихся. Ей так-

РИС. 10.4

Сравнение идеальной тестовой информации и нормального распределения

уровень подготовки

тестовая информация - - - ? нормальное распределение же нужна достаточная информация для проведения различий между учащимися с чрезвычайно высоким и низким уровнем подготовки.

Полученные результаты также указывают на то, что тест был относительно сложным для учащихся. Пик информационной функции теста обычно располагается в зоне уровня подготовки, где учащиеся с наибольшей вероятностью наберут 50 %. На рис. 10.3 данный пик немного выше среднего значения -0,02, что указывает на то, что учащиеся с уровнем подготовки выше среднего набирали только 50 % верных ответов.

Для получения более полезной сообщаемой шкалы па основе IRT-балла используйте функции Добавить новый показатель масштаба в нижнем правом углу интерфейса (см. рис. 10.3). Для этого примера допустим, что национальный координационный комитет запросил новую шкалу, которая требует установки среднего значения на уровне 500, а стандартного отклонения - на уровне 100.

Эта шкала будет установлена в первом цикле национальной оценки и использована в последующих циклах в целях сообщения об изменениях в достижениях с течением времени. Шкала будет называться NAMscore (национальная оценка баллов по математике). Для установления данных спецификаций необходимо выполнить следующие этапы:

  • 1. Введите NAMscore в поле под подписью Добавить балл по новой шкале.
  • 2. Введите значение 100 для стандартного отклонения в поле Укажите стандартное отклонение.
  • 3. Введите значение 500 для среднего значения в поле Укажите среднее значение.
  • 4. Убедитесь, что выбрана опция Установка шкалы. Это позволит проконтролировать, чтобы полученный шкалированный балл имел среднее значение 500, а стандартное отклонение -100 для данной выборки. Опция Изменить масштаб просто откорректирует существующий IRT-балл по указанному среднему значению и стандартному отклонению.
  • 5. Нажмите Расчет.

Когда IATA закончит обрабатывать запрос, она обновит интерфейс сводным графиком и статистическими показателями для вновь созданного шкалированного балла, показанного на рис. 10.5.

Выбор полученного шкалированного балла имеет относительно мало ограничений. Любое валидное название может использоваться для такого балла при условии, что оно не было использовано в данных по ответам (см. гл. 8 для получения информации о стандартах и ограничениях присваивания названий переменным). Среднее арифметическое может быть любым вещественным числом, а стандартное отклонение может быть любым вещественным числом больше нуля. Однако важно убедиться, что самые низкие из полученных баллов учащихся не меньше нуля. Самый низкий балл обычно примерно на три-четыре стандартных отклонения ниже среднего арифметического, поэтому рекомендуется устанавливать значение среднего арифметического на уровне не менее четырех стандартных откло-

РИС. 10.5

Распределение и сводные статистические показатели для нового шкалированного балла (NAMscore), данные CYCLE1

нений выше нуля. Выбор сообщаемой шкалы необходимо обсудить с координационным комитетом по национальной оценке, так чтобы все заинтересованные лица понимали, как интерпретировать включенные в отчет результаты.

После создания нового шкалированного балла нажмите Далее» для продолжения.

ВЫБОР ТЕСТОВЫХ ЗАДАНИЙ

Данные CYCLE1 представляют начальный цикл программы национальной оценки. Если тест подлежит использованию в последующих циклах в целях сравнения, необходимо установить связь с результатами начального цикла. Для этого выберите подмножество заданий, которое является и точным, и репрезентативным в отношении континуума уровня подготовки.

Для поддержания устойчивой связи между тестами целесообразнее сохранять около 50 % заданий общими со смежными оценками. Такие задания называют якорными. Для облегчения процесса выбора якорного задания используйте функции выбора заданий ТАТА для ранжирования каждого задания в текущем тесте в соответствии с его пригодностью для максимизации точности по диапазону' уровней подготовки. Для осуществления данного выбора выполните следующие этапы:

  • 1. Введите название ItemRanks в поле Name of item selection.
  • 2. Введите число 50 в поле Total number of items, чтобы выбрать все задания.
  • 3. Оставьте нижнюю и верхнюю границы на установленных по умолчанию значениях 2 и 98.
  • 4. Нажмите Select Items.

Полные результаты показаны на рис. 10.6. Все доступные задания были выбраны и классифицированы по содержанию и когнитивному7 уровню, идентифицированному в изначальных спецификациях.

Результаты, полученные на основе таких спецификаций, добавлены к набору результатов текущего анализа, как и таблица данных

Выбор задания, данные CYCLE1

по заданиям IATA. Такая таблица должна быть предоставлена разработчикам тестов, ответственным за модификацию второго (или последующего) цикла национальной оценки, так чтобы они могли выбрать набор общих заданий с учетом информации о содержании и психометрической значимости каждого тестового задания, используемого в цикле 1 (или первом) национальной оценки. В идеале, набор якорных заданий должен включать половину от общего числа заданий полного теста и представлять содержание и когнитивные навыки из спецификации теста в тех же пропорциях, что и полный тест.

Как правило, любое статистическое связывание, где связанные задания составляют менее 20 % общего теста, вряд ли обеспечит значимую связь, безотносительно точности или содержательности репрезентативности таких заданий. При выборе заданий будет практично начать с наиболее желательного задания и распределить их по ячейкам новых спецификаций теста в соответствии с их содержанием и когнитивными уровнями. Делать это необходимо до тех пор, пока нужное число заданий не будет получено в каждой ячейке или пока список заданий не будет исчерпан.

После завершения анализа IATA нажмите Далее» для продолжения.

УСТАНОВЛЕНИЕ СТАНДАРТОВ ВЫПОЛНЕНИЯ

Самые современные оценки сообщают результаты по уровням. Такие международные оценки, как PIRLS, PISA и TIMSS, а также многие национальные оценки, например Национальная оценка образовательного прогресса США (NAEP), сообщают оценки достижений учащихся по результатам выполнения или эталонным уровням (см. Greany and Kellaghan 2008; Kellaghan, Greanyand Murray 2009). TIMSS, например, использует четыре эталонных уровня: низкий, средний, высокий и продвинутый (Martin, Mullis and Fuy 2008). Стандарты пороговых значений должны быть значимыми, а не просто представлять собой произвольные статистические пороговые значения, такие как процентили, поскольку они являются основным инструментом, используемым для обобщения и отчетности по результатам учащихся. Процесс определения значимых стандартов выполнения называется установлением стандартов.

IATA облегчает процедуры установления стандартов, сначала указывая вероятности верного ответа RP (Response Probability-далее RP) для каждого задания и затем рассчитывая уровни подготовки (значения RP), связанные с указанным RP. Например, если RP была бы установлена на уровне 50 %, величина RP для задания была бы равна уровню подготовки, связанному с 50%-й вероятностью верного ответа. В крупномасштабных оценках используется широкий ряд различных RP, обычно варьирующихся от 50 % до 80 %. Принято использовать значение 67 %, которое считается статистически оптимальным для классификации заданий. Однако выбор RP также должен основываться на нормативных определениях того, какая вероятность успеха представляет собой уровень освоения учебного материала на уровне определенного класса, а также на знаниях последствий различных способов использования стандартов. На пример, в образовательном контексте, где последствия сообщения о неудаче обычно значительней последствий сообщения об успехе, низкие RP могут быть предпочтительнее.

Перед проведением анализа данных комиссия заинтересованных лиц, включающая специалистов по разработке учебных программ и экспертов из числа педагогов, проконсультировавшись с координационным комитетом по национальной оценке, должна принять решение о числе используемых уровней подготовки. Некоторые национальные оценки выбирают два уровня, например приемлемый и неприемлемый, другие выбирают три уровня, например низкий, достаточный и продвинутый, а третьи могут использовать четыре и более уровней. Если комиссия заинтересованных лиц решает использовать более двух уровней, каждый из них, кроме самого низкого, должен быть определен конкретным набором заданий, на которые учащиеся соответствующего уровня, как предполагается, смогут ответить. В целом, кроме случаев, когда оценивание включает сотни заданий (требующих использования тестовых буклетов с ротируемым дизайном), количества доступных заданий едва ли хватит для определения трех и четырех уровней.

Интерфейс проведения такого анализа показан на рис. 10.7. Слева в выпадающем меню вы можете выбрать источник для выбора заданий. Как и с интерфейсом выбора заданий, вы можете выбрать любые источники данных по заданиям, доступные в текущей последовательности действий. Для текущего анализа доступна только таблица Задания!1. Задания из выбранного источника перечислены в таблице под выпадающим меню. Значения в столбце Level могут быть отредактированы непосредственно в каждой строке. Для оценивания статистически оптимальных пороговых значений на основе текущей классификации заданий установите вертикальный скользящий регулятор, находящийся в центре интерфейса, на желаемый уровень RP. При открытии интерфейса RP по умолчанию установлена на 67 %. Это указывает на то, что критерием, используемым для ранжирования заданий или оценивания оптимальных пороговых значений, является 67%-я вероятность верного ответа на каждое задание.

Интерфейс установленных по умолчанию стандартов выполнения, данные CYCLE1

Когда вы нажмете на вертикальный регулятор и переместите его для корректировки значения, IATA обновит оптимальные пороговые значения и выдаст результаты в окне с графиком с правой стороны и в таблице результатов под ним. Такой график показывает положение каждого порогового значения с помощью вертикальных линий относительно распределения уровней подготовки и информационной функции теста. Эта информация иллюстрирует полезность выбранных уровней. Например, если очень мало респондентов имеют такой уровень, любые сводные статистические показатели, описывающие учащихся на таком уровне, будут слишком малы и неустойчивы для интерпретации. Аналогично, если тест не обеспечивает необходимой точности на пороговом значении уровня, классификация учащихся на этом уровне будет неточной.

Таблица под окном с графиком на рис. 10.7 описывает задания, представляющие каждый уровень с помощью среднего арифметического и стандартного отклонения параметров заданий Ь. Самый правый столбец в таблице содержит пороговое значение, которое было оценено для каждого уровня. Например, среднее арифметическое и стандартное отклонение параметров b для уровня 4 равны 0,77 и 0,38, соответственно. Значение 0,77 указывает на то, что среднее значение параметров 6 для заданий уровня 4 соответствует баллу уровня подготовки 0,77 по шкале IRT. Пороговое значение при RP 67 % для уровня 4 составляет 1,32. Такие статистические показатели полезны в определении того, является ли распределение заданий достаточно аргументированным. Например, если стандартное отклонение заданий на каком-либо уровне больше расстояния между средними или пороговыми значениями смежных уровней, статистическая основа определения уровней может быть несостоятельной. В результатах стандартное отклонение в рамках уровней составляет около 0,35, а расстояние между7 смежными уровнями варьируется от 0,17 до 0,53, что указывает на то, что уровни определены достаточно аргументированно.

Для определения точек деления или пороговых значений между уровнями подготовки используется несколько методов. Одним из них является метод, называемый «методом закладок», который представляет собой IRT-процедуру, основанную на представлении сложности задания и способности учащихся на одной и той же шкале латентной переменной. Она включает тщательное рассмотрение комиссией экспертов по установлению стандартов (например, специалистов по разработке учебных программ и опытных учителей) всех тестовых заданий через призму7 информации, доступной им из спецификаций тестов, учебных программ, результатов тестов учащихся и нормативных определений того, что учащиеся знают и умеют в рамках каждого уровня подготовки (см. Karatonis andSireci 2006; Mittzel and others 2001).

Процедуры, регулирующие деятельность таких комиссий в отношении отбора, обучения, взаимодействия между членами комиссии и использования ими данных из различных источников, могут отличаться. Они не рассматриваются в настоящей книге, где мы сосредотачиваем свое внимание на том, как данные, генерированные IATA, могут помочь в установлении уровней подготовки.

На самом начальном этапе комиссия готовит специально разработанную версию тестового буклета национальной оценки, содержащего задания с вариантами ответов и задания открытого типа, представленные по одному на странице в порядке величин RP. Задача комиссии состоит в идентификации заданий, находящихся на границе между когнитивно различающимися группами заданий или уровнями. Затем комиссия применяет метод закладок и метки-заполнители к границам уровней в таком специально разработанном тестовом буклете. Задания, выбранные для группы самого высокого уровня (например, уровня 4), представляют собой задания, на которые учащиеся такого уровня вероятнее всего ответят правильно, а учащиеся более низких уровней дадут верный ответ с меньшей степенью вероятности. Аналогично, на задания, выбранные для уровня 3, учащиеся такого уровня (а также уровня 4) вероятнее всего ответят верно, а учащиеся более низких уровней дадут на такие задания верный ответ с меньшей степенью вероятности.

РИС. 10.8

Интерфейс стандартов выполнения, RP = 50 %, данные CYCLE1

«Back

IATAPage9/10

PERFORMANCE STANDARDS

To e:*mase sta* :bca >

I) Then :electa mastery threshold or RPvalue us mg the shder control The RP value it

rnpl»c»V st a student ma stored a level Mhti also mattered levels Apph’the valuet to a

Alternated ifyouunihto use an emp«ncally*drrven method to define the tasks associated wvth arbitrary

MAT MCI 045

1

068

000 0 00

MAT К1067

2

070

?025 000

МАТЮ033

г

077

454 000

МАТИС 1074

2

065

407 000

MATHCI 052

3

ок

067 000

МАТНС102Ю

3

0S5

034 000

мдтискм»

3

0» 000

иатнскх*

071

034 000

MATMCI02?

4

073 000

МАТИС105Э

4

084

ОТО 000

МАТМС1054

4

ОК

0 48 0 00

МА Тис 1037

4

0 73 0 00

МАТИС1078

4

082

1 J7 000

МАТ НС 1047

4

064

160 0 00

MATHC1Q65

2

061

415 000

ИАТНС1043

2

053

0» 000

>

Sa*» 0oo>me4 data

Add Levels

Mam Menu

Level

Mean

SiOevtefton

The^oM

-

|0 77

038

077

035

032

035

2

418

032

418

|1

035

030

035

Предположим, например, что экспертная комиссия решила использовать RP 50 % для валидации начальной классификации заданий разработчиками заданий. Для предоставления подтверждений для валидации выполните следующие этапы:

  • 1. Установите RP на 50 %, нажав на вертикальный регулятор и переместив его па соответствующее значение, как показано на рис. 10.8.
  • 2. Нажмите Сохранить данные закладки. IATA выдаст диалоговое окно, которое сообщит вам, что данные были сохранены.
  • 3. Нажмите Далее» для перехода к окну просмотра результатов.
  • 4. Выберите таблицу BookmarkData в выпадающем меню.

Результаты анализа закладок показаны на рис. 10.9. Данные включают название задания (Name), параметры IRT (а, Ь, с), начальный уровень классификации (Level), исходный файл статистических показателей задания (Source) и значения RP 50 для каждого задания. Например, третье задание на рис. 10.9 (МАТНС1025) имеет величины для параметров а и b 0,90 и -0,78 соответственно и изначально было отнесено к уровню 1 RP 50 со значением -0,70 (указывающим на то, что вероятность получения оценки уровня подготовки -0,70 составляет 50 %). (В этом случае в задании имеется только один столбец со значением RP, а таблица с данными в закладках может включать несколько столбцов со значениями RP.) Выбранная таблица результатов должна быть экспортирована и представлена экспертной комиссии. Значения в столбце RP50 указывают порядок представления заданий в методе закладок, который используется для классификации заданий по уровням подготовки и определения точек деления на шкале.

Используя метод закладок, члены комиссии пересматривают каждое задание в порядке значений RP. Когда им встречается задание, которое, как им кажется, представляет более высокий стандарт выполнения, они добавляют «закладку» в данном месте в специально разработанном тестовом буклете. Значения RP, непосредственно предшествующие местам закладок, представляют предполагаемые пороговые значения для определения уровней подготовки.

Данные закладок, RP = 50 %, данные CYCLE1

Обычно сочетания групповых обсуждений и статистического усреднения используются для комбинирования пороговых значений, предлагаемых различными экспертами, и выбора их в качестве окончательных, используются групповые обсуждения и статистическое усреднение, даже если такие итоговые значения не являются статистически оптимальными. Для разработки качественных описаний каждого уровня подготовки задания классифицируются с помощью окончательных пороговых значений.

Многие типы информации, включая спецификации заданий, ссылки на учебные программы и нормативные определения того, что учащиеся должны знать и уметь на каждом уровне подготовки, должны одновременно предоставляться комиссии, ответственной за установление стандартов. Комиссия должна сопоставить различные источники информации для определения наиболее полезных точек деления шкалы и распределение тестовых заданий по уровням. На свое усмотрение члены комиссии могут принять решение об использовании классификации заданий, заранее установленных разработчиками заданий, вместо повторной классификации заданий на основе метода закладок. В любом случае рассчитанные IATA пороговые значения представляют статистически оптимальные пороговые значения для указанных классификаций заданий. Для получения статистически оптимальных пороговых значений просто скорректируйте RP до желаемого процентного значения, и IATAавтоматически произведет вычисления с использованием RP и классификацию уровней заданий и сохранит результаты в таблиц}’ PLevels в наборе результатов анализа. По умолчанию, если вы не введете значения в таблицу вручную, IATA сохранит пороговые значения, соответствующие RP 67 %. Обратите внимание, что IATA не производит автоматическое обновление уровня, к которому относится задание. Если метод закладок или иная процедура классификации заданий модифицирует классификацию задания, новый уровень классификации должен быть введен в исходные данные задания или непосредственно в IATA.

Вы можете вручную изменить пороговый уровень, отредактировав пороговые значения непосредственно в таблице результатов. После изменения значений график будет автоматически обновлен. Наиболее часто выполняемые корректировки включают равномерное расположение пороговых значений или присвоение пороговых значений, которые после применения констант шкалирования появятся в виде целочисленных приращений (например, 5 или 10). Необходимо профессионально подходить к сопоставлению данных статистического анализа и анализа содержания с необходимостью сообщать результаты непрофессиональным аудиториям. Простота должна быть сбалансирована с точным сообщением о значимых различиях в подготовке учащихся.

В рассматриваемом примере допустим, что комиссия после рассмотрения начальных данных закладок и иных источников информации предлагает определить уровни с использованием следующего набора точек деления: -0,85, -0,25, 0,35 и 0,95. Учащиеся с баллом ниже -0,85 будут классифицированы как учащиеся ниже уровня 1; учащиеся с баллом от -0,85 до -0,24 будут отнесены к уровню 2 и т.п.

Нажмите «Назад для возврата к интерфейсу стандартов выполнения, где данные точки деления могут быть записаны в выходной файл с данными, и учащиеся могут быть отнесены к соответствующим уровням. Выполните следующие этапы:

  • 1. Введите рекомендуемые значения, представленные комиссией заинтересованных лиц, в соответствующие строки в столбце Пороговое значение. Нажмите Ввод после внесения последней записи для обеспечения корректного обновления интерфейса IATA.
  • 2. Нажмите кнопку Добавить уровни. IATA распределит учащихся по соответствующим уровням на основе их IRT-баллов.

Распределение пороговых значений по уровням выполнения проиллюстрировано на рис. 10.10. Такие уровни распределены равномерно, с отнесением разумной доли учащихся к каждому уровню. Хотя для равномерного распределения не существует никаких конкретных математических причин, в большинстве национальных и международных оценок принято использовать равномерно распределенные пороговые значения. Они кажутся более понятными непрофессиональным аудиториям, которые являются основными получателями сводной информации по уровням подготовки.

В таблице с данными Scored, которую можно увидеть в последнем окне последовательности действий анализа, запись для каждого учащегося также содержит переменную Level. Такая переменная указывает уровень стандартов выполнения, к которому относится каждый учащийся, на основании пороговых значений, показанных на рис. 10.10. Например, первый учащийся, указанный в списке как CYCLE 1STDID, был отнесен к уровню 4, имел процентильный балл 85,13 и IRT-балл 1,06. Обратите внимание, что в этом примере средние значения и стандартные отклонения параметров b для каждого уровня в сводной таблице не изменились. Поскольку данные значения представляют собой сводные статистические показатели заданий, а ие баллы учащихся, они изменятся, только если классификация заданий обновится, что может быть осуществлено либо через файл

Интерфейс стандартов выполнения с установленными вручную пороговыми значениями, данные CYCLE1

ключа к заданию, либо непосредственно в таблице, показанной слева на рис. 10.10 в столбце Level.

Применив пороговые значения для классификации заданий по уровням подготовки или выполнения, экспертная комиссия должна разработать качественные описания уровней с характеристиками знаний и навыков на каждом уровне. Вы можете изучить примеры описаний уровней и компетенций в иных книгах серии; особенно в книге 1 «Оценка уровней национальных учебных достижений» для PISA, рис. ВЗ.З (Greany and Kellaghan 2008) и книге 5 «Использование результатов национальной оценки учебных достижений» для NAEP, табл. 2.6; Вьетнам, табл. 2.7; и Мозамбик, табл. 6.2 (Kellagan, Greany and Murray 2009).

После установки пороговых значений для стандартов выполнения и применения их к баллам учащихся нажмите Далее» для перехода к интерфейсу просмотра и сохранения результатов.

СОХРАНЕНИЕ РЕЗУЛЬТАТОВ

В интерфейсе просмотра и сохранения результатов вы можете ознакомиться с результатами, полученными в ходе проведенного в рассматриваемом примере пошагового анализа. Все таблицы должны быть сохранены в целях ведения проектной документации и облегчения связывания тестов с последующими циклами данных. Для примера результаты данных по заданиям настоящего пошагового анализа включены в файл ItemDataAUTests.xls на рабочем листе Referenced.

ПРИМЕЧАНИЕ

1. Таблица Задания2 также доступна для последовательности действий анализа, применяющего процедуры связывания.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >