СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ

Ранее были выделены два аспекта достижений

классической теории тестирования в измерении уровня подготовки, а именно легкость (или сложность) задания и показатель дискри-минативности заданий (см. гл. 9). В приложении мы сосредоточим основное внимание на альтернативном подходе - современной теории тестирования (IRT), которая объединяет концепции легкости и дискриминативности заданий. IRT (также была описана как теория скрытых черт) на сегодняшний день представляет собой самый востребованный подход к крупномасштабным оцениваниям.

Хорошей отправной точкой для понимания IRT будет сравнение представлений о том, что такое хорошее тестовое задание с точки зрения СТТ и IRT. Классические статистические показатели легкости и дискриминативности заданий фокусируются на оценивании и сравнении вероятности правильного ответа для различных учащихся. IRT, напротив, характеризует учащихся по типу ответов на задания, которые они вероятнее всего дадут, и пытается описать распределение уровней подготовки учащихся, отвечающих различным образом. СТТ под хорошим тестовым заданием подразумевает большое различие вероятностей правильного ответа для учащихся с различными уровнями подготовки. С точки зрения IRT хорошим тестовым заданием является задание, где распределение уровней подготовки учащихся, ответивших верно, отличается от распределения уровней подготовки учащихся, ответивших неверно. В то время как СТТ фокусируется на вероятности правильного ответа, IRT сосредотачивает основное внимание на оценивании распределений уровней подготовки. Хотя эти две точки зрения в принципе согласуются, IRT описывает задания более широко и практично.

Программное обеспечение IATA вычисляет результаты, используя множество различных статистических методов. Большинство расчетов представляют собой уравнения в замкнутой форме. Это значит, что расчет ведется по данным ответов учащихся в упорядоченной последовательности этапов для получения желаемых статистических показателей, например среднего арифметического. В уравнениях в замкнутой форме, даже если вычисление состоит из нескольких этапов, значения на каждом этапе основываются на исходных данных и результатах предыдущих этапов. Детальное описание методов уравнений в замкнутой форме для расчета классических статистических показателей заданий и иных основных сводных данных доступны в большинстве учебных пособий по статистике (например, Crocker and Algina 2006).

Некоторые вычисления требуют от IATA расчета статистического показателя х, основанного на статистическом показателе у, но где значение у также основано на значении х. В подобных случаях, поскольку х и у не могут быть рассчитаны совместно, IATA должна использовать итеративный алгоритм. Обычно итеративный алгоритм сначала задает некие обоснованные начальные значения у и использует их для расчета значений х. Затем алгоритм использует полученные результаты для х, чтобы рассчитать новые значения для у. Новые значения у затем используются, чтобы обновить значения х, и процесс продолжается, пока новые итерации существенно не поменяют значения оценок. Рассматриваемый подход к вычислению используется в анализе размерности заданий и тестов, а также для расчета параметров заданий IRT (см. Lord and Novick 1968). Оба таких вида расчетов требуют оценивания свойств заданий, например нагрузок и параметров IRT.

Анализ размерности использует общий итеративный алгоритм, известный как сингулярное разложение, или SVD (см. http:// en.wikipedia,org/wiki/Singular_value_decomposition), но вычисление параметров IRT требует специализированных итеративных алгоритмов (см. Baker and Kim 2004). Такие алгоритмы должны, во-первых, определять вероятность, с которой каждый учащийся правильно ответит на каждое задание, и затем находить параметры заданий, которые наилучшим способом воспроизводят такие вероятности. Затем новые параметры используются для обновления вычисленных вероятностей, которые в свою очередь используются для обновления оценок параметров заданий, и так далее до тех пор, пока оценки на каждой стадии заметно не улучшат предыдущие оценки. Оценивание параметров IATA использует один из вариантов такого общего подхода, который является и более быстрым в расчетах, и более статистически устойчивым по сравнению с другими алгоритмами. Он позволяет использовать методы IRT с более широким выбором дискретных данных по сравнению с иным программным обеспечением.

В таком алгоритме IATA первая стадия (оценивание вероятностей) требует расчета двух распределений уровней подготовки для каждого задания: распределение для верно ответивших респондентов и распределение для неверно ответивших респондентов. Предполагается, что такие распределения являются нормальными по форме, и что для каждого задания эти два распределения имеют одинаковую дисперсию, но отличаются по средним значениям и относительным величинам. Например, если учащихся, ответивших верно, больше, чем учащихся, ответивших неверно, протяженность распределения для верно ответивших респондентов будет больше, чем для респондентов, ответивших неверно. Суммирование этих двух распределений на каждом уровне подготовки описывает распределение уровней подготовки для всех учащихся, а отношение распределения верно ответивших респондентов к суммарному распределению дает оценку вероятности верного ответа на каждом уровне подготовки. Рассматриваемый подход имеет преимущества перед другими методами по двум причинам: а) он описывает вероятность ответа на всех уровнях подготовки, а не по произвольной выборке уровней подготовки, и б) распределение верно и неверно ответивших респондентов может быть описано с использованием среднего значения для верно ответивших респондентов и пропорции верно ответивших на задание, так как среднее значение выборки в целом ограничено значением ноль, а доля неверно ответивших респондентов равна единице минус доля верно ответивших. Напротив, большинство других методов описывают вероятности только для выборки произвольно определенных уровней подготовки и могут требовать сотни независимо рассчитанных статистических показателей для вычисления различных вероятностей. Они также обычно требуют спецификации произвольных ограничений и правил для исправления ошибок оценивания.

Два распределения на рис. II.A.1 иллюстрируют некоторые фундаментальные положения IRT. Две кривые представляют собой распределение уровней подготовки для респондентов по единичному тестовому заданию. Сплошная линия слева описывает уровень подготовки учащихся, которые ответили неверно, а вторая пунктирная (---) кривая описывает уровень подготовки учащихся, которые

ответили верно. Задание имеет степень легкости 0,50, что отражает

РИС. II.А.1

Распределения уровней подготовки для респондентов, ответивших верно, и респондентов, ответивших неверно на одно тестовое задание (легкость = 0,50, средний уровень подготовки верно ответивших респондентов = 0)

идентичную высоту двух распределений вдоль вертикальной оси; верно ответивших респондентов столько же, сколько и неверно ответивших. Средний уровень подготовки верно ответивших респондентов равен 0,10, что отражено на графике положением вершины кривой распределения для учащихся, ответивших верно, точно над 0,10 на оси уровня подготовки. Общее среднее значение для обеих генеральных совокупностей равно 0, и генеральные совокупности одинаковы по размеру, поэтом}' средний уровень подготовки неверно ответивших респондентов симметричен в точке -0,10. Оба распределения похожи по размеру и местоположению, показывая небольшую разницу в уровне подготовки между типами учащихся, ответивших верно и неверно. Если бы между ними не было никакой разницы, оба распределения были бы идентичны со средними значениями 0, а ответы на задания не имели бы никакой связи с уровнем подготовки.

Более точное тестовое задание, также имеющее степень легкости 0,50, проиллюстрировано на рис. II.A.2. Задание показывает тес-

РИС. II.А.2

Распределения уровней подготовки для респондентов, ответивших верно, и респондентов, ответивших неверно на одно тестовое задание (легкость = 0,50, средний уровень подготовки верно ответивших респондентов = 0,99)

нейшую связь между ответами на задание и уровнями подготовки, где средний уровень подготовки респондентов, ответивших верно, примерно равен 1, а средний уровень подготовки респондентов, ответивших неверно, равен примерно -1. Распределения не пересекаются, это указывает на то, что по уровню подготовки респонденты, ответившие верно, полностью отличны от респондентов, ответивших неверно.

На практике подобное явление (когда верно ответившие респонденты полностью отличаются от ответивших неверно) встречается крайне редко. Обычно существует широкий диапазон подготовки, в котором два распределения пересекаются. Плавный переход происходит, когда вероятность того, что учащиеся с растущим уровнем подготовки попадут в распределение ответивших неверно, падает, а вероятность того, что они попадут в распределение верно ответивших, растет. Такой переход проиллюстрирован на рис. П.А.З для задания со степенью легкости 0,60 (показывающей, что распределение верно ответивших респондентов больше, чем распределение неверно ответивших) и средним уровнем подготовки верно ответивших 0,40. Ломаная кривая, известная как функция ответов на задания (IRF), описывает размер распределения верно ответивших респондентов относительно размера распределения неверно ответивших респондентов.

Иными словами, в диапазонах подготовки, где высота распределения верных ответов ниже высоты распределения неверных ответов, IRF будет ниже 0,5; в остальных диапазонах значение будет выше 0,5. Переход от неверного к верному обозначен пороговым значением (вертикальная пунктирная линия на рис. П.А.З), которая соответствует точке, где распределение неверно ответивших респондентов пересекается с распределением верно ответивших респондентов.

IRF может быть интерпретирована как вероятность, с которой респондент с заданным уровнем подготовки попадет в группу верно ответивших респондентов. Точные значения IRF могут быть вычислены делением вероятности для распределения верно ответивших респондентов на сумму вероятностей обоих распределений. Например, при значении подготовки -1 величина вероятности для верно

РИС. II.А.3

Распределения уровней подготовки для респондентов, ответивших верно, и респондентов, ответивших неверно на одно тестовое задание, и условная вероятность верного ответа (легкость = 0,60, средний уровень подготовки верно ответивших респондентов = 0,40)

уровень подготовки

  • — неверно ответившие — — функция ответов на задание
  • - - - - верно ответившие -----наклон - - - пороговое значение

ответивших респондентов равна примерно 0,06, а величина вероятности для неверно ответивших респондентов - примерно 0,15; 0,06/ (0,06 + 0,15) = 0,29. Доля неверно ответивших респондентов обратно пропорциональна доле верно ответивших, а средний уровень подготовки неверно ответивших респондентов может быть рассчитан на основе среднего уровня подготовки верно ответивших респондентов (с учетом того, что общее среднее равно 0). Исходя из этого, IRF является функцией легкости задания и среднего уровня подготовки верно ответивших респондентов.

IRF может быть описана с помощью статистической модели с тремя параметрами а, b и с.

Р(м = 1) = с+ (1 - с)/(1 + Exp(D* a* {theta- 6))),

где P(w = 1) - это вероятность правильного ответа учащегося. Т) представляет собой константу, используемую для шкалирования параметров задания; обычно ее устанавливают равной -1,7, чтобы такая шкала соответствовала шкале нормального распределения. Переменная theta представляет собой уровень подготовки учащегося. Такая же модель описывает задания с дифференцированными ответами, где P(w> х) представляет собой любой балл, больший или равный заданному частичному баллу х. В случае дифференцированных ответов каждый ненулевой балл будет иметь набор параметров.

Хотя все параметры взаимодействуют для описания статистических свойств задания, параметр а преимущественно соответствует расстоянию между средними значениями распределений верно и неверно ответивших респондентов. Параметр b в основном соответствует степени легкости задания; а параметр с соответствует вероятности, с которой учащийся из распределения неверно ответивших будет ошибочно включен в распределение верно ответивших (например, учащийся угадал верный ответ).

Так как процесс IRT является итеративным и вычислительно трудоемким, разные пакеты программного обеспечения могут выставлять немного отличающиеся друг от друга оценки и требовать разного количества времени на выполнение вычислений. Алгоритм оценивания IATA обычно является более устойчивым для выборок различных размеров и заметно быстрее, чем другие программы оценивания IRT. В то время как другие методы используют итеративные аппроксимирующие алгоритмы для выполнения этапа оценивания параметров задания, IATA вычисляет параметры задания алгебраически, используя следующие уравнения:

а = -(д* ./(-1 + />* + р* ц* ?))/!,7(1 + q/(q+ q. .)) верный7 х г г г верный ' '' х 1'^1 1 верный' '

Ь= (jl . + Д* . неверный г верный

(2*f/p*))/ ) /2

с= q/(q+ q . -), 1' '2 /верный'

где

/>* = (1 - (1 - ^)/(1 - с));

^ерныи = ^нвверны^^-Р^/^

с2 = 1 - (р * и* 2 + (о*)* и 2+р*и* . + (q*)u , ;

м г верный ' 1 ' г неверный Г г верный ' 1 неверный' 7

I1 верный ~ сРеДний уровень подготовки учащихся, которые ответили верно;

^„еверный= средний уровень подготовки учащихся, которые ответили неверно;

р = доля учащихся, которые ответили верно;

q = доля учащихся, которые ответили неверно;

Яверный = Д°ля учащихся, которые не смогли ответить на вопрос, но угадали верный ответ (этот статистический показатель должен рассчитываться округлением нижней асимптоты эмпирической функции ответов на задание). Обратите внимание, что если параметр с ограничен значением ноль (а такое ограничение настоятельно рекомендуется вводить во множестве оценочных ситуаций), то q верный вычислять не нужно.

Новые оценки параметров используются в каждом цикле вычислений для получения обновленных функций подготовки для каждого студента с помощью методов, описанных Бэйкером и Ким (Baker and Kim 2004). Хотя алгоритм все же требует проведения многих итеративных циклов для получения окончательной оценки, ошибкоустойчивость предшествующих уравнений на этапе оценивания параметров задания значительно снижает время вычисления и повышает стабильность расчетов.

ПРИМЕЧАНИЕ

1. В IRT уровень подготовки учащегося описывается по шкале (часто называемой theta), аналогичной Z-балльпой шкале: теоретический средний уровень подготовки равен 0, а стандартное отклонение равно 1. Большинство учащихся обычно имеют баллы между-2 и 2, и менее одного учащегося из тысячи будут иметь баллы меньше -3 (или больше 3).

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >