ОЦЕНИВАНИЕ ПАРАМЕТРОВ В IRT-МОДЕЛЯХ

Принципы оценивания мер конструкта

В классической теории тестов оценка конструкта производится путем простого суммирования ключевых ответов на пункты. Затем полученная суммарная оценка может подвергаться линейной трансформации в шкальную оценку, которая и является оценкой измеряемого конструкта. В IRT оценка конструкта проводится на основе первичной оценки параметров каждого диагностического пункта и информации о том, как параметры пункта влияют на поведение испытуемого при ответе па пункт теста [47]. Рассмотрим принципы определения параметров пунктов и конструкта в IRT-моделях.

Испытуемый, проходящий исследование тестовой методикой, состоящей из к пунктов, может получить к + 1 суммарных тестовых оценок (0, 1, ..., /г). Такие оценки являются наблюдаемыми, поскольку они могут быть наглядно определены. Количество же ответов на пункты теста значительно выше, чем число общих суммарных оценок. Конфигурация ответов на пункты отдельного испытуемого, как мы уже отмечали, называется паттерном ответов. Сумма ключевых ответов в паттерне и формирует общую суммарную оценку по тесту. Однако число возможных паттернов ответов, предоставляющих одну и ту же тестовую оценку, как в традиционном подходе к тестированию, так и в модели Раша может быть значительным. Например, в шкале из 5 пунктов общей оценке, равной 3, соответствуют следующие паттерны: 11100, 00111, 10101, 01011 и т.д. (цифрой 1 обозначается ключевой ответ, прибавляющий 1 балл к общей оценке при дихотомических ответах «верно»/«неверно», 0 — отсутствие ключевого ответа). Всего для теста с k количеством пунктов может быть получено 21' паттернов ответов. Каждый паттерн ответов наблюдается с определенной вероятностью. Сумма возможных вероятностей паттернов ответов для каждой суммарной оценки по тесту и для всех данных в целом равна 1. Характеристическая кривая пункта показывает функциональную связь между уровнями конструкта 0 (|3 в модели Раша), которым соответствуют определенные тестовые оценки, и вероятностью ключевого ответа на пункт. Для каждого пункта в паттерне ответов, например 11010, можно построить характеристическую кривую и рассчитать вероятности ключевых ответов для каждого уровня конструкта: Р(0, Ь), Р(0; Ь->), ..., (2(0, />-,). Однако в настоящем контексте важен вопрос: можно ли рассчитать вероятности не отдельных ответов, а целых паттернов ответов для различных уровней конструкта? Другими словами, важно определить функциональную связь уровня 0 и объединенной вероятности ответов в данном паттерне [45].

В случае соблюдения допущения IRT о локальной независимости на данном уровне 0 ответы испытуемых на пункты не зависят друг от друга. Это означает, что объединенная вероятность ответов в паттерне для определенного 0 может быть найдена путем перемножения вероятностей отдельных ответов в этом паттерне. Связь вероятности паттерна ответов, определяемая путем перемножения вероятностей ответов в нем, с определенным уровнем конструкта (0) описывается функцией правдоподобия. Одному и тому же уровню выраженности 0 могут соответствовать несколько паттернов ответов. Каждый из этих паттернов имеет только одно значение функции правдоподобия, а их сумма равна 1 для данного уровня 0. Разница между вероятностью и правдоподобием состоит в следующем. Вероятность относится к событию, частота появления которого прогнозируется на основе наличия определенного признака. Правдоподобие же оценивает, соответствует ли данный определенный признак уже известной вероятности [45]. Применительно к данной теме вероятность паттерна ответов можно определить тогда, когда известны параметры пунктов и уровни 0 испытуемых. В этом случае можно было бы подставить значения этих параметров в базовые уравнения IRT, рассчитать вероятности ответов и, перемножив их, определить вероятность паттерна. Однако смысл использования IRT-моделей в психодиагностике состоит в обратном. Параметры пунктов и уровни конструкта изначально неизвестны. Их определение для каждого паттерна ответов и составляет цель использования IRT. Зная параметры, можно построить объективную и равноинтервальную шкалу измерения психологического конструкта. В качестве исходных данных известны только наблюдаемые вероятности ответов. Перемножив их, мы находим не вероятности, а правдоподобия паттернов ответов, поскольку точные вероятности паттернов неизвестны в связи с тем, что неизвестны параметры пунктов и уровни 9.

Нахождение (оценивание) значений 9 в моделях IRT осуществляется методом максимального правдоподобия. Цель оценивания состоит в максимизации функции правдоподобия для конкретного уровня 9 при данных параметрах пункта. Процесс оценивания включает расчет правдоподобия каждого паттерна ответа для всех возможных значений 9 и использование определенной статистической процедуры для нахождения значения 9, соответствующего максимуму правдоподобия данного конкретного паттерна ответов. Полученные оценки конструкта могут, как и в классической теории тестов, линейно трансформироваться в любые удобные для практического использования оценки с заданными средней и стандартным отклонением (например, в Т-баллы) [45; 47].

Определение 9 для данного паттерна ответов, как считают С. Эмбретсон и С. Рейз, в большей степени представляет собой исследовательский процесс, в меньшей — процедуру подсчета. В процессе оценивания может быть использована дополнительная информация, например о распределении конструкта в популяции [16].

Суть оценивания состоит в поиске такого уровня 9, который имеет максимальную правдоподобность при данном конкретном паттерне ответов. Такой уровень и будет являться оценкой 9 для данного паттерна ответов. В модели Раша разные паттерны ответов, содержащие одинаковое число ключевых ответов, соответствуют одной и той же суммарной тестовой оценке. Следовательно, найденная мера 9 для данного паттерна ответов будет соответствовать определенной суммарной оценке, как мера выраженности измеримого конструкта на интервальной шкале [45|.

Для отдельного пункта функция правдоподобия ключевого ответа является функцией вероятности Р(9), представляемой в виде уже описанной выше характеристической кривой пункта. Функция правдоподобия неключевого ответа является функцией (1 Р(9)), представляемой в виде обратной S-образной кривой. Функция правдоподобия паттерна ответов испытуемого на все пункты теста является продуктом паттернов ответов на отдельные пункты, т.е. продуктом характеристических кривых пунктов [15; 45].

Графически функция правдоподобия представляется как пикообразная кривая, при этом горизонтальная ось включает меры 9, а вертикальная — значения правдоподобия (вероятности при

График функции правдоподобия паттерна ответов при разных мерах 0

Рис. 14.1. График функции правдоподобия паттерна ответов при разных мерах 0

неизвестных параметрах). Пример графика функции правдоподобия приведен на рисунке 14.1.

Пик кривой функции правдоподобия соответствует максимальному значению правдоподобия паттерна для определенной меры (уровня) 0. Функции правдоподобия разных паттернов ответов, содержащих одинаковое количество ключевых ответов и одну и ту же суммарную оценку, имеют пики максимума, соответствующие одной и той же оценке 0 [45]. Конкретное числовое значение функции правдоподобия не имеет особого значения. При увеличении количества пунктов в шкале значение правдоподобия для любого паттерна ответов уменьшается. Однако максимальное значение правдоподобия намного превышает остальные значения в этой функции. Максимальное значение функции правдоподобия может быть найдено графически путем использования сетки с малыми функ- циональными интервалами, например равными 0,01. Вычислительным способом в IRT-моделях и модели Раша максимум правдоподобия находится с помощью процедуры Ньютона — Рафсона [15].

Функция правдоподобия представляет собой числовой результат, который находится в диапазоне от 0 до 1. Поэтому значения этой функции очень малы. В связи с этим лучшим способом шкалирования будет использование логарифмов. Как известно, логарифм произведения равен сумме логарифмов множителей. Исходя из этого логарифм правдоподобия, получивший название лог-правдоподобия, представляет собой не произведение вероятностей, а сумму логарифмов вероятностей ответов в паттерне [25].

В ряде случаев в процессе оценивания принимается во внимание, как распределен 9 в популяции, так называемое, предшествующее распределение. При трудностях достижения определенного максимума функции правдоподобия полезно использовать популяционную среднюю 0 [15]. В Байесовой статистике предшествующее распределение умножается на функцию правдоподобия, полученную на наблюдаемых данных. Такая оценка называется последующим правдоподобием. Максимум функции последующего правдоподобия легче находится. Оценки 0, основанные на максимуме, называются модально-последующими (modal-a-posterior — МАР), поскольку функция достигает максимума в модальном значении. Оценки средней часто называются ожидаемо-последующими (expected-a-posterior — ЕАР) в связи с тем, что ожидаемое значение представляет собой статистическое понятие среднего значения при бесконечном количестве повторяющихся наблюдений. Еще раз отметим, что учет предшествующего распределения полезен с точки зрения фиксации оценки 0 при наличии трудности достижения максимума функции правдоподобия [15].

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >