Статистика параметров диагностических пунктов в классической теории тестов

В классической теории тестов две статистики диагностических пунктов играют центральную роль. Первая представляет собой коэффициент корреляции пункт — общая оценка. Этот коэффициент используется как индикатор адекватности пункта в оценке конструкта. При конструировании психодиагностических методик в рамках КТТ желательно, чтобы значение коэффициента корреляции было как можно выше.

Второй традиционной статистикой пунктов является показатель трудности пункта. В психометрике постулируется, что различные пункты теста имеют различный уровень трудности. В связи с этим тестовые оценки отражают различные уровни оцениваемого конструкта. Испытуемые с низким уровнем выраженности конструкта предоставляют ключевые ответы на легкие пункты и не дают ключевые ответы на пункты средней и выраженной трудности. Испытуемые, имеющие выраженный уровень конструкта, способны предоставить ключевые ответы не только на легкие и средние по трудности задания, но и трудные пункты теста [38]. Для дихотомических пунктов трудность пункта соответствует доле испытуемых, предоставивших ключевые ответы на данный пункт [13]. Для пол игом ичсских пунктов трудность пункта равна среднему значению ответов на полито- мические категории пункта [15]. Среднее значение тестовых оценок группы испытуемых равняется сумме трудностей диагностических пунктов. Обычно предпочтение отдается пунктам, имеющим показатель трудности, равный 0,5. Данное значение соответствует максимальной дисперсии ответов и обусловливает высокую надежность. Парадокс индекса трудности в КТТ состоит в том, что чем меньше значение данного индекса, тем труднее пункт [15].

Основной недостаток обеих статистик заключается в их зависимости от особенностей популяции испытуемых. Значения обоих показателей могут меняться от популяции к популяции, что существенно затрудняет объективную оценку психометрических свойств методики [16].

Ограничения и недостатки классической теории тестов как метрической модели

Основная концепция классической теории тестов заключается в понятии истинной оценки. Больше никаких теоретических положений КТТ не содержит. Максимальное приближение наблюдаемой оценки к истинной оценке представляет собой главный «измерительный» принцип КТТ. Реализуется это приближение посредством достижения приемлемой надежности. С точки зрения КТТ, если методика обладает достаточной надежно- стью, значит, при ее создании соблюдены все правила научного измерения.

Шкалы, созданные в рамках КТТ, подобны температурной шкале без теоретических представлений о природе температуры. Любой параметр, монотонно возрастающий с ростом температуры, пригоден для се измерения. В психометрическом плане в КТТ лишь предполагается, что измеряемый конструкт монотонически соответствует «истинному показателю» по тесту. Монотонность двух переменных означает, что испытуемые ранжируются по их значениям в одном и том же порядке. Как уже указывалось, наблюдаемая тестовая оценка принимается в качестве оценки истинного показателя с определенной мерой ошибки.

Такие параметры пунктов, как трудность и дискриминатив- ность, не интегрированы в классическую психометрическую модель и находятся за ее рамками. Использование этих параметров в отборе диагностических пунктов при конструировании методик определяется их влиянием на дисперсию наблюдаемой оценки и надежность методики [16].

В критическом анализе КТТ Р. Массоф отмечает, что она характеризуется тавтологией, поскольку психометрическая цель ее состоит не в измерении выраженности конструкта и определении правил эквивалентности наблюдаемой оценки уровню выраженности конструкта, а в приближении одной оценки (наблюдаемой) к другой оценке (истинной). Однако нигде в классической теории не озвучивается, как истинная оценка (представляемая в тех же баллах, что и наблюдаемая) связана с выраженностью оцениваемого конструкта [38].

Трудность пункта в КТТ полностью зависит от распределения психологического конструкта в популяции, т.е. данный параметр не является объективным показателем психодиагностической методики. Если в выборке преобладают высокие уровни измеряемого конструкта, то трудность пункта будет низкой, поскольку большинство испытуемых предоставят ключевой ответ на пункт. Если же в выборке испытуемых преобладают испытуемые с низким уровнем конструкта, то трудность пункта будет высокой, так как в большинстве случаев испытуемые не ответят на данный пункт. В то же время у одних и тех же испытуемых будет обнаруживаться более высокий уровень конструкта при выполнении легких тестов по сравнению с трудными. Трудность диагностического пункта определяется лишь пропорцией испытуемых, предоставивших правильный (ключевой) ответ на этот пункт [38J. Метрика трудности пункта ограничена 1 % или 100 %. Это означает, что трудность пункта не может быть меньше 1 % или больше 100 %. Ограничения метрики искажают отношения между различными уровнями трудности. Например, легкий пункт с высокими значениями трудности в популяции с меньшей выраженностью конструкта будет иметь значение 0,98, а в популяции с большей выраженностью — 0,99. Средний по трудности пункт в первой популяции будет иметь значение трудности 0,5, а во второй популяции — 0,8 [15].

Отсутствие объективности в оценках параметров методики обусловливает необъективное измерение психологического конструкта. Подобная необъективность в физических измерениях означала бы, что оценка веса тела человека зависит от того, какой вес имеет испытуемый. У людей с большим весом получалась бы заниженная оценка, а с малым — завышенная. Совершенно ясно, что такая ситуация невозможна в измерении физических величин [62].

Различные версии одной и то же методики, созданные на разных выборках, в рамках классической теории тестов продуцируют совершенно разные шкалы. Если на пункт отвечает значительная доля испытуемых из одной выборки, то он характеризуется низким уровнем трудности, а испытуемые — выраженным уровнем конструкта. Если же на этот же пункт большинство испытуемых из другой выборки не предоставляют ключевого ответа, то он уже будет иметь высокий уровень трудности, а испытуемые характеризоваться низкой выраженностью конструкта. Таким образом, в формате КТТ ключевой ответ на один и тот же диагностический пункт может говорить как о низком, так и о высоком уровне выраженности измеряемого конструкта. В связи с этим диагностическая ценность отдельных диагностических пунктов зависит от популяции, которая проходит исследование, и в целом не может валидно учитываться при интерпретации полученных данных. Диагностическое значение имеет лишь общий суммарный показатель по тесту, который складывается путем суммирования ключевых ответов [38].

Попытка получения измерительной шкалы в КТТ, как отмечает Р. Массоф, реализуется путем разбиения всего спектра шкальных значений на ряд диапазонов, соответствующих равным интервалам. Однако полученная таким образом шкала состоит не из истинных мер выраженности конструкта, а из заранее известных границ диапазонов значений тестовой суммарной оценки. Например, в случае стэнов (станайнов) — это частотные границы, а в случае Z-оценок — стандартные отклонения среднего значения. Основной недостаток такой псевдоизмерительной шкалы состоит в том, что она полностью привязана к одной выборке испытуемых, которая использовалась для создания этой шкалы. В равные интервалы шкалы попадают значения так называемой нормативной выборки. Считается, что тестовые оценки данной выборки соответствуют оценкам всей популяции. Однако это совсем не так. Довольно часто получается, что методика применяется в популяциях, значительно отличающихся по своим характеристикам от нормативной выборки. Практически невозможно добиться полной репрезентативности нормативной выборки. Таким образом при шкалировании оценок тестовой методики в рамках классической теории тестов равные интервалы шкалы отражают не уровни выраженности конструкта в популяции, а расположение оценок испытуемых нормативной выборки в монотоническом ранговом порядке. Из этого следует, что измерительная шкала в КТТ на самом деле является псевдоинтервальной, а по сути - ранговой. Это означает, что цифровые оценки результатов исследования на подобной шкале нельзя валидно интерпретировать с точки зрения выраженности конструкта у испытуемого, и совершенно недопустимо делать конкретные выводы о том, насколько выше уровень выраженное™ измеряемого конструкта у одного субъекта по сравнению с другим [38].

Получение равноинтервальной шкалы в рамках КТТ возможно только при нормальном распределении тестовых оценок. По мнению С. Эмбретсон и С. Рейза, только в этом случае возможны линейная трансформация и получение стандартных оценок на шкале равных интервалов. Ненормально распределенные оценки подвергаются нормализации с целью приведения к нормальному распределению. Однако такое нормальное распределение полностью зависит от конкретной популяции. Отсюда следует, что проведение измерительных процедур в популяции с неизвестным распределением оценок не имеет смысла, как и неясно, представителем какой популяции является данный конкретный испытуемый, можно ли применять данную измерительную шкалу к оценке психологического конструкта [16]. Ниже мы подробнее рассмотрим особенности создания различных шкал в рамках КТТ на основе допущения о нормальном распределении.

Такой важнейший принцип научного измерения, как инвариантность параметров в КТТ, согласно К. де Mac (С. de Mars) может быть достигнут только на больших по размеру выборках с приближением распределения к нормальному [15].

Таким образом, перечислим основные недостатки классической теории тестов, которые представили Р. Хэмблтон и соавторы (R. Hambleton et al.) в своем фундаментальном руководстве по психометрике [25]:

  • • характеристики испытуемых и тестовые характеристики не могут оцениваться независимо друг от друга; они могут интерпретироваться только во взаимном контексте;
  • • измеряемый конструкт представляет собой лишь истинную оценку, ожидаемую при исследовании данным тестом;
  • • трудность психодиагностической методики обусловливает вариативность результатов измерения конструкта у одного и того же испытуемого различными методиками; если методика легкая, оценка конструкта будет выше, если трудная — ниже;
  • • характеристики диагностических пунктов являются группозависимыми — оценки этих характеристик различаются у разных групп испытуемых;
  • • невозможность сравнения результатов испытуемых по выраженности конструкта при исследовании разными методиками;
  • • некорректность допущения, что стандартная ошибка измерения одинакова для всех оценок по шкале; она не может быть одинаковой при исследовании испытуемых с разной степенью выраженности конструкта;
  • • неизвестны параметры взаимодействия испытуемого и отдельных диагностических пунктов [25].

Классическая теория тестов, указывает Б. Райт, не содержит правил построения научно обоснованной шкалы измерения латентных психологических конструктов. Классическая теория тестов лишь допускает, что при достаточной надежности психодиагностическая шкала может обладать измерительными свойствами [62]. Последствия такого подхода негативно сказываются на точности и валидности результатов психодиагностики, что особенно актуально для клинической психодиагностики в Республике Беларусь.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >