Надежность и ошибка измерения в классической теории тестов

Надежность — характеристика, имеющая отношение к способности тестовой методики предоставлять оценку, близкую к истинной. В прикладном аспекте чаще вызывает интерес точность, или надежность конкретной оценки, полученной в результате исследования. Точность полученной (наблюдаемой) оценки связана с тем количеством ошибки, которая оказала влияние на формирование данной оценки в ходе исследования [13]. Наблюдаемая оценка отклоняется от истинной на величину ошибки измерения. Ошибка измерения состоит из систематической и случайной ошибок.

Если ошибка носит систематический характер, то она одинаково влияет на все наблюдения и является постоянной либо оказывает влияние на определенные группы наблюдений, вызывая смещение (искажение) в результатах. Систематические ошибки трудно отследить в психологических исследованиях, поскольку неизвестны истинные значения измеряемых переменных.

Случайные ошибки важны, поскольку они усложняют отношения в полученных данных. Такие ошибки возникают но разным причинам: толкование содержания пунктов, угадывание, беспокойство, технические ошибки и т.д. Случайные ошибки невозможно полностью устранить, но их можно минимизировать. 'Гакая важная категория в КТТ, как надежность, определяется как свобода от случайной ошибки.

Случайная ошибка измерения связана со структурой измеряемого конструкта. Если конструкт гомогенен, то его измерение должно быть стабильным и воспроизводиться повторно [43].

Случайная ошибка измерения представляет собой важный параметр в измерении психологического конструкта, поскольку ее величина как раз и характеризует отклонение наблюдаемой оценки от истинной. Как мы указывали выше, основная формула КТТ (5.1) имеет следующий вид: Х=Т+Е, где Е представляет случайную ошибку. Отсюда Е = X - Т. Напрямую в КТТ величину случайной ошибки оценить невозможно, поскольку истинная оценка Т фактически неизвестна и представляет собой теоретический конструкт. Поэтому величина ошибки определяется косвенно следующим образом.

Если наблюдаемая оценка X — это сумма истинной оценки Т и ошибки Е, то и дисперсия наблюдаемой оценки 2х) представляет собой сумму дисперсии истинной оценки 2г) и дисперсии ошибки (ojf):

Отсюда

Корень квадратный из дисперсии, как известно, представляет собой стандартное отклонение, являющееся параметром распределения случайной величины. В связи с этим стандартное отклонение случайной ошибки при многократных исследованиях одного и того же испытуемого мы можем использовать как меру отклонения наблюдаемой оценки от истинной. Это стандартное отклонение в психометрике и классической теории тестов называется стандартной ошибкой измерения (SEM):

Таким образом,

Выражение (5.5) не позволяет практически рассчитать SEM, поскольку на практике дисперсия истинной оценки (af) неизвестна, так же как и сама истинная оценка Т. Мы уже отмечали, что в классической теории тестов истинная оценка представляет собой теоретический конструкт, который невозможно оценить на практике. Однако в прикладной классической психометрике наблюдаемая оценка состыковывается с теоретической истинной оценкой через надежность. Чем выше надежность психометрической шкалы, тем ближе распределение наблюдаемой оценки к распределению истинной оценки. Математически надежность (г) выражается как отношение дисперсии истинной оценки к дисперсии наблюдаемой оценки:

Отсюда

Данное выражение можно подставить в формулу для расчета SEM:

Таким образом, стандартная ошибка измерения в КТТ определяется как произведение стандартного отклонения наблюдаемой оценки и квадратного корня из разности 1 и величины надежности тестовой шкалы:

Формула (5.9) позволяет практически определить величину SEM. Дисперсия наблюдаемой оценки рассчитывается на основе данных исследования выборки испытуемых. В качестве показателя надежности используются различные коэффициенты надежности, наиболее популярен коэффициент альфа Кронбаха [13].

Величина SEM позволяет определить, на каком расстоянии друг от друга находятся наблюдаемая оценка и истинная оценка. Это расстояние представляется в виде доверительного интервала:

Классическая теория тестов предполагает, что случайные ошибки имеют нормальное распределение. Это допущение дает возможность использовать функцию плотности вероятности кривой нормального распределения для определения вероятностных границ этого доверительного интервала. В формуле доверительного интервала переменная Zconsl представляет значение Z-оценки для определенной вероятности, с которой в данном интервале находится истинная оценка. Если Z-оценка равна 1, то доверительный интервал образуется только за счет величины SEM. Данное значение Z-оценки соответствует плотности вероятности, равной 68 %. Это означает, что с вероятностью 68 % истинная оценка находится в интервале

В медицинских исследованиях часто указываются доверительные интервалы для 95%-й вероятности, что соответствует значению Z-оценки, равному 1,96:

Последнее выражение показывает, что в интервалах примерно двух стандартных ошибок измерения с каждой стороны от наблюдаемой оценки с 95%-й вероятностью локализуется истинная оценка. Величина этого интервала в данном случае зависит только от значения SEM. Чем оно больше, тем интервал шире, а чем меньше значение SEM, тем ближе наблюдаемая оценка к истинной оценке, следовательно, тем выше точность измерения. Таким образом, стандартная ошибка измерения представляет собой непосредственный показатель точности оценки (измерения) выраженности психологического конструкта. Помимо Z-оценки для 95%-й вероятности, в психометрических исследованиях часто используется Z-оценка для 90%-й вероятности, равная 1,645. В этом случае формула доверительного интервала имеет вид [13; 16]:

Описанная выше технология расчета стандартной ошибки измерения имеет недостатки, с которыми связаны проблемы измерения психологических конструктов на основе КТТ. Использование дисперсии наблюдаемой оценки и коэффициента надежности в формуле расчета SEM ставит величину этого показателя в полную зависимость от особенностей популяции. Проблема в том, что величина SEM исходя из измерительного смысла данного показателя должна характеризовать способность конкретной психодиагностической методики точно измерять психологический конструкт. Однако в реальности получается, что данный показатель характеризует не свойства методики, а способность данной конкретной популяции испытуемых быть точно измеренной с помощью данной методики. Применение этой же методики для измерения другой популяции предоставит другую величину стандартной ошибки измерения, которая может существенно отличаться от значения SEM, полученного при исследовании первой популяции. Еще один недостаток теоретического обоснования SEM в КТТ состоит в допущении, что случайная ошибка измерения имеет нормальное распределение. Это допущение не имеет эмпирического подтверждения и никогда не проверяется на практике [16]. Последний существенный недостаток технологии определения стандартной ошибки измерения в КТТ состоит в том, что величина SEM характеризует точность измерения независимо от конкретного значения наблюдаемой оценки X, т.е. величина SEM имеет равнозначное отношение ко всем возможным оценкам на шкале выраженности конструкта. Вместе с тем совершенно очевидно, что точность измерения конструкта на различных участках шкалы не одинакова. Чаще всего в зонах высокой вероятностной плотности наблюдаемых оценок (например, на среднем участке шкалы) величина ошибки измерения ниже, чем в зонах низкой вероятностной плотности (на отдаленных от центра участках). Поэтому крайние степени выраженности конструкта всегда оцениваются менее точно, чем умеренные. Эффективность измерения была бы значительно выше, если бы имелась возможность определения значения SEM для каждой возможной наблюдаемой оценки по шкале. Это предоставило бы возможность для обоснованного разбиения психодиагностической шкалы на метрически значимые уровни выраженности конструкта и установления достаточно точных критериев интерпретируемости результатов исследования. Однако в рамках КТТ такая возможность отсутствует и значение SEM представляет собой единичный параметр, рассчитываемый для всей методики в целом, вне зависимости от конкретных оценок. К тому же данный параметр полностью зависим от особенностей популяции, в связи с чем имеет сомнительную воспроизводимость. В связи с вышесказанным можно сделать вывод о том, что, несмотря на существующие в КТТ технологии определения величины стандартной ошибки измерения, объективная оценка точности измерения в рамках этой теории фактически невозможна [16].

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >