ВВЕДЕНИЕ

Сегодняшняя экономика глобальных знаний требует от правительств, образовательных систем и школ тщательного мониторинга различных учебных результатов, в том числе и достижений учащихся. Национальная оценка учебных результатов учащихся в ключевых областях учебной программы вносит свой вклад в достижение поставленной цели путем решения проблем в следующих сферах:

  • качество - предоставление информации об обучении со ссылкой на реализацию учебной программы, достижение образовательных стандартов или подготовку к будущему обучению;
  • равенство - определение того, дискриминирует ли образовательная система определенные группы учащихся в плане обеспечения равного доступа к образовательным услугам, что подтверждается различиями в успеваемости, связанными с гендерными признаками, местом проживания, принадлежностью к этнической, языковой или социально-экономической группе или формой учебного заведения (государственной или частной);
  • обеспечение - выявление факторов, относящихся к процессу обучения учащихся (например, школьные ресурсы; реализация учебной программы; уровень подготовки, квалификации и опыта учителей; домашняя обстановка учащихся);
  • изменение - относится к изменению результатов обучения со временем (Greaney and Kellaghan 2008; Kellaghan and Greaney 2001; Kellaghan, Greaney, and Murray 2009).

В более ранних книгах серии «Национальная оценка учебных достижений» описаны компоненты национальной оценки на основе выборок учащихся. Такие компоненты включают спецификацию содержания тестов и анкет, определение генеральной совокупности, представляющей интерес, и составление вероятностной выборки, которая представляет генеральную совокупность, процесс проведения оценивания и другой инструментарий для учащихся и иных респондентов, оценку ответов учащихся и чистку и управление данными. Окончательный набор данных, полученный в результате таких действий, в рамках которых тестовые задания были созданы и объединены в тестовый буклет, а данные по ответам были собраны, представляет собой исходные показатели для анализа, описанного в настоящей книге.

Часть I предназначена для оказания содействия группам по национальной оценке в проведении анализа данных, который обычно проводится в рамках национальной оценки. В главе 1 приведен обзор наборов сведений, используемых в рабочих примерах на CD-диске, прилагающемся к книге. Далее, в главе 2, проводится исследовательский анализ данных с использованием пакета SPSS. В нем определяются такие понятия, как среднее значение, медиана, метод и стандартное отклонение, и проводится ряд поясняющих аналитических процедур. В главе 3 представлено понятие стандартной ошибки оценки, описаны процедуры оценивания степени ожидаемого отличия данных выборки от данных генеральной совокупности. Кроме того, изложен расчет WesVar стандартных ошибок для комплексной выборки, которая является важной характеристикой грамотно построенной национальной оценки. В главе 4 описаны способы решения проблем, связанных с обеспечением равенства, с помощью анализа различий между средними баллами конкретных категорий учащихся для определения того, является ли полученная разница статистически значимой. В главе 5 особое внимание уделено способам описания результатов учащихся с высокими и низкими достижениями. В главе 6 рассмотрены связи между переменными (например, взаимосвязь между школьными ресурсами и обучением учащихся), подтверждаемые корреляцией, и представлено введение в регрессионный анализ. В главе 7 приведены примеры способов представления данных на диаграммах и графиках.

Часть II книги посвящена построению шкал оценки учебных достижений. Для решения данной задачи были использованы две популярные статистические системы (в рамках которых было сформулировано несколько моделей). Первая система, классическая теория тестирования (СТТ) (см. Crocker and Algina 2006; Haladyna 2004; Lord and Novick 1968), применялась на протяжении практически всего XX века, а также была использована во второй книге настоящей серии для описания процесса разработки тестов (Anderson and Morgan 2008). Вторая система, описанная в части II, - это современная теория тестов (IRT) (см. De Ayala 2009; De Mars 2010; Hambleton, Swaminathan, and Rogers 1991; Lord and Novick 1968). Она зародилась в середине XX века и в настоящее время широко используется в национальной и международной оценке достижений учащихся.

Программное обеспечение для анализа заданий и тестов (IATA), описанное в настоящей книге, использует IRT для анализа результатов тестирования. Оно было задумано как удобный инструмент решения двух основных статистических подходов, связанных с национальной оценкой: а) повышения полезности и интерпретируемости результатов тестов и б) создания показательных и логичных шкал представления оценок. Последняя задача требует снижения числа ошибок измерения и предоставления информации, которая может быть обобщена на основе выборки, из которой были получены данные. Последовательность аналитических процедур, проведенных в части II, имитирует фазы разработки и внедрения программы национальной оценки от пилотного до полномасштабного и контрольного тестирования и последующих циклов оценивания. В главе 8 приведено описание главного меню IATA, его интерактивных элементов и получаемых результатов. Глава 9 описывает этапы анализа данных, полученных при пилотном предъявлении тестов, после чего в главе 10 описаны этапы окончательного анализа данных тестов. Далее рассматривается анализ изменяющихся тестовых буклетов (см. гл. 11) и заданий с возможностями частичного выполнения (см. гл. 12). Сравнение оценок на основе установления связей и приме нения специализированных методов IATA описаны в главах 13 и 14, соответственно. В завершении книги представлено приложение по IRT. Обращаем ваше внимание, что программы IATA работают только на базе операционной системы Windows.

Главным преимуществом IRT, в отличие от СТТ, является то, что она обеспечивает такие статистические характеристики заданий, которые не зависят от распределения способностей в тестируемой группе, и такие характеристики тестируемых, которые не зависят от тех заданий, которые выполнялись тестируемыми. Ее преимущества становятся особенно заметными в ситуациях, требующих уравнивания тестов, выявления систематических ошибок в заданиях и разработки компьютеризированного адаптированного тестирования.

Недостаток IRT заключается в том, что она требует углубленных аналитических навыков и знания сложных компьютерных процедур, которыми группа по проведению национальной оценки может не обладать. Многие группы по национальной оценке в развивающихся странах по-прежнему основывают разработку тестов на параметрах сложности и дискриминативности заданий теории СТТ. Стоит признать, что такие формы данных предоставляют разработчикам тестов полезную информацию безотносительно модели измерения, применяемой на более поздних стадиях процесса разработки тестов. Кроме того, СТТ и IRT дают весьма схожие результаты в плане сопоставимости статистических данных заданий и учащихся, также как степени инвариантности статистических данных относительно выборок сдающих экзамен учащихся (Fan 1998).

Безотносительно того, какой подход, СТТ или IRT, выбран для разработки тестов, внимания заслуживают следующие два аспекта, относящиеся к современной практике национальных и международных оценок. Они вытекают из практики разработки тестов, предназначенных для оценивания индивидуальных достижений учащихся. Это: а) допущение об одномерности оцениваемой характеристики или способности, б) фокус на максимизации различий между достижениями экзаменуемых учащихся. Оба эти аспекта оказывают влияние на результаты тестов.

Допущение об одномерности, лежащее в основе разработки тестов, имеет важные последствия для национальных и международных программ оценивания. Это связано не только с валидностью содержания тестов, но и с определением смещения задания и связи между тестами. Однако это допущение ставится под сомнение из-за того, что учащиеся отличаются по скорости, с которой они приобретают знания в различных областях достижений (что хорошо видно, например, когда достижения по математике описываются с опорой на действия с числами, мерами, формами и данными). Такие вариации происходят, вероятнее всего, ввиду различий учащихся по своему образовательному и более широкому культурному опыту (Goldstein and Wood 1989). Удаление заданий из теста по причине того, что статистические данные не подтверждают допущение об одномерности, может привести к исключению значимого содержания. В свою очередь, это приведет к некорректному представлению конструкта, что, разумеется, повлияет на полноту охвата содержания теста - вид валидности, который обычно считается более важным, чем выводы, сделанные на основе статистических данных1. Допущение об одномерности является особенно важным при проведении международных оценок, в рамках которых, как известно, опыт учащихся в школе и за ее пределами сильно отличается.

Цель максимизации различий между участниками тестирования -еще одна характерная черта процедур, направленных на разработку тестов для оценивания индивидуальных достижений учащихся. Она также имеет большое значение в рамках национальной (или международной) оценки, поскольку7 цель ее заключается в описании достижений системы образования, а не в проведении различий между достижениями отдельных учащихся. Последствием такой ситуации является то, что при принятии решений о включении заданий в тесты необходимо рассматривать и другие факторы, кроме показателей дискриминативности и сложности заданий. Например, задания, на которые все учащиеся ответили правильно, или задания, на которые ни один из учащихся не смог ответить правильно, обычно не включаются в индивидуальные тесты для учащихся, поскольку они не смогут помочь выявить различия между ними. Однако в случае национальной оценки может быть важно узнать, что все учащиеся овладели или никто из учащихся не смог овладеть определенными областями знаний. Соответственно, задания, представляющие такие области знаний, могли бы быть включены в оценку для того, чтобы убедиться, что тесты, используемые в национальной оценке, дают адекватное и исчерпывающее предоставление о диапазоне достижений учащихся в образовательной системе. Также важно, чтобы разработчики тестов поддерживали постоянную связь с разработчиками учебной программы и учителями на протяжении всего процесса разработки тестов.

В настоящей книге разделу по теории IRT предшествует общее введение в статистический анализ. Ойо знакомит читателя с различными аналитическими процедурами, используемыми в IRT. Однако в реальной ситуации проведения национальной оценки шкалирование данных для описания достижений учащихся, описанное в части II, должно быть проведено до проведения анализа, рассмотренного в части I.

Предполагается, что читатели этой книги обладают базовыми знаниями по использованию файлов и папок, программ Excel и SPSS и способностями ориентироваться без затруднений в основных компонентах SPSS.

ПРИМЕЧАНИЕ

1. Кронбах (1970, с. 457) подчеркнул, что даже в случае тестов, разработанных для оценивания индивидуальных достижений учащихся, «ни одно положение из тех, на которых строится логика валидации содержания тестов, не требует, чтобы вселенная или сам тест были однородными».

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >