booksshare.net -> Добавить материал -> Педагогика -> Челышкова М.Б. -> "Теория и практика конструирования педагогических тестов" -> 138

Теория и практика конструирования педагогических тестов - Челышкова М.Б.

Челышкова М.Б. Теория и практика конструирования педагогических тестов — M.: Логос, 2002. — 432 c.
ISBN 5-94010-143-7
Скачать (прямая ссылка): teoripraktika2002.djvu

Предыдущая << 1 .. 132 133 134 135 136 137 < 138 > 139 140 141 142 143 144 .. 154 >> Следующая

Исходя из приведенных выше рассуждений можно сделать вполне определенный вывод: не следует стремиться к традиционным средствам контроля, не обеспечивающим сопоставимых количественных оценок в интервальной шкале. Хотя и с тестами дело обстоит не столь благополучно, как казалось в те годы, когда за рубежом создавались первые педагогические тесты для массового внедрения в учебный процесс.
Говоря о преимуществах тестовых методов, связанных с возможностью получения количественных сопоставимых оценок, следует специально отметить, что они проявляются не всегда и не везде. Во-первых, не всякий тест лучше экзамена, а только тот, который обладает высокой надежностью и позволяет построить по эмпирическим результатам его выполнения устойчивую шкалу.
Во-вторых, наблюдаемые результаты выполнения теста (сырые баллы испытуемых) не обеспечивают сопоставимости. Для сопоставимости необходимо произвести шкалирование сырых баллов путем перевода их в одну из специальным образом подобранных стандартных производных шкал.
В-третьих, при переходе к шкалированным показателям испытуемых желательно пользоваться методами современной теории тестов — теории IRT (см. подробнее гл. 5), поскольку именно теория IRT обеспечивает перевод сырых баллов в интервальную шкалу.
390
GUNPOWDER
Таблица 7. L Уровни измерений и их характеристики
Уровень измерения (шкала) Основная операция, определяющая уровень Допустимое преобразование Математические и статистические величины, вычисление которых допустимо на данном уровне
Номинальный (номинальная) Приписывание одинаковых чисел (наименований) объектам, имеющим общий признак где f(x) — замена одного числа другим Мода, процентные частоты, доли, коэффициент связи, коэффициент различия — квадрат
Ординальный (ранговая, порядковая) Ранжирование объектов по выраженности определенного признака *i =/(*)> где / (х) — любая монотонно возрастающая функция Мода, медиана, квантили, квартили (процентиль, де-циль, квартиль и др.), ранговые коэффициенты корреляции, дисперсионный анализ
Интервальный (интервальная) Определение величины различия между объектами Любые, кроме деления величин Мода, медиана, квантили, ранговые критерии, выборочная средняя, дисперсия, стандартное квадратичное отклонение, коэффициент корреляции
Измерение отношений (отношений) Определение равенства отношений величин Любые Все арифметические операции, все понятия и методы математической статистики
Классическая теория тестов и рекомендованные в ее рамках линейные преобразования сырых баллов повышают сопоставимость результатов испытуемых, но не меняют природу порядковой шкалы наблюдаемых результатов выполнения теста. Именно это соображение нередко склоняет разработчиков к выбору IRT в качестве основополагающей при конструировании тестов, несмотря на отдельные трудности технического характера, связанные с необходимостью применения специальных математических методов и моделей.
73. Шкалирование результатов тестовых измерений
Чтобы определить положение испытуемого относительно выборки стандартизации, его первичный результат (количество пра-
391
GUNPO
вильно выполненных заданий) переводят в некую относительную меру. В основе такого преобразования лежит стремление повысить уровень измерений, перейти, если это возможно, от порядковой к интервальной шкале, допускающей упорядочение испытуемых с учетом различия в их уровне подготовки путем введения фиксированной единицы измерения. Правда, далеко не всегда преобразование первичных результатов приводит к интервальной или хотя бы к квазиинтервальной шкале. В отдельных случаях факт перехода считается довольно спорным и опровергается аргументированной критикой на основании результатов экспертизы качества шкалы и самого измерителя.
Следует отметить, что попытки повышения уровня измерений путем шкалирования направлены целиком на расширение возможностей интерпретации и сопоставимости тестовых баллов, но ни в коей мере не связаны с повышением точности измерений. Не нарушая общности, можно считать, что преобразованные (производные) показатели служат двум целям. Во-первых, они позволяют уточнить место, занимаемое испытуемым в нормативной выборке, и, во-вторых, сравнить результаты испытуемых, полученные по различным тестам.
Шкалы процентильных рангов
Производные показатели можно подразделить по своему назначению. Одни из них служат для определения достигнутого уровня подготовки в определенной шкале, а другие — для установления относительного положения испытуемого в некоторой нормативной группе. В частности, решению второй задачи служат процентили, позволяющие установить ранг первичного показателя испытуемого в нормативной группе [5]. Ранг показателя в процентилях определяется процентной долей испытуемых из выборки стандартизации, результаты которых не выше данного первичного показателя. Процесс построения шкалы процентилей состоит в определении процентильных рангов первичных показателей нормативной группы.
Метод построения шкалы процентилей можно рассмотреть на небольшом примере результатов выполнения теста группой из 25 испытуемых, хотя, конечно, маловероятно встретить такую выборку в практике. Обычно построение этих шкал выполняется на больших массивах. Пусть, например, 25 тестируемых учащихся по одному из предметов получили первичные результаты, представленные в табл. 7.2:

Предыдущая << 1 .. 132 133 134 135 136 137 < 138 > 139 140 141 142 143 144 .. 154 >> Следующая