Научная литература
booksshare.net -> Добавить материал -> Педагогика -> Челышкова М.Б. -> "Теория и практика конструирования педагогических тестов" -> 115

Теория и практика конструирования педагогических тестов - Челышкова М.Б.

Челышкова М.Б. Теория и практика конструирования педагогических тестов — M.: Логос, 2002. — 432 c.
ISBN 5-94010-143-7
Скачать (прямая ссылка): teoripraktika2002.djvu
Предыдущая << 1 .. 109 110 111 112 113 114 < 115 > 116 117 118 119 120 121 .. 154 >> Следующая

326
GUNPOWDER
Однако этот формальный вывод приходит в явное рассогласование с реальными возможностями учеников, поскольку по мере роста длины теста увеличивается их утомляемость и снижается мотивация к выполнению заданий теста, что в совокупности ведет к росту ошибки измерения. Из-за накопившейся усталости ученики не справляются с теми заданиями, которые в другой ситуации могли бы выполнить вполне успешно. Поэтому при выборе оптимальной длины теста разработчики руководствуются группой факторов, среди которых высокая дисперсия тестовых баллов, нормальный характер их распределения, форма используемых заданий, возраст учеников и определенное в соответствии с их физиологическими возможностями оптимальное время выполнения теста.
Поданным работы [43], учащиеся старших классов за одну минуту могут выполнить одно задание с выбором ответа (при числе ответов не менее четырех), три задания с кратким ответом на дополнение или три задания типа «правильно-неправильно» при условии, что все задания проверяют знания, а не способности учеников.
В практике советской и российской школы при использовании тестов достижений в одну работу, рассчитанную на урок (45 мин.), обычно включают до 25 заданий с выбором ответа разного уровня трудности или от 3 до 10 заданий со свободным ответом. Вполне понятно, что подобная совокупность заданий из-за маленькой длины не обеспечит достаточную надежность теста, да и вряд ли вообще может быть названа тестом.
При определении оптимальной длины теста можно также воспользоваться данными международных сравнительных исследований (IAEP, TI MSS), в которых принято следующее распределение времени на выполнение заданий различного типа: с выбором ответа из четырех-пяти — в среднем до 1 мин., с кратким дополняемым ответом — в среднем до 2 мин., с полным свободно конструируемым ответом — до 5 мин.
С учетом всего сказанного рекомендуется проводить тестирование выпускников неполной средней школы (9 класс) в течение 2—3 уроков (от 90 мин. до 2 ч), а выпускников средней школы (11 класс) — в-течение 2—4 уроков (от 1,5 до 3 ч).
Таким образом, письменная работа на два урока может включать до 50 заданий с выбором ответа, что позволит при прочих условиях обеспечить приемлемую, но не хорошую надежность теста. (Точная формула для определения скорости роста надежности по мере увеличения длины теста будет приведена дальше в разделе по оценке надежности теста.)
327
GUNPOWDER
В оценке надежности очень важен подбор адекватной выборки испытуемых, выполняющих тест. Поскольку коэффициент надежности, как и любая статистика, связан с объемом выборки, то рекомендуется использовать выборки большого объема для оценки надежности теста. Например, Гилфорд в качестве минимального размера выборки предлагает 200 испытуемых для определения надежности теста [44]. По мнению Ньюнелли, их должно быть не менее 300, а вообще справедливо простое правило — чем больше выборка, тем достовернее оценка надежности теста.
Однако еще более важным параметром выборки, чем ее объем, является ее состав. Большая, но неправильно подобранная, нестра-тифицированная выборка может дать полностью ошибочные представления об оценке надежности теста. Выборка должна отражать ту категорию лиц, для которых предназначен тест. Например, если тест предназначен для итоговой аттестации выпускников 9 классов, бесполезно оценивать его надежность на выборке одиннадцатиклассников. Сама по себе выборка не должна состоять только из сильных или слабых учеников. Для оценки надежности в выборку включают школьников с различным уровнем подготовки, чтобы различные по подготовке категории школьников были представлены в равных долях.
Таким образом, при оценке надежности выборка испытуемых комплектуется специальным образом для отражения разнообразных параметров генеральной совокупности школьников.
Оценка надежности теста
Оценка надежности нормативно-ориентированных тестов проводится различными методами, которые по способу осуществления можно условно разделить на две группы. Первая группа методов базируется на двукратном тестировании, проводимом с помощью одного и того же теста либо с помощью двух параллельных форм теста. Вторая группа предполагает однократное тестирование при оценке надежности теста.
Конечно, практически отдают предпочтение второй группе методов, поскольку организация повторного тестирования, как и разработка параллельных форм, всегда сопряжена с определенными трудностями и дополнительными затратами со стороны создателей тестов.
Вне зависимости от метода оценка надежности не всегда, но чаще всего строится на подсчете корреляции между двумя наборами результатов выполнения одного и того же теста или двух его параллельных форм. Логика рассуждений при этом довольно проста: чем выше корреляция, тем выше надежность теста.
328
GUNPOWDER
Для маленькой выборки корреляцию можно оценить визуально, как, например, в приведенном далее примере (табл. 5.27). В рассматриваемом гипотетическом примере три теста А, В и С из 10 заданий дважды выполняла одна и та же выборка из 10 учеников.
Предыдущая << 1 .. 109 110 111 112 113 114 < 115 > 116 117 118 119 120 121 .. 154 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed