Трудность тестового задания
Тру́дность те́стового зада́ния, психометрическая характеристика, относящаяся к вероятности верного или ключевого ответа на задание в педагогическом или психологическом тестировании. Существуют 2 подхода к оценке трудности тестового задания – классический и современный.
Первый подход к вычислению трудности реализуется в рамках классической теории тестирования и заключается в подсчёте доли участников тестирования, ответивших на задание верно, от общего числа участников тестирования, выполнявших это задание. Этот подход работает для заданий с дихотомическим скорингом, при котором за верное решение задания начисляется 1 балл, а за неверное – 0 баллов. Для заданий с политомическим скорингом, когда за задание может начисляться несколько баллов (например, 0 за полностью неверное решение, 1 за частично верное решение и 2 за полностью верное решение), трудность подсчитывается как сумма баллов всех участников тестирования по этому заданию, делённая на число участников тестирования. В некоторых случаях полученное значение делят на разность между наибольшим и наименьшим баллом за задание. Заметим, что в классическом подходе более высокие значения соответствуют более лёгким тестовым заданиям. В качестве иллюстрации принято считать задания со значениями менее 0,1 очень трудными, около 0,5 – средней трудности, а выше 0,9 – очень лёгкими. Преимуществами классического подхода является простота вычисления и понятность интерпретации. Но полученные при таком подходе значения трудности тестовых заданий оказываются зависимыми от выборки участников тестирования, их выполнявших: на выборках, отличающихся от текущей по уровню оцениваемой тестом характеристики, будут получены иные значения трудности тестовых заданий. Это существенное ограничение классического подхода во многом снимается в современном подходе.
Современный подход реализуется в рамках теории ответов на тестовые задания (Item Response Theory, IRT) и представляет собой более сложную статистическую операцию. В IRT и тестовые задания, и участники тестирования расположены на одной шкале, центрированной в нуле со стандартным отклонением, равным единице. В области вокруг нуля находятся тестовые задания со средней трудностью и участники тестирования со средней выраженностью характеристики, оцениваемой тестом. В области положительных значений находятся более трудные задания и участники тестирования с более выраженной характеристикой. Наконец, в области отрицательных значений находятся менее трудные задания и участники с менее выраженной характеристикой. Задача IRT заключается в том, чтобы на основании ответов участников тестирования на тестовые задания расположить и участников, и задания на этой шкале. Эта задача решается с использованием методов максимального правдоподобия или байесовского вывода.
Трудность тестового задания в IRT – значение на шкале, показывающее уровень выраженности оцениваемой тестом характеристики, обеспечивающий вероятность правильного выполнения этого задания, равную 0,5. На рисунке можно увидеть 4 кривые, представляющие характеристические кривые 4 тестовых заданий. Характеристическая кривая тестового задания в IRT иллюстрирует вероятность правильного ответа на задание участниками тестирования с разным уровнем выраженности оцениваемой тестом характеристики. Так, на кривой жёлтого цвета отображено, что вероятность правильного выполнения этого задания, равная 0,5 (ось Y), соответствует значению 1,7 на шкале (ось Х); таким образом, трудность этого задания – 1,7. Подобное задание довольно трудное: оно расположено в области положительных значений на шкале. Только участники с уровнем оцениваемой тестом характеристики, превышающим 1,7, вероятнее всего, правильно решат его. Характеристическая кривая красного цвета соответствует довольно лёгкому заданию с трудностью –1,8. Задание с характеристической кривой зелёного цвета имеет трудность немногим выше среднего (0,3), тогда как синяя кривая соответствует заданию с трудностью ниже среднего (–0,6).
Достоинством современного подхода можно считать условную независимость получаемых значений трудности от выборки участников тестирования, а ограничениями – повышенные требования к размеру выборки для проведения расчётов (от 200 человек) и к математической подготовке исследователя, производящего эти расчёты.