Классическая теория тестирования
Класси́ческая тео́рия тести́рования (КТТ; англ. classical test theory, CTT), первая из пяти теорий в психометрике, обеспечивающих общность подходов к установлению связи между наблюдаемыми переменными (например, результатами тестирования) и ненаблюдаемыми переменными (например, истинным баллом или уровнем подготовленности).
Бо́льшая часть идей, концепций и методов КТТ были изложены в работах Ф. Эджуорта и Ч. Спирмена, опубликованных на рубеже 19 и 20 вв., однако основными источниками принято считать более поздние монографии американских психологов и психометриков Г. Гулликсена, затем Ф. Лорда и М. Новика. Многое из представленного в этих текстах сегодня используется без изменений.
Согласно КТТ, тестовый балл, или балл, полученный участником в ходе тестирования, определяется истинным баллом участника по этому тесту и ошибкой измерения этого теста. КТТ не преследует задачу получить истинные баллы участников на основе их результатов тестирования, т. к. это невозможно; главная задача КТТ – максимально приблизиться к наиболее достоверным оценкам истинных баллов. Важно отметить, что истинный балл в рамках КТТ не имеет прямой связи с конструктом, для измерения которого предназначен тест. Другими словами, в результате предъявления участникам теста по математике КТТ обеспечивает наиболее достоверную оценку истинных баллов участников в рамках данного теста, а не оценку знаний по математике или математических способностей участников.
КТТ представлена базовым уравнением, или моделью: , где – наблюдаемый балл участника тестирования, – истинный балл участника тестирования, – ошибка измерения. Поскольку уравнение содержит два неизвестных для каждого участника – истинный балл и ошибку измерения, оно неразрешимо, если не сделать некоторых упрощающих предположений. КТТ вводит три предположения: (1) математическое ожидание ошибки измерения для генеральной совокупности участников тестирования равно 0; (2) корреляция между истинным баллом и ошибкой измерения равна 0; (3) корреляция между ошибками измерения по двум параллельным тестам равна 0.
Теоретически параллельные тесты понимаются как два теста, измеряющие одно содержание, по которым участники имеют одинаковые истинные баллы, а ошибки измерения по которым равны. Но поскольку ни истинные баллы, ни ошибка измерения неизвестны, теоретическое понятие параллельных тестов не имеет практического смысла. На практике параллельными тестами считают два теста, разработанные на основе единых требований к содержанию, с одинаковым количеством заданий, которые имеют попарно одинаковую трудность, порождающие на одной выборке идентичные распределения тестовых баллов.
Для приближения к наиболее достоверным оценкам истинных баллов необходимо оценить ошибку измерения. В качестве величины для ошибки измерения КТТ вводит понятие стандартной ошибки измерения, равное , где – надёжность теста. Соответственно, определив надёжность теста, возможно рассчитать стандартную ошибку измерения и, как следствие, получить оценку истинного балла участника тестирования. Оценка истинного балла в КТТ представлена интервалом , в котором с 95 %-й доверительной вероятностью находится истинный балл участника тестирования.
Вся история развития КТТ связана с поиском способов определения надёжности теста. Наиболее значимой с практической точки зрения разработкой стал способ расчёта надёжности теста, предложенный американским психологом Л. Кронбахом в 1951 г. Коэффициент надёжности альфа Кронбаха рассчитывается по формуле: , где – количество заданий в тесте, – дисперсия баллов по заданию и – общая дисперсия по тесту. Достоинство этого способа заключается в том, что его можно применить после однократного предъявления теста участникам, тогда как до появления этого способа приходилось либо разрабатывать параллельные тесты, либо предъявлять один и тот же тест два раза с существенным промежутком времени между предъявлениями, что значительно усложняло определение надёжности теста.
КТТ вводит две характеристики заданий теста – трудность и различительную способность. Для заданий, оцениваемых одним баллом за верный ответ и нулём баллов за неверный ответ, трудность рассчитывается по формуле: , где – трудность i-го задания, – количество участников тестирования, решивших задание i верно, – общее количество участников тестирования. Трудность принимает значения от 0 (ни один из участников тестирования не решил задание верно) до 1 (все участники тестирования решили задание верно), соответственно, чем выше значение , тем задание легче. Различительная способность обычно рассчитывается как точечно-бисериальная корреляция по формуле: , где – различительная способность i-го задания, – средний балл участников, выполнивших задание i верно, – средний балл всех участников тестирования, – среднее квадратическое отклонение результатов тестирования всех участников тестирования, – трудность задания и представляет собой разность . Для тестов с небольшим количеством заданий различительную способность рассчитывают по скорректированной формуле, где рассчитывается после удаления результатов по i-му заданию. Как и любой коэффициент корреляции, может принимать значения в интервале [-1; 1]; на практике допустимыми считаются значения от 0,2 и выше.
Несложные расчёты и интуитивно понятная интерпретация вместе лёгкостью соблюдения предположений теории в большинстве тестов сделали КТТ популярным психометрическим инструментом в психологическом и педагогическом сообществах. С другой стороны, КТТ имеет фундаментальный недостаток – оценки истинного балла участников тестирования зависят от трудности теста, в свою очередь трудность заданий зависит от уровня участников тестирования. Другими словами, для одних и тех же участников мы получим разные оценки истинного балла, используя разные по трудности тесты; одновременно мы получим разные значения трудности заданий одного теста, предъявив его двум группам участников, различающихся по уровню знаний по этому тесту. Тем не менее, хотя позднее появились другие психометрические теории (например, современная теория тестирования), которые устраняют указанные недостатки КТТ, эта теория используется и в настоящее время, являясь важной частью процесса разработки измерительных инструментов.