Адаптивное тестирование
Адапти́вное тести́рование, индивидуально-ориентированное тестирование, когда испытуемому на каждом шаге тестовой процедуры предъявляются задания, соответствующие по трудности расчётной оценке его достижений в ходе текущего сеанса тестирования.
Концепция адаптивного тестирования предполагает, что трудность предлагаемых для выполнения текущих заданий должна соответствовать оценке уровня достижений испытуемого по предыдущим заданиям. Порядок и количество предъявляемых испытуемому заданий зависит от его ответов на уже выполненные задания теста. Вследствие этого испытуемому предлагается для выполнения меньше заданий с сохранением диагностической способности теста. Адаптивные тесты обеспечивают, как правило, бо́льшую точность измерений для «высокой» (наиболее успешные) и «низкой» (наименее успешные) групп испытуемых.
А. Анастази указывает другие упоминаемые в литературе названия адаптивного тестирования: последовательное, разветвлённое, специализированное, индивидуализированное, программируемое, динамическое, зависящее от ответа тестирование (Анастази. 2007. С. 304). По её мнению, индивидуально адаптируемые тесты объединяют достоинства индивидуального тестирования с преимуществами группового. Каждый испытуемый проходит сформированный именно для него тест, и каждый раз предъявляются разные наборы заданий, состав которых определяется сеансом тестирования. При этом показатели сопоставимы у всех лиц, обследованных с помощью банка входящих в тест заданий, независимо от специфического набора заданий, предъявленных каждому испытуемому. Несмотря на то что с адаптивными процедурами можно создавать и тесты типа «карандаш–бумага» (бланковые), адаптивный принцип выбора заданий больше подходит для компьютеризованного тестирования.
За счёт адаптивной настройки выбора заданий можно значительно снизить трудоёмкость и время тестирования, что на практике бывает важно при диагностике детей, астеничных пациентов, умственно отсталых, а также в случаях массовых обследований. Адаптивный алгоритм позволяет прекращать тестирование, как только ответы испытуемого дают достаточно информации для принятия решения. Также адаптивный подход позволяет поддержать оптимальный уровень мотивации у тестируемых и избежать возникновения чувства подавленности у менее способных при предъявлении большого числа трудных для них заданий и скуки или раздражения у высокоспособных при выполнении большого количества слишком лёгких заданий. Ещё одним значимым преимуществом адаптивного подхода является лучшая защищённость теста и повышение достоверности тестирования вследствие минимизации возможности быстрого изучения банка заданий путём ввода любого ответа (таким образом можно узнать лишь лёгкие задания, а трудные и часть средних заданий оказываются недоступными для просмотра).
Адаптивное тестирование может строиться на основе разнообразных процедур и моделей. Простой пример двустадийного адаптивного тестирования с тремя уровнями измерения приведён А. Анастази. Сначала всем испытуемым предлагается короткий тест из 10 заданий разной степени трудности, чтобы определить маршрут дальнейшего обследования. В зависимости от успешности выполнения теста-маршрутизатора далее испытуемому предъявляется один из трёх измерительных тестов (трудный, лёгкий или средний по трудности), каждый из которых включает 20 заданий. Соответственно, из теста, который содержит в целом 70 заданий, испытуемый выполняет только 30 заданий.
Пирамидальный адаптивный тест для всех испытуемых начинается с задания средней трудности. При верном ответе на это задание испытуемому предъявляется следующее по степени трудности задание, при неверном – следующее по степени лёгкости. После каждого ответа испытуемого процедура повторяется. Анастази приводит пример 10-стадийного теста, в котором каждому испытуемому предъявляется 10 из 55 входящих в тест заданий (Анастази. 2007. С. 305). Опыт организации такого рода тестирования показывает, что задания должны быть близки к пределу возможностей испытуемого, но не невыполнимы. Поскольку измерения не связаны с выполнением большого числа заданий (в том числе слишком трудных либо слишком лёгких), вся процедура тестирования может быть резко сокращена.
А. Г. Шмелев различает следующие виды адаптивного тестирования и АТ-алгоритмов:
Точечно ветвящиеся алгоритмы (статическое ветвление): следующий вопрос зависит от строго определённого ответа на предыдущий вопрос. Эта модель не связана с текущим подсчётом баллов по шкалам и скорее относится к адаптивным опросам, чем к адаптивному тестированию.
Завершение по достижении порога крайней группы: зачисление (остановка тестирования) в верхнюю группу при достижении заданной границы количества правильных ответов или в нижнюю – при превышении заданного числа допустимых ошибок по тесту.
Поисковые, или динамически ветвящиеся, адаптивные алгоритмы: на первом шаге предъявляется задание средней трудности, затем в случае успеха – более трудное задание из середины более трудной половины шкалы, а в случае неуспеха – менее трудное задание из середины менее трудной половины шкалы, и т. д. на каждом шаге. С формальной точки зрения дихотомические поисковые алгоритмы являются оптимальными как кратчайший способ измерения (когда превышение способности над трудностью задания всегда приводит к успешному решению, а обратная ситуация всегда приводит к ошибке). Однако вероятностный характер зависимости успешности решения от разности между способностью и трудностью (как это предполагает модель Раша) объясняет, почему число шагов для измерения трудности не может быть равно двоичному логарифму от «длины шкалы».
Поисковый алгоритм «расходящихся рядов»: после каждой удачной попытки предъявляется более трудное задание (из верхней части шкалы трудности), но наименее трудное из числа непредъявленных, а после каждой ошибки, наоборот, предъявляется более лёгкое задание (из нижней части шкалы), но наименее лёгкое из числа непредъявленных. Согласно правилу «результативной остановки», если в попытках начинают следовать друг за другом удачи и ошибки, тестирование прекращается. На практике алгоритм «расходящихся рядов» трудно реализовать, т. к. он требует большого числа градаций трудности заданий. Но будучи трудоёмкими в разработке, поисковые алгоритмы более удобны на этапе их применения: равнозначные уровни надёжности и валидности тестов достигаются при 2,5-кратном сокращении числа заданий в варианте (вместо 50 заданий, например, достаточно предъявить лишь 20).
Варьирующая ветвящаяся стратегия адаптивного тестирования с высокой глубиной анализа: пошаговая переоценка уровня подготовленности испытуемого на основании всех предыдущих попыток, которая производится после каждого выполненного задания теста.
Лестнично-адаптивный метод: вначале испытуемому предлагается пройти «самый лёгкий» уровень (только лёгкие задания), при этом процент правильных ответов постоянно сравнивается с «верхним порогом». Испытуемый сразу же переводится на более высокий уровень, как только процент (текущий первичный балл) превосходит этот порог. В результате более слабые испытуемые получают только лёгкие задания, «середняки» – лёгкие и средние, но не добираются до трудных, а доступ к трудным заданиям получают самые сильные испытуемые. Такой алгоритм восходящей трудности имеет ряд преимуществ для практической тестологии в силу его «прозрачности» (лёгкости для понимания). Лестничный алгоритм не предполагает правило остановки: все испытуемые выполняют фиксированное и одинаковое число заданий, что вызывает меньше претензий со стороны участников тестирования, хоть они и выполняют разные по трудности задания – каждый ближе к тому уровню трудности, к которому он готов. Однако от трёхуровневого адаптивного алгоритма не следует ожидать такого же уровня точности, как от поисковых алгоритмов (Шмелев. 2013. С. 406–412).
Развитию компьютеризованного адаптивного тестирования (computer adaptive testing, CAT) способствовали новые компьютерные технологии и их вычислительные возможности, а также разработка теории ответов на тестовые задания (Item Response Theory, IRT). Использование IRT представляет собой методическую сторону администрирования тестов и измерения латентных конструктов как можно более точно с помощью небольшого количества тестовых заданий (Thompson. 2011). Технической основой адаптивного подхода является способность компьютеров за счёт быстродействия вести обработку поступающих данных в режиме реального времени.
Для адаптивных тестов на основе IRT коэффициенты внутренней согласованности и дискриминативности не определяются. Это имеет смысл только по отношению к фиксированному набору заданий. Кроме того, на разных уровнях выраженности измеряемого свойства тест может обладать различной дискриминативностью: может быть более информативным в зоне высокой трудности и менее информативным – в зоне низкой. Следует отметить, что CAT-подход не используется для тестов скорости и скрининг-тестов, распределяющих испытуемых по группам на основе критериального показателя.
Впервые CAT-подход был внедрён Центром тестирования «Гуманитарные технологии» в ходе Олимпиады «Телетестинг-99».
Многомерное компьютеризированное адаптивное тестирование (MCAT), сохраняя теоретические и практические достижения CAT (более короткое время тестирования и более точное измерение свойства), позволяет оценить большее количество конструктов без увеличения нагрузки в виде дополнительного банка заданий.
Основная проблема CAT и MCAT на основе IRT связана с приблизительным равенством вероятностей для правильных и неправильных ответов, поскольку трудность следующего выбранного задания должна соответствовать оценке уровня достижений испытуемого. Из-за этого результаты тестирования становятся зависимыми от посторонних и случайных факторов (например, усталости испытуемых), не имеющих непосредственного отношения к измеряемым конструктам.
Поэтому постоянно осуществляется поиск новых подходов к адаптивному тестированию, например предлагается модель предъявления заданий на основе марковских процессов с дискретными состояниями и дискретным временем. Особенностью данного подхода является определение трудностей заданий с использованием предельных распределений вероятностей пребывания в состояниях, полученных с помощью матриц вероятностей перехода. Предлагаемый подход опирается на обобщение модели Раша и, по мнению разработчиков, имеет ряд существенных преимуществ перед адаптивным тестированием на основе IRT: учитываются особенности процесса выполнения предъявленных заданий, включая затраченное на них время, распределение и порядок успешных или неуспешных ответов; появляются возможности прогнозирования поведения испытуемых и самообучения, улучшения характеристик модели в процессе тестирования; используется простая процедура идентификации модели на базе доступных результатов наблюдений, а степень трудности предъявляемых заданий связана с историей прохождения тестов, а не текущими оценками уровней достижений испытуемых (Новый подход ... 2017).
Адаптивность тестирования может выражаться не только в изменении порядка предъявления тестовых заданий. В последовательность стимулов в зависимости от текущего результата тестирования могут включаться мотивирующие либо корректирующие сообщения, например «наказание» испытуемого возвратом к начальному заданию теста за фальсификацию ответов.