Стандартизация теста. Большая российская энциклопедия

Стандартиза́ция те́ста, комплекс мероприятий при разработке измерительного теста, включая сбор обширного банка данных с целью получения репрезентативных тестовых норм. После стандартизации в процедуру теста запрещается вносить модификации; в случае такой необходимости создаётся новая версия методики.

Становление тестологии происходило в конце 19 – начале 20 в. в контексте проникновения в психологию и педагогику культуры естественно-научного эксперимента. Разработчики первых тестов – тестов когнитивных способностей (память, внимание, общее умственное развитие), ориентировались на измерительные процедуры, применяемые в точных и естественных науках, решая задачу создания таких объективных измерительных процедур, которые будут независимы от поведения диагноста (лица, проводящего тестирование, администратора тестирования) и обеспечат одинаковые условия его проведения для всех испытуемых (тестируемых). Для этого прежде всего добиваются стандартизации – идентичности – следующих основных компонентов тестовой методики:

Инструкция. Испытуемые должны получать строго одинаковую инструкцию – общую задачу, которая распространяется на все тестовые задания. Например, если в тесте, диагностирующем память, задача испытуемого состоит в узнавании уже предъявленных стимульных объектов (слов, чисел, картинок), то перед ним должна быть внятно сформулирована задача именно на узнавание, а не на воспроизведение. Иной пример: если тест-опросник надо выполнять не от своего имени, а от имени «идеального испытуемого», то об этом в инструкции должна присутствовать стандартная – одинаковая для всех – формулировка.
Стимульный материал. Испытуемым следует предъявлять строго одинаковый набор стимульных объектов (тестовых заданий, вопросов). Причём в тестах с фиксацией скорости выполнения заданий следует соблюдать одинаковые ограничения (лимиты) времени как на решение отдельных заданий, так и на выполнение теста в целом. В этом случае речь идёт о стандартизации тестового буклета, в котором содержится перечень заданий, а также о применении хронометража к продолжительности сеанса тестирования.
Ключ к тесту. Обработка результатов тестирования должна быть формализована, т. е. два разных диагноста на основе одного и того же протокола (записи ответов испытуемого) должны при обработке получить один и тот же тестовый балл по шкале измеряемого свойства. Для этого должны быть стандартизированы ключи к тесту (таблица правильных ответов).
Тестовые нормы. Полученный сырой балл испытуемого нужно сравнивать по одной и той же таблице тестовых норм с результатами других испытуемых, выполнивших тест. Таким образом, должны быть стандартизированы конверсионные таблицы – таблицы перевода сырых тестовых баллов в стандартизированные баллы на стандартных шкалах (шкале Т-баллов, шкале IQ, шкале стэнов и т. п.).

Иногда понятие «стандартизация» сводят к этапу получения репрезентативных тестовых норм на выборке стандартизации (нормативной выборке), но такой подход подвергается критике как неоправданное сужение объёма понятия (Шмелев. 2013).

Работа по стандартизации теста начинается с первых шагов по его конструированию и продолжается на всех этапах.

На первом шаге – при создании первой исследовательской версии теста (которая будет с высокой вероятностью приближённой, требующей неоднократной модификации) – разработчик должен сформировать набор тестовых заданий, добиваясь охвата всей области валидности, – для измерения (диагностики) всех аспектов измеряемого свойства. При апробации с использованием этой первой версии разработчик должен предъявлять всем испытуемым (всем участникам первой апробации) строго идентичный набор тестовых заданий. В этом случае к результатам можно будет применить методы математической статистики и измерить в первую очередь, в какой степени тест обладает надёжностью, наиболее просто выявляемым психометрическим свойством. Если надёжности на необходимом уровне не обнаружено, то следует заново разрабатывать и уточнять набор тестовых заданий и инструкцию для испытуемого по выполнению теста, а не переходить на следующий этап разработки теста (проверка валидности).

При переходе ко второму этапу – к измерению валидности – разработчик уже не должен менять набор тестовых заданий, который обеспечил адекватную надёжность. На данном этапе расширяется выборка участников тестирования. Она называется пилотной и насчитывает уже не 30–50 человек (как апробационная), а 80–100 человек, о которых известна параллельная информация (имеются данные по избранному критерию валидности). На этом этапе разработчик добивается уточнения самого набора тестовых заданий и ключей к ним, отбраковывая те задания, которые не обеспечивают необходимой статистической связи (корреляции) между тестовыми баллами и внешним критерием (показателем валидности). Производится многократный перерасчёт показателей надёжности и валидности в поиске такого подмножества тестовых заданий, которые дают значение, соответствующее минимальным требованиям (Российский стандарт тестирования персонала. 2015).

Только после получения удовлетворительных показателей надёжности и валидности разработчик теста может приступить к исследованию более широкого круга тестируемых – репрезентативной выборке. Репрезентативной считается выборка, которая является не только представительной по численности, но и сбалансированной по составу, т. е. уравновешенной по демографическим параметрам (пол, возраст, уровень образования, уровень дохода и т. п.). Требуемая численность тестируемых на 3-м этапе увеличивается не менее чем до 200 человек; для тестов отраслевого, регионального масштаба – до 500 человек, а для тестов федерального масштаба – не менее чем до 1500 человек (как и для репрезентативного социологического опроса). Именно на этом этапе разработчик получает тестовые нормы. Это могут быть в простейшем случае показатели среднего и стандартного (квадратичного) отклонения (в том случае, если кривая эмпирического распределения тестовых баллов оказывается близка к гауссовской кривой нормального распределения).

В психометрическом отчёте, который разработчик обязан включить в руководство по применению психодиагностической методики, должны быть отражены все 3 указанных этапа проверки психометрических свойств теста – и описание выполненных процедур, и полученные значения показателей надёжности, валидности и репрезентативности. Без выполнения этого требования тест не может считаться измерительным инструментом (психометрическим тестом), прошедшим необходимую стандартизацию (Российский стандарт тестирования персонала. 2015).

Шмелев Александр Георгиевич