Тестовые баллы. Большая российская энциклопедия

Те́стовые ба́ллы, результаты измерения (диагностики) знаний, способностей, личностных черт, социальных установок и других психических свойств человека, полученные с помощью метода тестов; количественный показатель, полученный при обработке ответов тестируемого (испытуемого, респондента) путём применения тестового ключа к индивидуальному протоколу по тесту. Различают сырые (первичные) и стандартизированные баллы.

В тестологии (теории психометрических и педагогических измерений) методом тестов называют процедуру обследования (оценивания, диагностики), в ходе которой испытуемому предъявляется стандартизированный набор тестовых заданий, а результат подсчитывается на заданной шкале (в многофакторных тестах – на нескольких шкалах).

Основные способы подсчёта первичных тестовых баллов

В первом случае тестовый балл рассчитывается как число решённых заданий (правильных ответов). Однако число заданий в разных тестах может варьировать, в связи с чем сырой балл подвергают дополнительной обработке, чтобы получить стандартизированный тестовый балл, или балл на стандартной тестовой шкале. Простейший вариант такой обработки – переход к шкале процентов правильных ответов (ППО), в которой за 100 % принимается результат «идеального испытуемого», правильно решившего все тестовые задания. Например, если испытуемый решил 15 заданий из 20, то его балл ППО равен 75 %, а если 15 из 30, то ППО равен 50 %. Такой переход корректно называть «масштабированием», т. к. выполняется линейное приведение масштаба сырой шкалы к масштабу шкалы процентов – значений от 0 до 100. Балл ППО не является достаточно объективным показателем уровня развития какой-либо психической способности или уровня знаний, т. к. балл ППО – такой же первичный балл, только выраженный в процентах.

Комплекты тестовых заданий (варианты, параллельные формы теста), направленные на измерение одного и того же свойства, могут отличаться друг от друга по трудности заданий, включённых в вариант. В этом случае рассчитывается поправка к тестовому баллу, основанная на статистическом распределении результатов испытуемых, – конверсия сырых тестовых баллов в стандартизированные. Конверсия производится либо по формуле линейного преобразования (путём вычитания среднего арифметического по распределению и последующего деления на стандартное, или среднеквадратическое, отклонение), либо с помощью специальных конверсионных таблиц, обеспечивающих более точный нелинейный перевод. Перевод в стандартные баллы необходим, если характер распределения сырых баллов существенно отличается от колоколообразной, нормальной (гауссовой), кривой распределения (Анастази. 1982. С. 66–92).

В случае отклонения распределения тестовых баллов от гауссовой кривой возможно использовать в качестве тестовых баллов такие относительные показатели, как процентильные ранги, или процентильные баллы. Процентильный балл указывает на процент испытуемых в нормативной выборке (выборке стандартизации), получивших балл ниже того балла, который получил интересующий диагноста испытуемый. Если про испытуемого N говорят, что его процентильный балл равен 83 %, это означает, что хуже N выполнили тест 83 % испытуемых из нормативной выборки. Таблицы перевода сырых баллов в процентильные баллы – это фактически таблицы распределения тестовых баллов, т. к. процентильный балл напрямую отражает «накопленные частоты» (интегральную кривую распределения, «кумуляту»; Шмелев. 2013. С. 262). После получения процентильных баллов разработчик теста, как правило, создаёт таблицу перевода «процентильный балл – стандартный балл» (конверсионную таблицу). Пользователю теста предлагается воспользоваться переводной таблицей «сырой балл – стандартный балл», в которой в свёрнутом виде представлены данные двух таблиц: «сырой балл – процентиль» и «процентиль – стандартный балл».

В различных сферах применения метода тестов, например в педагогике, медицине или в индустриальной психологии, применяются разные стандартные шкалы, что может обусловливать иные способы подсчёта сырых тестовых баллов.

Например, в тестах-опросниках используются тестовые задания с набором ответов, упорядоченных по принципу шкалы Ликерта (например, несколько градаций степени согласия испытуемого с утверждением). В этом случае сырой тестовый балл по каждому заданию (или вклад задания) рассчитывается по формуле $V_{ij}= M_{j}- \mathcal{a} \mathcal{b} \mathcal{s} ( K_{j}- L_{ij} ),$ где Vij – вклад в сырой балл испытуемого c номером i со стороны тестового задания с номером j, M – число ответов на задание j, К – номер ключевого ответа, Lij – номер варианта ответа, выбранного испытуемым i.Пример (прямой вопрос): тестовое задание на психическое свойство «склонность к риску» с использованием 5 вариантов ответа ( $Mj=5$ ), ключевой вариант – 1-й ( $K=1$ ). Испытуемому предъявляются вопрос «Вы хотели бы прыгнуть с парашютом?» и варианты ответа: «1. Да, совершенно согласен», «2. Да, скорее согласен», «3. Трудно выбрать», «4. Нет, скорее не согласен», «5. Нет, совершенно не согласен». Если испытуемый выбирает 1-й вариант, то ему по данному заданию присваивается вклад $5- \mathcal{a} \mathcal{b} \mathcal{s} (1-1)=5$ . Если же он выбирает 5-й вариант, то вклад задания равен $5-abs(1-5)=1$ .

Пример (обратный вопрос): тестовое задание на то же самое психическое свойство «склонность к риску», ключевой ответ – 5-й ( $K=5$ ). Испытуемому предъявляются вопрос «Вы опасаетесь в походе двигаться по неизвестным маршрутам?» и варианты ответа: «1. Да, совершенно согласен», «2. Да, скорее согласен», «3. Трудно выбрать», «4. Нет, скорее не согласен», «5. Нет, совершенно не согласен». Если испытуемый выбирает 4-й вариант, то ему по данному заданию присваивается вклад $5-abs(5-4)=4$ . Если же он выбирает 1-й ответ, то вклад задания равен $5-abs(5-1) = 1$ .

В тестовых заданиях на сложность, а не на скорость первичный тестовый балл может быть измерен как «ранг скорости решения» (обратная величина ко времени, затраченному на решение). А в случае ошибки испытуемому присваивается самый низкий ранг.

В компьютерных тестах, основанных на имитации игровой деятельности, сырой тестовый балл может быть связан не только с дискретными игровыми событиями (например, количество попаданий в целевые объекты в ходе «стрельбы»), но и с какой-либо непрерывной количественной переменной, которая регистрируется в ходе игры (например, скорости перемещения игроком транспортного средства или длина дистанции, пройденной игроком до аварии).

Разработаны формулы подсчёта тестовых баллов с учётом не только ошибок, но и пропусков определённых заданий (Фер. 2010. С. 51–65; Шмелев. 2013. С. 258–261).

Проблемы и перспективы

Между практической тестологией и научными исследованиями в области психометрики в вопросах подсчёта тестовых баллов существует заметный разрыв, что выражается в использовании как процедур разной сложности, так и разных языков описания, терминов. Специалисты в области психометрики разрабатывают сложные алгоритмы шкалирования, оперируя терминами теории измерений (Пфанцагль. 1976).

Практики могут испытывать трудности с подбором корректных статистических процедур к разным измерительным шкалам, на которых заданы первичные тестовые баллы. Так, использование параметрических методов (например, критерия Стьюдента для анализа значимых различий или коэффициента корреляции Пирсона для анализа значимой связи) влечёт серьёзные ошибки при применении к неколичественным шкалам (например, к процентильным баллам) (Рунион. 1982).

В современной теории тестов (IRT) весовые коэффициенты, т. е. фактически ключи к тестовым заданиям, определяются с помощью компьютерных IRT-алгоритмов и подсчёт первичных баллов осуществляется автоматизированно, т. к. для ручной обработки это слишком трудоёмкий процесс (Карданова. 2008).

Шмелев Александр Георгиевич