Валидность теста
Вали́дность те́ста, соответствие результатов тестирования заявленной цели тестирования, в частности тому свойству (или свойствам), которое измеряется. Одно из основных психометрических свойств теста, характеризующих пригодность и обоснованность применения теста в конкретных условиях.
Научно-методологический контекст
Понятие «валидность теста» является специфичным для особой области знания, которую специалисты называют по-разному: психодиагностикой, психометрикой, теорией тестов, тестологией (Психологическая диагностика. 2005; Анастази. 1982; Общая психодиагностика. 1987; Крокер. 2010; Фер. 2010; Шмелев. 2013). Однако понятие «валидность» у всех авторов означает примерно одно и то же: соответствие методики тестирования поставленным исследовательским и практическим задачам, прежде всего задаче измерить такое важное психическое свойство человека (или его знания), которое позволяет спрогнозировать его поведение.
В технической метрологии возникает главным образом вопрос о надёжности и точности измерений, а не о его валидности. Например, о надёжности самой процедуры проверки речь идёт при измерении уровня износа системы торможения в автомобиле, т. е. в ходе т. н. технического тестирования, или технической диагностики.
Понятие «валидность» фактически оказывается значимым именно в связи с гуманитарным тестированием – таким тестированием, которое направлено на оценку свойств человека (в частном случае это психологическое тестирование, направленное на оценку психических свойств). Многие специалисты по психометрике связывают это со сложностью психики человека как предмета диагностических измерений – с наличием т. н. латентных (скрытых, ненаблюдаемых) переменных, до которых непросто «добраться» с помощью тестов. Тут оказывается уместной метафора рыбной ловли (Шмелев. 2013): психолог-диагност (специалист по гуманитарному тестированию) уподобляется рыбаку, который закидывает удочку, но не видит сквозь воду, какая именно «рыба» клюнет. Рыба в этой метафоре – аналог латентного фактора. Таким образом, требуются специальные усилия по выяснению того, к какому фактору тест оказывается чувствительным или, иными словами, какую «рыбу» (ненаблюдаемый психический фактор) мы ловим.
На рисунке 1 «леска удочки» тянется от каждого индикатора (тестового задания) сразу не к одному, а к нескольким факторам. Эта многозначность, стохастичность измерительных связей порождает задачу уточнения области валидности для каждого теста, а также прочности связей между «удочкой» и «фактором» (измеряемым свойством).
Для уточнения того, какой именно фактор стоит за индикатором 2, надо применить одновременно в рамках одного тестирования индикаторы 1 и 3, что обеспечивает сужение области валидности. Отсюда вытекает главное требование к тесту: обеспечить его однородность (нацеленность на измерение одного определённого фактора), изолировав влияние на результат со стороны родственных факторов. Комплекс процедур, которые обеспечивают этот компонент валидности, называется научным обоснованием теста. Для такого обоснования стараются задействовать как можно больше индикаторов – появляются тесты с большим количеством вопросов (тестовых заданий, пунктов шкалирования). В Российском стандарте тестирования зафиксировано, что минимальное количество заданий в тестовой шкале не может быть менее 20 пунктов (Российский стандарт тестирования. 2015).
Валидность как обоснованность и как практическая ценность
На рисунке 2 дано схематическое изображение, на котором измерительные связи между уровнем индикаторов (тестовым баллом) и уровнем факторов (измеряемых психических свойств человека) дополнены другим типом связей: причинно-следственных связей между факторами и критериальным событием. В общем случае под критериальным событием понимают любое значимое событие, хотя в разных прикладных областях это могут быть разные события: успех на экзаменах или провал, приём на работу или увольнение, выздоровление или заболевание, сохранение семьи или развод и т. п.
Прогностичность теста зависит от наличия двух прочных связей: а) способности теста измерить значимый фактор, б) сильной причинно-следственной связи между фактором и критериальным поведением (событием). Прочность и однозначность измерительной связи «тестовый балл – фактор» говорит о научной обоснованности теста, а прочность причинно-следственной связи «фактор – критериальное событие» – о прагматической ценности теста. Научная обоснованность и прогностичность – два главных аспекта одного общего понятия «валидность» (Шмелев. 2013).
К компоненту «обоснованность» можно отнести такие виды валидности, как содержательная валидность, конструктная валидность, конвергентная валидность, дискриминантная валидность и др. (Фер. 2010; Шмелев. 2013).
Самой распространённой процедурой проверки валидности – обоснованности является процедура конструктной валидизации, или процедура измерения конструктной валидности. Она основана на постулировании связи двух диагностических переменных (факторов). Эти факторы в науке часто называют конструктами, стремясь подчеркнуть, что конструкт – не всякое понятие, а операционализированное понятие, т. е. такое, про которое известно, как именно его можно наблюдать, фиксировать, измерять. В этом случае кроме нового теста, валидность которого ещё только необходимо установить, проводят какой-либо известный тест, по отношению к которому в научном сообществе уже сложилось доверие, т. е. конструктная валидность которого считается подтверждённой и установленной. Очень часто такой параллельный тест представляет собой трудоёмкую процедуру, в которой участвуют и сложные экспериментальные схемы, и длительное наблюдение, и экспертные оценки сложных явлений, имеющих неоднозначную интерпретацию. Например, результаты короткого опросника на измерение мотивации достижения часто пытаются валидизировать, привлекая группу испытуемых к выполнению сложного и трудоёмкого лабораторного эксперимента по измерению уровня притязаний (по методике, предложенной Ф. Хоппе). Если на небольшой группе испытуемых (численностью, как правило, от 30 до 100 человек) выявляется статистически значимая корреляция между новым опросником и экспериментально проверенной методикой, в этом случае говорят, что новый опросник обладает конструктной (конвергентной) валидностью по отношению к методике объективного тестирования: результаты новой и старой методики конвергируют (совпадают).
Вместе с тем наличие хорошо обоснованного теста не гарантирует его практической полезности в контексте решения определённой практической задачи. Таким образом, кроме научной задачи (точно нацелить тест на определённое свойство) при всяком практическом применении теста возникает практическая задача – спрогнозировать определённое критериальное поведение, или значение критериальной переменной. Если тест позволяет спрогнозировать критериальное поведение с достаточно высокой точностью, то такой тест считается практически полезным.
Таким образом, полезность оказывается вторым важным аспектом (компонентом) сложного понятия «валидность», его составной частью.
Примеры критериальных событий и критериальных переменных
Ниже даётся далеко не полная классификация критериальных событий, а лишь примеры, сгруппированные в три прикладные сферы возможной деятельности специалиста по гуманитарному тестированию (тестолога, психодиагноста, оценщика персонала).
Для сферы прикладной психологии образования критериальные события: поступление в вуз (победа на вступительном конкурсе в вуз), успешное завершение обучения в вузе, поступление в школу (готовность к школе); критериальные переменные: уровень текущей успеваемости учащегося, наличие «богатого» портфолио учащегося (участие в олимпиадах, фестивалях, внеклассная инициативная активность, кружки, факультативы и т. п.).
Для сферы индустриальной (организационной) психологии критериальные события: успешная сдача сертификационных испытаний, успех на конкурсном профотборе (при наличии множества претендентов на вакансию), внедрение инновации, появление рацпредложения и т. п.; критериальные переменные: уровень производительности труда, показатель производственной эффективности (KPI), количество продаж, количество рацпредложений и т. п.
Для сферы прикладной медицинской психологии критериальные события: заболевание (возможные события со знаком «минус» для здоровья пациента), поствакцинальное осложнение, летальный исход и др.; критериальные переменные: срок выздоровления, или срок временной нетрудоспособности, уровень артериального давления, частота сердечных сокращений, уровень сахара в крови, уровень сатурации и т. п.
Подобные критериальные события и критериальные переменные можно выделить и для других, более узких сфер прикладной работы тестологов: для сферы спорта, массовых коммуникаций, искусства и шоу-бизнеса, политики и др.
Понять и чётко сформулировать целевой критерий, добившись его объективной регистрации (измерения), – залог практической ценности любой программы тестирования.
Классификация процедур проверки критериальной валидности
Как и компонент «обоснованность», прагматическая валидность, в свою очередь, имеет разновидности, которые тоже получили в литературе отдельные названия, т. к. связаны с разными процедурами фиксации критериального события (или измерения критериальной переменной). Часто такие процедуры называют термином «процедура валидизации». Целесообразно различать три больших класса таких процедур: ретроспективную, конкурентную и проспективную валидизацию.
Ретроспективной валидизацией называют такую схему сбора данных, когда критериальное событие происходит раньше, чем тестирование, и на его основе формируются «контрастные группы». В случае количественной критериальной переменной выделяют т. н. крайние группы: «высокую» и «низкую» – по значению критериальной переменной. Не следует забывать, что выявление связей (корреляций) между критерием и тестом при такой схеме валидизации не позволяет сделать однозначного вывода о направленности причинно-следственной связи. Таким образом, использовать тест для прогнозирования нельзя, ведь вполне возможно, что само критериальное событие является причиной повышения или понижения тестового балла. Например, сам факт госпитализации является стрессом для пациента и его тестовый балл по тесту на «стрессовое состояние» повышается, так что это не даёт оснований полагать, что именно стресс является причиной заболевания данного пациента.
Конкурентной (эмпирической, критериальной) валидизацией называют такой метод проверки прагматической валидности, когда критериальное событие фиксируется фактически в течение одного и того же интервала времени с проведением тестовых испытаний: например, в течение сентября (в начале учебного года) проводятся тестовые испытания, и в этот же период времени, в течение сентября, подсчитывается средний балл успеваемости в школе. Такая схема валидизации, как и ретроспективная валидизация, лишь создаёт предпосылки, но не доказывает возможность применения теста как инструмента прогнозирования.
Проспективной валидизацией называется такая схема, когда фиксация самого критериального события происходит значительно позднее тестового измерения (на глубине востребованного прогноза). Это самый дорогостоящий и самый трудоёмкий метод валидизации, требующий продолжительного ожидания «критериального события», обследования многочисленных выборок (т. к. с большинством обследованных часто не происходит никаких критериальных событий), но именно он даёт самую ценную информацию для измерения прогностичности теста, т. е. информацию о его практической полезности для прогноза поведения. Предиктивной валидностью называется способность по значению тестового показателя предсказать с низкой вероятностью ошибки определённое «критериальное событие». В этом случае строят т. н. четырёхклеточную матрицу сопряжённости событий ((четырёхклеточную таблицу сопряжённости, ЧТС).
Метод контрастных групп – самый простой метод измерения критериальной валидности
Чтобы сделать более наглядным анализ валидности, часто при наличии «критериальной переменной» используют точно такую же методику перевода данных в дихотомическую переменную, как и в случае с тестовыми баллами: вводят точку отсечения (cut score), так что все сотрудники по критерию «производительность труда» попадают либо в высокую («передовики»), либо в низкую группу («отстающие»). В таком случае критериальная переменная превращается в критериальное бинарное событие («либо случилось – либо не случилось»). В свою очередь, балл по тесту тоже превращается в бинарное событие (дихотомическую, категориальную или качественную переменную). Так появляется возможность построить четырёхклеточную таблицу сопряжённости (см. таблицу 1).
Четырёхклеточная таблица сопряжённости – совместное распределение частот двух пар событий: высокого или низкого балла по тесту (попадание в «высокую» или «низкую» группу) и одновременно наступления или ненаступления критериального события. С помощью этих матриц рассчитываются не только такие показатели четырёхклеточной корреляции, как коэффициент сопряжённости Фи, коэффициент дискриминативности, но и связанные с ошибками разного типа показатели чувствительности и специфичности тестовой процедуры (Фер. 2010. С. 267; Шмелев. 2013. С. 461).
Показатели чувствительности и специфичности чаще, чем в области психометрики, используются в доказательной медицине (Основы доказательной медицины. 2010). Они необходимы для проверки эффективности как диагностических медицинских тестов (анализов), так и новых лекарственных препаратов (а также таких профилактических средств, как вакцины против вирусных и других заболеваний).
Но в 2020-х гг. такой подход к анализу ошибок всё чаще применяется и в области прикладной психометрики, только в этом случае вместо терминов «экспериментальная группа» и «контрольная группа» используются термины «высокая группа» и «низкая группа».
Процент правильных положительных прогнозов измеряется по таблице ЧТС в виде отношения 100 % * D / (D + B) и называется чувствительностью (sensitivity). Процент правильных отрицательных прогнозов измеряется по таблице ЧТС в виде отношения 100 % * А / (A + C) и называется специфичностью (specificity). В случае сбалансированных по численности групп среднее арифметическое между показателями «специфичность» и «чувствительность» отражает долю наблюдений А+С по отношению к общему числу обследованных людей А+B+C+D и называется точностью (accuracy).
В случае сбалансированных (симметричных) таблиц ЧТС (когда численность обследованных по строкам и столбцам оказывается примерно одинаковой) возникает и такая удобная возможность: показатель «точность» Ac можно получить из показателя коэффициента четырёхклеточной корреляции R по простой формуле: Ac = 0,5*(1+R). Не следует применять эту упрощённую формулу в тех случаях, когда численности высокой и низкой группы либо по строкам, либо по столбцам ЧТС резко различаются.
Процент угадываний – ложная мера валидности теста
К сожалению, весьма часто пользователи тестов используют в качестве меры валидности процент правильного угадывания на основании теста определённого критериального события. Однако процент правильных ответов – очень неточная, а иногда и ошибочная мера валидности, которая приводит к тяжёлым заблуждениям в отношении эффективности той или иной методики.
Рассмотрим случай, когда численности высоких и низких групп по критерию и/или тесту сильно различаются, буквально в разы (что чаще всего происходит в случае «редких заболеваний», например; как и в случае других редких критериальных событий). Покажем, что упрощённую формулу подсчета Ac = (A+D)/(A+B+C+D) принять нельзя и необходимо рассчитывать показатель R (именно коэффициент корреляции), т. к. показатель Ac становится обманчиво высоким.
В таблице 2 приведён пример такого случая, в котором Ac выше 0,8 и, казалось бы, процент правильных прогнозов высок (доля испытуемых в клетках A и D), но корреляция на самом деле отсутствует и валидность теста является нулевой. Без проведения теста можно предсказать с вероятностью 0,81 попадание любого человека в группу «профессионально неуспешных», потому что из 100 кандидатов любые 90 не справляются с трудной работой. Таков эффект «перекошенного распределения вероятностей» (асимметричной вероятности наступления и отсутствия критериального события). Именно применение коэффициентов корреляции вносит поправку в перекос распределения, а подсчёт процентов приводит к неправильным выводам.
Требования к валидности в случае тестов различных типов
В силу всего вышесказанного требования к уровню валидности теста в профессиональной тестологической литературе выражаются в единицах коэффициентов корреляций, но никак не в процентах. В Российском стандарте тестирования принята следующая таблица минимальных требуемых показателей валидности для методик различных типов и для различных процедур валидизации (Российский стандарт. 2015). Следует помнить, что мера корреляции принимает значения на числовом отрезке от –1 до +1, а не на отрезке от 0 до 1.
При наличии указанных в таблице 3 границ следует учитывать, что для тестов различных типов значения валидности, как правило, существенно различаются. Например, при тестировании психических состояний, когда требуется не долгосрочный прогноз, а лишь немедленная констатация текущего уровня функциональной (психической) готовности к какой-либо деятельности, тесты демонстрируют высокую валидность (в районе 0,35–0,5). Также высокую валидность нужно требовать от тестов на диагностику социально-психологических установок и предпочтений (например, на выборах или при покупке товаров), на диагностику уровня общих и профессиональных знаний. В случае психодиагностики общих способностей или психодиагностики личностных черт (темперамента и характера) с целью долговременного прогноза вполне эффективными могут считаться тесты со средним уровнем валидности (в районе 0,3). В то время как в случае диагностики «скрытых мотивационных тенденций» (особенно асоциальных по направленности) ценность имеют даже тесты с низким уровнем валидности (от 0,15 до 0,25). Многие т. н. косвенные и проективные тесты, направленные на диагностику латентных (неосознаваемых) мотивов личности, обладают ценностью, имея низкую валидность. Такие тесты необходимо подкреплять результатами индивидуальной (клинической) беседы с испытуемым (клиентом, пациентом) и другими источниками данных о его личности.
Важно подчеркнуть, что значения выше 0,6 в случае конструктной валидизации, а также выше 0,5 в случае критериальной валидизации должны настораживать. Дело в том, что в мире проведены уже десятки тысяч подобных исследований валидности для многих тысяч тестовых методик, и значения выше 0,7 и/или выше 0,5 встречаются крайне редко, настолько редко, что нуждаются в специальном обосновании. Чаще всего в ходе такого дополнительного анализа выясняется, что разработчик теста совершил какую-либо методическую ошибку либо при формировании выборки (пригласил часть людей, которые заведомо знали, как показать высокий тестовый балл), либо при подсчёте, группировке и статистическом анализе результатов.
Измерение валидности тестов – открытая проблема тестологической теории. Специалистами из разных стран создано уже немало различных процедур, которые дают количественные показатели валидности. Многие такие показатели имеют чёткое математико-статистическое обоснование и позволяют с высокой статистической значимостью указывать на точность прогнозов, которые могут быть сделаны на основе той или иной тестовой методики. При этом остаются нерешённые проблемы: например, у большинства тестов, особенно у многофакторных тестов (направленных на одновременное измерение нескольких факторов) наблюдаются очень низкие показатели дискриминантной валидности, так что результаты «цепляют» не один, а сразу несколько факторов, различных по своей психологической природе и механизмам влияния на поведение. Многие т. н. ситуационные тесты имеют столь узкую область валидности (работают для очень узкого круга лиц в узком классе ситуаций), что фактически превращаются в теорию одного случая (case study theory). Научный поиск в этой области продолжается.