Психометрические свойства теста
Психометри́ческие сво́йства те́ста, свойства (признаки) измерительной психодиагностической методики, обеспечивающие заданный стандарт её качества; требования к качеству психодиагностической методики.
Научно-методологический контекст
К числу основных психометрических свойств любых методик тестирования (тестов) в подавляющем большинстве учебных пособий и справочных руководств по теории тестов принято относить 2 свойства: надёжность и валидность (Клайн. 1994; Крокер. 2010; Фер. 2010; Cronbach. 1970; Kaplan. 1993). Кроме этих двух бесспорных и основных свойств многие авторы указывают третье свойство, такое как репрезентативность тестовых норм, или, одним словом, репрезентативность (Анастази. 1982; Анастази. 2009). Некоторые, в основном российские, авторы в качестве четвёртого обязательного свойства называют достоверность (Общая психодиагностика. 1987; Шмелев. 2013; Российский стандарт тестирования. 2015). В некоторых отечественных и западных публикациях можно встретить упоминания и о таких свойствах тестов, как объективность (Аванесов. 1982; Аванесов. 2003), справедливость (faireness; Melikyan. 2019), юридическая защищённость (legal defensibility), универсальность, прогностическая эффективность (predictive validity), внешняя убедительность (face validity), экономическая эффективность (рентабельность) и т. д. (Шмелев. 2013). Некоторые из перечисленных свойств тестов явно не являются измеримыми, т. е. их нельзя называть психометрическими.
Чаще всего признаются операционально хорошо определёнными, т. е. измеримыми, следующие 4 свойства: надёжность, валидность, репрезентативность и достоверность. Именно для них сформулированы общепринятые воспроизводимые эмпирико-статистические процедуры и количественные метрики, которые указывают на то, насколько доброкачественной является та или иная измерительная методика (тест).
Многие измеримые характеристики и полезные свойства теста оказались отнесены к определённым видам либо надёжности, либо валидности. Так, прогностичность чаще обозначают термином «прогностическая валидность» (predictive validity), внешнюю убедительность – термином «внешняя, или доверительная, валидность» (face validity).
Теория тестов зародилась на рубеже 19–20 вв. с проникновением в педагогику и психологию методов естественных наук и, в частности, с появлением воспроизводимых, независимых от исследователя методик для измерения умственного возраста, уровня образовательных достижений, уровня развития определённых когнитивных способностей и функций (сенсорной чувствительности, памяти, внимания) и др.
Некоторые авторы до сих пор избегают использовать термины «тестология» и «теория тестов», предпочитая говорить о психометрике или педагогических измерениях (отрывая одно от другого) (Шмелев. 2019). Но фактическое тождество таких процедур, которые позволяют проверить надёжность и валидность тестовых методов и в психологии, и в педагогике (а также в медицине, социологии, маркетинговых исследованиях, демографии, эргономике, этнографической культурологии и других прикладных науках о человеке), говорит в пользу объединения этих методов под единым термином. Такой термин был предложен в 1920-е гг. в работах советских и российских специалистов – «тестология». Хотя постановление ЦК ВКП(б) 1936 г. «О педологических извращениях в системе Наркомпросов» остановило развитие тестологии в СССР почти на 50 лет и привело к избеганию терминов «тест», «теория тестов» и «тестология», более ясного и ёмкого термина в этой области не возникло.
Определение теста в тестологии
Тест в тестологии – измерительная стандартизованная методика, направленная либо на количественную диагностику психических свойств человека, либо на измерение уровня его знаний, умений, навыков, компетенций, установок (предпочтений), физиологических и психофизиологических свойств и иных характеристик (Шмелев. 2019). Любой тест ставит в соответствие определённому объекту обследования (тестируемому человеку) числовое значение на определённой шкале (или ряд числовых значений на многих шкалах). Простейшие тестовые методики измеряют свойство и отображают его значение не на шкале интервалов, а на шкале порядка (т. е. приписывают людям ранги), но это не отменяет общего смысла термина «тест» как методики измерения. Такой шкалой могут быть, например, шкалы роста и веса, а в случае измерения психических свойств – шкала времени простой моторной реакции или шкала объёма рабочей памяти по количеству символов и др. В случае измерения уровня усвоения учебного материала появляются шкалы в виде процента правильных ответов на стандартизированные вопросы учебного теста знаний. А в случае свободного рисуночного теста на креативность это может быть количество созданных оригинальных рисунков.
Краткие определения четырёх психометрических свойств теста
Основные свойства теста допускают упрощённые определения:
надёжность – точность и стабильность процедуры измерения;
валидность – соответствие теста измеряемому свойству;
репрезентативность – точность определения тестовых норм;
достоверность – устойчивость теста к фальсификации (Шмелев. 2013).
Ключевой методологический вопрос состоит в том, что является общим для этих свойств, что их различает и как они связаны между собой. Прежде всего этот вопрос касается понятий надёжности и валидности методик.
Пояснение основных свойств теста через диаграммы рассеяния
Для любой тестовой шкалы надёжность процедуры тестирования отражает стабильность результата каждого обследованного – близость разных точек на шкале, отображающих результат одного и того же протестированного человека. Если у всех людей, прошедших тестирование, совпадают все полученные точки (сливаются в одну точку на шкале), то говорят, что показатель надёжности равен 1 (или 100 %). Это идеальный теоретический показатель надёжности; на практике такого никогда не бывает: точки попадают в определённый интервал, который принято называть «интервалом ошибки измерения».
Аналогичным образом можно описать в универсальных терминах и процедуру измерения валидности любого теста. Допустим, ось X – шкала тестовых баллов, ось Y – шкала, отражающая значение какой-либо критериальной переменной. В области, например, индустриальной (организационной) психологии Y – это производительность труда, в области образования Y –успеваемость учащихся, в области медицины Y – общий показатель здоровья человека и т. д. Любой тест называется валидным на уровне 100 %, если существует однозначная функция отображения тестовых баллов X в определённое значение критериальной переменной Y. Однако на практике таких идеально-валидных тестов не бывает и одному значению X у разных людей соответствуют разные значения Y, т. е. возникает двумерная диаграмма рассеяния.
На рис. 1 показаны 4 случая корреляционного поля, которые призваны пояснить, как именно следует интерпретировать данные о валидности теста (точка в пространстве изображает месторасположение одного обследованного человека по двум шкалам – X и Y).
Случай 1 – описанная выше идеальная ситуация, когда имеется однозначная функциональная зависимость: коэффициент корреляции между X и Y равен 1 и валидность достигает 100 %.
Случай 4 – ситуация, когда корреляция оказывается слишком слабой – только 0,1. В этом случае говорят, что корреляция не является статистически значимой, так что валидность фактически отсутствует, т. е. по величине тестового балла Х нельзя предсказать значение критериальной переменной Y на таком вероятностном уровне, когда ошибка прогноза оказывается пренебрежимой (r ниже 0,05).
Случай 2 – ситуация высокой (статистически значимой) корреляционной связи двух переменных на уровне r = 0,5. Это говорит о том, что знание тестового балла позволяет спрогнозировать значение по критериальной переменной с определённой хоть и вероятностной, но не случайной точностью.
Случай 3 тоже указывает на полезный тест. В этом случае высокое значение по тесту X позволяет спрогнозировать низкое значение критериальной переменной Y. Например, проводится измерение тестом на мотивацию достижения, а критериальная переменная – производительность труда работника, осуществляющего контроль качества продукции. В таком случае может оказаться, что получена значимая отрицательная корреляция между тестом и критериальным показателем. Такой тест не надо отбрасывать, он тоже является полезным для прогнозирования.
Именно на базе представлений о диаграмме рассеяния удобно рассматривать т. н. основное психометрическое неравенство: валидность <= надёжность.
На рис. 2 на месте вертикальной оси Y размещены результаты повторного проведения теста X2.
В случае невысокой надёжности облако точек оказывается более «рыхлым» – менее вытянутым (вдоль главной оси эллипсоида – линии линейной регрессии), т. е. отклонения от линии регрессии оказываются более выраженными. Сравнивая облака 2а и 2б, можно увидеть, что в случае более разреженного облака 2а по результатам первого тестирования X1 можно с менее высокой точностью предсказать результаты второго тестирования X2, что и означает автоматическое снижение точности прогноза значений и по внешней критериальной переменной Y (внешней по отношению к массиву данных, полученных от самого тестирования).
Приведённые диаграммы рассеивания соответствуют такой ситуации, когда критериальная переменная Y представляет собой количественную шкалу. Но нередко на практике переменная Y оказывается дихотомической, т. е. имеет всего 2 значения: есть критериальное событие – нет критериального события. В этом случае используется аппарат статистического непараметрического анализа под названием «категориальные таблицы сопряжённости». Если на шкале тестовых баллов X устанавливается 1 точка отсечения (cut score), разделяющая эту шкалу на 2 области и превращающая переменную X также в дихотомическую переменную, то при проверке валидности и надёжности тестов мы имеем дело с четырёхклеточными таблицами сопряжённости (ЧТС) размерностью 2 х 2. Они являются простейшим двумерным (совместным) распределением частот двух событий (Аптон. 1982).
Понятие «достоверность» считается не менее чётко операционализированным, чем понятия «надёжность» и «валидность». Проиллюстрировать понятие «достоверность» также возможно с помощью диаграмм рассеяния (рис. 3). В случае 3а заметна точно такая же картина, как и в случае 2б, а случай 3б отражает статистическую взаимосвязь (корреляцию) между тестовым баллом в обычной исследовательской ситуации X1 (когда все испытуемые принимают участие в тестировании добровольно) и в особой практической ситуации X3, в которой кандидатов на определённую вакансию в ситуации профотбора или профаттестации подвергают в некотором смысле принудительному тестированию (кандидаты или работники хотят получить или сохранить работу, но не проходить тестирование). Если в случае 3б корреляция резко снижается, то такой тест нельзя считать достоверным и нельзя применять в ситуации экспертизы. Ситуация 3б часто возникает в случае тестов-опросников, когда респондент вольно или невольно отвечает на вопросы на основе стратегии социальной желательности или искажает свои истинные свойства другими способами (ср. главу «Установки на ответ»: Фер. 2010. С. 277–312).
Проблема разграничения внутренней валидности и надёжности-согласованности
В гуманитарном тестировании известны 2 вида показателей надёжности. Выше на диаграмме рассеяния обсуждалась ретестовая надёжность. Её можно назвать «диахронной», т. к. устанавливается статистическая связь (корреляция) между двумя тестовыми сессиями, проведёнными на одной и той же выборке в разное время. Но не менее популярен другой вид надёжности – надёжность-согласованность, которую также обозначают терминами «однородность», «консистентость», «гомогенность». Он подсчитывается как согласованность двух половин составного теста (half-split) или как средняя корреляция ответов на каждое задание с суммарным баллом по шкале (Анастази. 1982: Фер. 2010; Шмелев. 2013). Про этот вид надёжности можно сказать, что это «синхронная надёжность», т. к. для её измерения достаточно проведение однократного тестирования (одной тестовой сессии).
Для оценки этого вида надёжности используется преимущественно альфа-коэффициент Кронбаха. Важно, в какой мере этот показатель характеризует именно надёжность и при каких условиях его же можно интерпретировать как показатель внутренней валидности. В монографическом руководстве «Практическая тестология» А. Г. Шмелев предлагает следующим образом дифференцировать интерпретацию альфа-коэффициента:
в том случае, когда все тестовые задания, включённые в шкалу теста, создал один автор, альфа-коэффициент следует считать скорее показателем надёжности, т. к. он отражает «автокорреляцию» тестовой переменной с самой собой;
но в том случае, когда тестовые задания создавали независимые друг от друга авторы, альфа-коэффициент можно считать показателем внутренней конструктной валидности тестовой методики.
Разные авторы имеют принципиальную возможность по-разному трактовать измеряемое диагностическое свойство (диагностический конструкт). Если возникает согласованность между созданными ими тестовыми заданиями, значит, имеется операциональная воспроизводимость конструкта – его связывают с эмпирическими индикаторами (заданиями теста) согласованным образом независимые друг от друга учёные. В этом случае высокие значения альфа-коэффициента получают примерно тот же смысл, как если бы независимым авторам-экспертам был предъявлен большой банк различных тестовых заданий и экспертов попросили выбрать из предъявленного банка заданий именно те, что соответствуют заданному фактору, который надо измерить (т. е. такие задания, которые должны быть связаны с этим фактором, иметь ненулевой весовой коэффициент связи) (Шмелев. 2013).
Порядок проверки психометрических свойств на разных этапах конструирования тестов
На 1-м этапе разработчик теста должен обеспечить надёжность теста. Этот этап не требует обследования больших выборок респондентов (испытуемых, участников), т. к. если в ходе проверки надёжности получены слишком низкие результаты (например, корреляция существенно ниже 0,5), то не следует ожидать от такого теста и удовлетворительной валидности – нужно пересматривать теоретические и прикладные основания его разработки. На этом этапе разработчики тестов строят облако точек для переменных X1 и X2 и проверяют его.
На 2-м этапе разработчик должен обеспечить высокую валидность теста, т. е. его возможность предсказывать нужные значения избранной критериальной переменной Y. На этом этапе разработчики тестов строят облако точек для переменных X и Y и проверяют его.
На 3-м этапе разработчик должен обеспечить репрезентативность тестовых норм. На этом этапе надо обследовать более обширную выборку нормирования (иначе – выборку стандартизации). Если на первых этапах допускается численность выборки в пределах от 50 до 100 человек, то на данном этапе она, как правило, не может быть менее 200 человек, а для создания универсального теста требуется выборка, как правило, не менее 1000 человек (Российский стандарт тестирования. 2015).
На 4-м этапе осуществляются особые процедуры проверки достоверности (защищённости от фальсификаций), связанные со спецификой тестирования в определённых условиях и ради решения определённых задач. Для оказания психологической помощи не обязательно добиваться высокой защищённости методики от фальсификации (т. к. клиенты сами заинтересованы в достоверных результатах), тогда как для профотбора это необходимо. Во втором случае кандидаты, даже если и не стремятся сознательно к мошенничеству, часто допускают бессознательные мотивационные искажения своих ответов.
Требования к разработчикам и пользователям психометрических тестов
В области наук о человеке, в отличие от технической метрологии, измерительные технологии (тесты) оказываются менее надёжными процедурами, т. к. в большинстве случаев слишком высокая сложность и динамичность самого предмета измерения порождает более высокую ошибку измерения, но не лишает измерительные процедуры определённой практической ценности, поскольку вероятностную точность они обеспечивают. Другое важнейшее отличие гуманитарного тестирования (особенно психологического) от технической метрологии заключается в том, что оно не всегда точно соответствует заданной цели обследования и прогнозирования. Это обстоятельство требует дополнительных усилий по проверке области валидности теста – количественно-статистического выявления способности теста прогнозировать значения критериальной переменной или вероятности критериальных событий.
В силу вышесказанного пользователи тестов обязательно должны запрашивать у их разработчиков психометрический отчёт – данные о том, какие испытания проведены на проверку надёжности, валидности, репрезентативности и достоверности теста. Без положительных данных о психометрических свойствах тест нельзя считать сертифицированной методикой. Если такой психометрический отчёт отсутствует, то, значит, тест не является научным измерительным инструментом и в лучшем случае может служить вспомогательной оценочно-диагностической процедурой, за правильность результатов которой полную ответственность несёт пользователь теста.