ROC-кривая (в медицине)
ROC-крива́я (англ. Roc curve), статистический метод, применяемый в доказательной медицине, медицине и здравоохранении в целом, в частности для оценки точности диагностических тестов.
Первоначально (1941) метод (ROC curve, receiver operating characteristic curve, рабочая характеристика приёмника) был разработан для операторов военных радиолокационных приёмников, что и привело к его названию.
Определения
Каждое определение фокусирует внимание на отдельных принципиально важных аспектах этого понятия:
ROC-кривая (ROC-анализ), статистический метод, применяемый в медицине, в частности для оценки диагностических тестов (Albeck. 1990);
ROC-кривая, график (диаграмма), иллюстрирующий диагностическую способность дихотомической классифицирующей системы при изменении её порога различения;
ROC-кривая, график зависимости «чувствительности» от «1-специфичности» (Mandrekar. 2010);
площадь под ROC-кривой (AUC ROC, area under the curve ROC), эффективный и комбинированный показатель чувствительности и специфичности, характеризующий валидность диагностических тестов.
Краткая историческая справка
ROC-кривая была впервые разработана инженерами-электриками и инженерами-радиолокаторами во время Второй мировой войны для обнаружения вражеских объектов на полях сражений и вскоре была введена в психологию для учёта перцептивного обнаружения стимулов.
Как статистический метод ROC-анализ возник в начале 1950-х гг. вместе с теорией обнаружения электронных сигналов. (Swets. 1986; Hajian-Tilaki. 2013).
В начале 1960-х гг. методологию ROC-анализа стали применять в диагностической радиологии и радионуклидной визуализации. Первая ROC-кривая в диагностической радиологии была рассчитана Lusted (1960), который повторно проанализировал ранее опубликованные данные по выявлению туберкулёза лёгких и показал обратную связь между процентом ложноположительных и ложноотрицательных результатов при различных исследованиях по интерпретации снимков грудной клетки. (Lusted. 1960; Hajian-Tilaki. 2013).
Впоследствии несколько авторов использовали методологию ROC-анализа для диагностических визуализирующих исследований. Первым шагом к объективной подгонке кривой и использованию компьютеризированного программного обеспечения для ROC-анализа стала работа Дорфмана и Альфа в 1986 г. (Dorfman. 1968; Hajian-Tilaki. 2013).
ROC-анализ на протяжении многих десятилетий используют в медицине, радиологии, биометрии, прогнозировании стихийных бедствий, метеорологии, оценке эффективности моделей и других областях и всё чаще используют в исследованиях машинного обучения и интеллектуального анализа данных.
ROC-анализ стал важным методом оценки точности диагностических исследований в медицине. (Hajian-Tilaki. 2013).
Смысл и принципы ROC-анализа
Правильная постановка диагноза критически важна в клинической медицине и для каждого человека. В дополнение к сбору анамнеза и клиническому обследованию часто используют диагностические тесты. Важно оценить диагностические возможности этих тестов как в отношении подтверждения наличия заболевания, так и для исключения заболевания у здоровых людей.
Диагностические тесты могут давать ответы «да/нет» (в качестве бинарных, дихотомических результатов) или в виде числа на шкале непрерывных данных.
Например, при диагностике тромбоза глубоких вен (ТГВ) ультразвуковая допплерография даёт бинарный результат (наличие или отсутствие ТГВ). Однако уровень D-димера в сыворотке, используемый для выявления ТГВ, даёт число в диапазоне возможных значений. Диагностические тесты, дающие непрерывные результаты, часто разбивают на 2 части, потому что интересующий результат, как правило, бинарный. Примером может служить пороговое значение отсечения 500 мкг/л, позволяющее различать «положительный» и «отрицательный» результат на D-димер. При интерпретации результатов диагностических тестов, включающих непрерывные данные, важно правильно выбрать порог отсечения, позволяющий отличить «положительный» тест от «отрицательного» (Hoo. 2017).
В диагностическом тесте с дихотомическим результатом («положительные/отрицательные» результаты теста) традиционный подход к оценке диагностического теста использует чувствительность и специфичность как меры точности теста по сравнению с золотым стандартом (Hajian-Tilaki. 2013).
В диагностическом тесте, при котором результаты теста отмечают на порядковой шкале (например, с такими значениями, как «определённо нормально», «вероятно нормально», «неопределённо», «вероятно ненормально», «определённо ненормально»), даже если результаты теста представлены на непрерывной шкале, чувствительность и специфичность могут быть рассчитаны для всех возможных пороговых значений (Hajian-Tilaki. 2013).
Таким образом, чувствительность и специфичность различаются в зависимости от порога, а чувствительность обратно пропорциональна специфичности (Hajian-Tilaki. 2013).
Для получения ROC-кривой сначала заносят в таблицу чувствительность и специфичность для различных значений непрерывных показателей (данных) теста. Это приводит к списку различных значений теста и соответствующей чувствительности и специфичности теста для этого значения. Затем строят графически ROC-кривую путём нанесения чувствительности (истинно положительные показатели) по оси ординат против 1-специфичности (ложноположительные показатели) по оси абсцисс для различных значений в таблице. Частота истинно положительных результатов также известна как чувствительность, отклик или вероятность обнаружения. Частота ложноположительных результатов также известна как вероятность ложной тревоги и может быть рассчитана как (1 – специфичность) (Hoo. 2017).
Полученная суммарная мера точности, такая как площадь под кривой (AUC), определяет присущую тесту способность различать больных и здоровых людей, является общей мерой способности теста различать наличие или отсутствие определённого состояния. Используя её как меру диагностической эффективности, можно сравнивать отдельные тесты или судить о том, может ли различная комбинация тестов (например, комбинация методов визуализации или комбинация ридеров) повысить точность диагностики. Площадь под кривой включает значения от 0 до 1, где значение 0 указывает на совершенно неточный тест, а значение 1 – на абсолютно точный тест (Mandrekar. 2010; Hajian-Tilaki. 2013; Hoo. 2017).
AUC можно рассчитать по правилу трапеций. AUC, равная 0,5, предполагает отсутствие дискриминации (т. е. способность диагностировать пациентов с заболеванием или состоянием и без него на основе теста), AUC в диапазоне от 0,7 до 0,8 считают приемлемой, от 0,8 до 0,9 – отличной, а более 0,9 – выдающейся (Mandrekar. 2010).
Значение 0,5 для AUC указывает на то, что кривая ROC будет падать по диагонали (т. е. на линию под углом 45°), и, следовательно, предполагает, что диагностический тест не обладает дискриминационной способностью. Кривые ROC выше этой диагональной линии считают имеющими достаточную различительную способность диагностировать пациентов с заболеванием или состоянием и без него. Поэтому естественно провести проверку гипотезы, чтобы оценить, значительно ли отличается AUC от 0,5 (Mandrekar. 2010).
ROC-анализ используют в клинической эпидемиологии для количественной оценки того, насколько точно медицинские диагностические тесты (или системы) могут различать два состояния пациента, обычно называемые «больным» и «здоровым». ROC-кривая основана на понятии шкалы «разделителя», по которой результаты для больных и здоровых людей образуют пару перекрывающихся распределений (Hajian-Tilaki. 2013).
ROC-кривая показывает баланс (компромисс) между долей истинно положительных результатов (true positive fraction, TPF) и долей ложноположительных результатов (false positive fraction, FPF) при изменении критерия положительности (Hajian-Tilaki. 2013).
На рисунке 1 показаны два перекрывающихся распределения с четырьмя используемыми порогами, а на рисунке 2 представлена соответствующая ROC-кривая, стрелки на кривой показывают рабочие точки ROC.
ROC-кривая, лежащая на диагональной линии, отражает эффективность диагностического теста не выше уровня случайности, т. е. теста, дающего положительные или отрицательные результаты, не связанные с истинным статусом заболевания (Hajian-Tilaki. 2013).
ROC-кривые полезны для сравнения диагностической способности двух или более скрининговых тестов или для оценки прогностической способности двух или более биомаркеров для одного и того же заболевания. Тест с более высокой AUC можно считать лучшим. Однако в случаях, когда конкретные значения чувствительности и специфичности имеют только клиническое значение для сравнения, сравнивают частичные AUC (Mandrekar. 2010).
Значение ROC-анализа
ROC-кривая играет ведущую роль в оценке диагностической способности тестов различать истинное состояние исследуемых людей, находить оптимальные пороговые значения и сравнивать две альтернативные диагностические задачи, когда каждую задачу выполняют на одном и том же исследуемом (Hajian-Tilaki. 2013).
ROC-кривые используют в радиологии, а также для оценки лабораторных тестов и шкал акушерской оценки. Метод основан на анализе нозологических вероятностей при различных пределах порогов принятия решений. ROC-кривые могут быть использованы для данных по шкалам отношений или интервалов и данных по ранговым шкалам. Для получения единой количественной оценки всей ROC-кривой и проведения тестов [статистической] значимости между несколькими ROC-кривыми доступны параметрические и непараметрические методы (Albeck. 1990).
ROC-анализ широко используют в клинической эпидемиологии для оценки диагностической способности биомаркеров (например, сывороточных маркеров) и тестов визуализации при различении больных и здоровых субъектов. Эту прогностическую модель также широко используют для оценки риска любого неблагоприятного исхода на основе профиля риска пациента в медицинских исследованиях (Hajian-Tilaki. 2013).
ROC-анализ обеспечивает наиболее полное доступное описание диагностической точности, поскольку он оценивает и представляет все комбинации чувствительности и специфичности, которые может обеспечить диагностический тест (Metz. 2006).
ROC-кривая наиболее полезна на ранних стадиях оценки нового диагностического теста. Как только диагностическая способность теста установлена, обычно представляет интерес только часть кривой ROC, например области с высокой специфичностью, а не средняя специфичность по всем значениям чувствительности (Mandrekar. 2010).