Дискриминантный анализ
Дискримина́нтный ана́лиз, раздел математической статистики, содержанием которого является разработка и исследование статистических методов решения следующей задачи различения (дискриминации): основываясь на результатах наблюдений, определить, какой из нескольких возможных совокупностей принадлежит объект, случайно извлечённый из одной из них. На практике задача различения возникает, например, в тех случаях, когда наблюдение признака, полностью определяющего принадлежность объекта к той или иной совокупности, невозможно или требует чрезмерных затрат средств или времени; в случаях, когда информация о таком признаке утеряна и её нужно восстановить, а также когда речь идёт о предсказании будущих событий на основе имеющихся данных. Ситуации первого типа встречаются в медицинской практике, например, при установлении диагноза по комплексу неспецифических проявлений заболевания. Пример ситуации второго типа – определение пола давно умершего человека по останкам, найденным при археологических раскопках. Ситуация третьего типа возникает, например, при статистическом прогнозе отдалённых результатов лечения. Методом дискриминантного анализа является многомерный статистический анализ, служащий для количественного выражения и обработки имеющейся информации в соответствии с выбранным критерием оптимальности решения.
В общем виде задача различения ставится следующим образом. Пусть результатом наблюдения над случайным объектом является реализация -мерного случайного вектора (штрих означает транспонирование) значений признаков объекта. Требуется установить правило, согласно которому по значению вектора объект относят к одной из возможных совокупностей , . Построение правила дискриминации состоит в том, что всё выборочное пространство значений вектора разбивается на области , , так что при попадании в объект относят к совокупности . Выбор правила дискриминации среди всех возможных производится в соответствии с установленным принципом оптимальности на основе априорной информации о совокупностях и вероятностях извлечения объекта из . При этом учитывается размер убытка от неправильной дискриминации. Априорная информация о совокупностях может состоять в том, что известны функции распределения вектора признаков объекта в каждой из этих совокупностей, она может быть представлена также и в виде выборок из каждой из этих совокупностей, при этом априорные вероятности совокупностей могут быть либо известны, либо нет. Очевидно, чем полнее исходная информация, тем точнее могут быть рекомендации.
Пусть рассматривается случай двух совокупностей и в ситуации, когда имеется полная исходная информация: известны функции распределения вектора признаков в каждой из совокупностей и априорные вероятности (бейесовский подход). Пусть и – функции распределения вектора признаков соответственно в и , и – плотности распределения, а , , – убыток вследствие отнесения объекта из -й совокупности к -й. Тогда вероятности неправильной дискриминации объектов из и соответственно равны:
[символом обозначена вероятность приписывания объекта из к совокупности при использовании правила ], а математическое ожидание потерь, связанных с неверной дискриминацией, равно
Естественным в рассматриваемой ситуации принципом оптимальности является принцип минимизации этой величины, который приводит в этом случае к следующему разбиению пространства выборок (Андерсон. 1963):
Если выполнены условия
то такое разбиение единственно с точностью до множества нулевой вероятности. К аналогичному правилу различения в рассмотренном случае можно прийти и другими путями, например с помощью леммы Неймана – Пирсона из теории проверки статистических гипотез.
При выбранном критерии оптимальности о качестве правила различения судят по величине математического ожидания потерь, и из двух правил лучшим считается то, которое приводит к меньшему значению этой величины.
Если в задаче различения априорные вероятности неизвестны, то естественно искать решение в классе допустимых правил, выбирая среди них правило, минимизирующее максимум по всем математического ожидания потерь (такое правило называется минимаксным). Математические ожидания потерь при условии, что наблюдения производились соответственно над объектами из или , равны
Справедливо утверждение (Андерсон. 1963): если выполнены условия
то класс бейесовских методов является минимальным полным классом. Минимаксное правило из этого класса получается при значении , для которого выполнено условие . В важном случае, когда и – многомерные нормальные распределения с векторами средних и и общей ковариационной матрицей , правило дискриминации (1) принимает вид:
где . Если и , то и
Если априорные вероятности неизвестны, то можно выбрать , например, из условия минимальности ошибки неверной дискриминации или из условия обращения в нуль математического ожидания потерь от неверной дискриминации. Вообще говоря, выбор критерия оптимальности, как правило, определяется характером самой задачи. Выражение в левой части (3) называется дискриминантной функцией данной задачи; её можно толковать как поверхность в выборочном пространстве, разделяющую совокупности и . В приведённом примере дискриминантная функция линейна, т. е. такая поверхность есть гиперплоскость. Если в приведённом примере матрицы ковариации неодинаковы, то дискриминантная функция будет квадратичной функцией от . В целях упрощения вычислений найден минимальный полный класс линейных процедур различения для этого случая (Anderson. 1962).
С точки зрения применений дискриминантного анализа наиболее важной является ситуация, когда исходная информация о распределениях представлена выборками из них. В этом случае задача дискриминации ставится следующим образом. Пусть – выборка из совокупности , ; – вектор признаков -го объекта выборки из -й совокупности, и произведено дополнительное наблюдение над объектом, принадлежащим одной из совокупностей . Требуется построить правило приписывания наблюдения к одной из этих совокупностей. Первый подход к решению этой задачи в случае двух совокупностей принадлежит Р. А. Фишеру – основоположнику дискриминантного анализа (Fisher. 1936). Используя в задаче различения вместо вектора признаков, характеризующих объект, их линейную комбинацию – гиперплоскость, в некотором смысле наилучшим образом разделяющую совокупность выборочных точек, – он пришёл к дискриминантной функции (3).
Наиболее изученным является случай, когда известно, что распределения векторов признаков в каждой совокупности нормальны, но нет информации о параметрах этих распределений. Здесь самым естественным является подход, состоящий в замене неизвестных параметров распределений в дискриминантной функции (3) их наилучшими оценками (Wald. 1944; John. 1960). Как и в случае известных распределений, правило дискриминации можно основывать на отношении правдоподобия (Welch. 1939; Gupta. 1965).
Подавляющая часть результатов дискриминантного анализа получена в предположении нормальности распределений. Изучаются вопросы применимости оптимальных в нормальном случае методов в ситуациях, где предположение о нормальности носит лишь приближённый характер (Bunke. 1967). В этих работах задачи дискриминантного анализа рассматриваются в рамках общей теории решающих функций и изучаются свойства правил дискриминации по отношению к т. н. принципу -оптимальности, естественным образом охватывающему как бейесовский, так и минимаксный подход. Именно, пусть – вероятность ошибки при применении правила дискриминации , когда вектор априорных вероятностей есть . Пусть известно, что , где – некоторое множество в пространстве векторов . Правило называется -оптимальным, если
где – множество всех возможных правил дискриминации. Пусть известен функциональный вид , зависящих от параметра распределений вектора признаков в каждой из совокупностей, , но параметр неизвестен и оценивается по выборке. Тогда если таковы, что существует -оптимальное правило дискриминации для распределений , , когда значение параметра известно, и – сильно состоятельная оценка параметра по выборке объёма , то при некоторых дополнительных условиях последовательность правил при является асимптотически -оптимальной, т. е. с вероятностью 1:
где риск в левой части (5) может быть вычислен как при истинном значении параметров, так и при замене истинных значений их оценками . Если потребовать лишь состоятельности оценки, то имеет место несколько более слабое утверждение.
Непараметрические методы дискриминации, не требующие знаний о точном функциональном виде распределений и позволяющие решать задачи дискриминации на основе малой априорной информации о совокупностях, являются особо ценными для практических применений (Kendall. 1966; Ryzin. 1966).
В задачах дискриминантного анализа приходится иметь дело со случайными наблюдениями как над количественными, так и над качественными признаками (возможен и смешанный случай). Между этими случаями нет принципиальной разницы. Если признаки качественные, то вводится понятие многомерного состояния объекта и рассматривается распределение по нему. От природы наблюдений зависит способ оценки функции распределений вектора признаков. В соответствующих ситуациях снова применимы бейесовский и минимаксный подходы и можно строить процедуру различения, основываясь на отношении правдоподобия. Иногда целесообразно переходить от количественных величин к качественным путём разбиения функции частот и, наоборот, от качественных к количественным, вводя фиктивные переменные, преобразующие качественную информацию в количественную. При этом, разумеется, нужно исследовать вопрос о том, не происходит ли существенного ухудшения качества правила.
Выше рассматривались задачи дискриминантного анализа при фиксированной размерности пространства значений вектора признаков. Однако практические ситуации чаще всего таковы, что выбор размерности осуществляется исследователем. На первый взгляд кажется, что добавление каждого нового признака в дискриминантной функции по крайней мере не ухудшит её качества. Однако многие факторы могут при этом вести к потере эффективности различения (достаточно вспомнить, что вместо истинных значений параметров распределений часто используются их оценки). К тому же увеличение числа признаков ведёт к быстрому возрастанию трудностей счёта. Имеется много рекомендаций для выбора признаков, диктуемых часто здравым смыслом. Теоретически наиболее обоснованным методом выбора признаков является метод, основанный на вычислении расстояния Махаланобиса между двумя распределениями (Kudô. 1963). Особый интерес представляют последовательные методы выбора признаков.
Долгое время задачи отнесения объекта к одной из нескольких возможных совокупностей носили общее название задач классификации. Здесь приведена терминология Кендалла (Kendall. 1966), разделившего все задачи, связанные с выбором одной из нескольких равноправных возможностей на три класса. Он назвал задачи рассматриваемого здесь вида задачами различения (дискриминации), оставив термин «классификация» для задач разбиения данной выборки или всей совокупности на группы, по возможности однородные. Если в задачах различения существование групп оговорено в условиях, то здесь это предмет исследования. Выше были рассмотрены задачи различения, когда исследуемый объект есть результат случайного выбора из некоторого конечномерного распределения. Возможна более общая ситуация, когда исследуемый объект представляет собой реализацию некоторого случайного процесса с непрерывным временем.
Дискриминантный анализ тесно связан также с теорией распознавания образов.