Метод главных компонент
Ме́тод гла́вных компоне́нт (principal component analysis, PCA), способ снижения размерности данных с потерей наименьшего объёма информации.
Метод предложен К. Пирсоном в 1901 г., а затем развит американским экономистом и статистиком Х. Хотеллингом. Цель метода состоит в том, чтобы оценивать и визуализировать сходства между наблюдениями, а также линейные связи между показателями, которыми характеризуются эти наблюдения.
Содержательная составляющая метода
Если в наборе данных содержится более трёх переменных, то может быть очень сложно графически визуализировать данные в многомерном пространстве. Возникает задача снижения размерности. Метод главных компонент (МГК) решает эту задачу путём извлечения важной информации, содержащейся в многомерных данных. МГК отражает сохранённую информацию в значительно меньшем количестве новых переменных (факторов), называемых главными компонентами. Новые факторы являются линейной комбинацией исходных переменных.
Цель метода состоит в том, чтобы определить направления (т. е. главные оси или главные компоненты), вдоль которых вариация данных максимальна. В результате размерность многомерных данных снижается до двух или трёх главных компонент, которые можно визуализировать графически, потеряв наименьший объём информации из исходного массива данных.
МГК широко используется во многих отраслях: от биоинформатики до нейробиологии, от анализа медицинских данных до работы с массивами информации в социальных науках. Например, в экономике метод используется для прогнозирования экономических показателей, таких как валовый внутренний продукт и инфляция, а в финансах – для изучения факторов, влияющих на финансовые рынки. С появлением больших данных сферы для применения этого метода постоянно расширяются.
Математическое описание метода
Предположим, что есть таблица данных размерности , то есть набор из наблюдений, характеризующихся количественными переменными. Пространство наблюдений обозначают векторным пространством , где каждое наблюдение связано с вектором , и представлено точкой в этом пространстве. Аналогично пространство переменных обозначают векторным пространством , где каждой переменной сопоставлен вектор , в этом пространстве. Элементы обозначаются как .
Чтобы иметь возможность определить сходство двух наблюдений и , необходима мера расстояния между ними. Обычно используется Евклидово расстояние, определяемое как
Недостаток этого способа измерения расстояния состоит в том, что если какая-то из p-переменных характеризуется числовыми значениями более высоких порядков, чем оставшиеся переменные, то при определении расстояния между объектами этой переменной будет придаваться больший вес. Чтобы преодолеть проблему разной размерности, требуется нормализовать переменные, учитывая:
,
где веса обратны дисперсиям переменных. В самом общем случае в можно ввести скалярное произведение через положительно определённую симметричную матрицу M размера :
,
затем измерить расстояние между двумя наблюдениям и , используя евклидово расстояние , определяемое как:
.
Чтобы определить, насколько связаны между собой две переменные – и , необходимо вычислить коэффициент линейной корреляции между ними. Коэффициент линейной корреляции задаётся соотношением:
,
где и обозначают соответственно среднее значение и стандартное отклонение переменной . Заметим, что в данной формуле вес всех наблюдений одинаков и равен . Также могут быть использованы разные веса. Обозначим диагональную матрицу, состоящую из набора n весов:
.
В рамках МГК осуществляется линейное преобразование, которое исходное пространство данных трансформирует в новую систему координат (факторные координаты) таким образом, что первая главная компонента задаёт положение оси, вдоль которой проекция исходных данных будет характеризоваться наибольшей дисперсией, а вторая главная компонента определит положение оси, вдоль которой проекция исходных данных будет характеризоваться второй по величине дисперсией и т. д. Процедура включает в себя несколько шагов:
1. Расчёт матрицы дисперсий/ковариаций S по данным выборки:
.
Матрица S представляет собой симметричную квадратную матрицу размера , которая содержит все дисперсии и ковариации между переменными (столбцами) таблицы .
2. Вычисление собственных значений и собственных векторов ковариационной или корреляционной матрицы S, которые определяют направления главных компонент и величину связанной с ними дисперсии.
В методе главных компонент проводится различие между понятием активных и дополнительных элементов. Активными элементами являются наблюдения и переменные, используемые для построения факторных осей (т. е. исходной таблицы X). Дополнительные элементы – это наблюдения или переменные, которые добавляются апостериорно и в основном служат для иллюстрации и облегчения интерпретации факторных осей.
Дополнительные наблюдения – это новые векторы-строки , которые не использовались для построения факторных осей. Дополнительные переменные – это новые векторы-столбцы , не используемые при построении факторных осей. Для вычисления факторных координат дополнительных наблюдений используют ту же формулу (линейная комбинация, основанная на значениях соответствующих собственных векторов), что и для активных наблюдений.