Многомерный статистический анализ
Многоме́рный статисти́ческий ана́лиз, раздел математической статистики, посвящённый математическим методам построения оптимальных планов сбора, систематизации, обработки и интерпретации многомерных статистических данных. Эти методы предназначены прежде всего для выявления характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и используются для получения теоретических и практических выводов. Под многомерным признаком понимается -мерный вектор показателей (переменных) , среди которых могут быть количественные, т. е. измеряющие в определённой шкале степень проявления изучаемого свойства объекта; порядковые (или ординальные), т. е. позволяющие упорядочивать анализируемые объекты по степени проявления в них изучаемого свойства; классификационные (или номинальные), т. е. позволяющие разбивать исследуемую совокупность объектов на однородные (по анализируемому свойству) классы. Результаты измерения этих показателей на каждом из анализируемых объектов исследуемой совокупности образуют последовательность многомерных наблюдений, или исходный массив многомерных данных, который используется для проведения многомерного статистического анализа. В значительной части многомерного статистического анализа рассматриваются ситуации, в которых исследуемый многомерный признак интерпретируется как многомерная случайная величина и анализируемая последовательность многомерных наблюдений – как выборка из генеральной совокупности. В этом случае выбор методов обработки исходных статистических данных и анализ их свойств производятся на основе тех или иных допущений относительно природы многомерного (совместного) закона распределения вероятностей.
По содержанию в многомерном статистическом анализе выделяют три основных раздела: многомерный статистический анализ многомерных распределений, многомерный статистический анализ структуры и характера взаимосвязей между компонентами исследуемого многомерного признака, многомерный статистический анализ геометрической структуры исследуемой совокупности многомерных наблюдений.
Многомерный статистический анализ многомерных распределений охватывает лишь ситуации, в которых обрабатываемые наблюдения имеют вероятностную природу, т. е. интерпретируются как выборка из некоторой генеральной совокупности. К основным задачам этого раздела относятся: статистическое оценивание исследуемых многомерных распределений и их числовых характеристик; исследование свойств используемых статистических оценок; исследование распределений вероятностей для статистик, с помощью которых строятся статистические критерии проверки гипотез о вероятностной природе анализируемых многомерных данных.
Многомерный статистический анализ структуры и характера взаимосвязей компонент исследуемого многомерного признака включает в себя понятия и результаты таких методов и моделей многомерного статистического анализа, как регрессионный анализ, дисперсионный анализ, факторный анализ, анализ многомерных временны́х рядов [под многомерным временны́м рядом понимается последовательность наблюдений многомерных признаков , произведённых во времени].
Многомерный статистический анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет в себе понятия и результаты таких моделей и схем, как дискриминантный анализ, анализ смесей вероятностных распределений, кластерный анализ, многомерное шкалирование. Основным понятием во всех этих моделях и схемах является понятие расстояния (меры близости, меры сходства) между анализируемыми элементами.
Методы и результаты дискриминантного анализа направлены на решение следующей задачи. Известно о существовании определённого числа генеральных совокупностей и имеется по одной выборке из каждой совокупности (обучающие выборки). Требуется построить основанное на имеющихся обучающих выборках наилучшее (в определённом смысле) классифицирующее правило, позволяющее приписать новый элемент (наблюдение) к своей генеральной совокупности, когда заранее неизвестно, к какой из совокупностей этот элемент принадлежит.
Задача анализа смесей вероятностных распределений чаще всего возникает в связи с исследованием «геометрической структуры» рассматриваемой совокупности. При этом предполагается, что распределение общей генеральной совокупности, из которой извлечена анализируемая выборка, описывается смесью распределений вида где – номер некоторой однородной совокупности, характеризующейся вероятностным распределением , зависящим от параметра , – априорная вероятность (удельный вес элементов) -го класса в общей генеральной совокупности. Задача состоит в статистическом оценивании неизвестных параметров . Это, в частности, позволяет свести задачу классификации элементов к схеме дискриминантного анализа, хотя в данном случае отсутствуют обучающие выборки.
Методы и результаты кластерного анализа (классификация, распознавание образов «без учителя») направлены на решение следующей задачи. Геометрическая структура анализируемой совокупности элементов задана либо координатами соответствующих точек, либо набором геометрических характеристик их взаимного расположения, например матрицей попарных расстояний. Требуется разбить исследуемую совокупность элементов на сравнительно небольшое (заранее известное или нет) число классов так, чтобы элементы одного класса находились на небольшом расстоянии друг от друга, в то время как разные классы были бы по возможности достаточно удалены один от другого.
Задача многомерного шкалирования относится к ситуации, когда исследуемая совокупность элементов задана с помощью матрицы попарных расстояний, и заключается в приписывании каждому из элементов заданного числа координат таким образом, чтобы структура попарных расстояний между элементами, измеренных с помощью этих вспомогательных координат, в среднем наименее отличалась бы от заданной.
Прикладное назначение многомерного статистического анализа состоит в основном в изучении следующих проблем.
Проблема статистического исследования зависимостей между анализируемыми показателями. Предполагается, что исследуемый набор статистически регистрируемых показателей разбит, исходя из содержательного смысла этих показателей и окончательных целей исследования, на -мерный подвектор предсказываемых (зависимых) переменных и -мерный подвектор предсказывающих (независимых) переменных. Проблема состоит в определении на основании имеющихся наблюдений такой -мерной векторной функции из класса допустимых решений , которая давала бы наилучшую (в определённом смысле) аппроксимацию поведения подвектора показателей .
Проблема классификации элементов (объектов или показателей) в общей постановке заключается в том, чтобы всю анализируемую совокупность элементов разбить на сравнительно небольшое число однородных (в определённом смысле) групп. В зависимости от природы априорной информации и конкретного вида функционала, задающего критерий качества классификации, приходят к тем или иным схемам дискриминантного анализа, кластерного анализа, анализа смесей распределений.
Проблема снижения размерности исследуемого факторного пространства и отбора наиболее информативных показателей заключается в определении такого набора показателей из класса допустимых преобразований исходных показателей , где значительно меньше , на котором достигается максимум некоторой заданной меры информативности -мерной системы признаков. Конкретизация функционала, задающего эту меру информативности, приводит, в частности, к различным схемам факторного анализа или методам отбора наиболее информативных показателей в схемах статистического исследования зависимостей и дискриминантного анализа.
Основные математические методы многомерного статистического анализа включают методы теории вероятностей, теории систем линейных уравнений и теории матриц, а также некоторые оптимизационные алгоритмы. Многомерный статистический анализ применяется в различных статистических и эконометрических исследованиях.