Корреляционный анализ
Корреляцио́нный ана́лиз, раздел математической статистики, предназначенный для оценки корреляции между случайными величинами и проверки гипотез о значимости связи между ними. Корреляционный анализ статистических данных использует следующие основные практические приёмы: построение корреляционного поля и составление корреляционной таблицы; вычисление выборочных коэффициентов корреляции; проверку статистических гипотез значимости связи. Дальнейшее исследование может заключаться в установлении конкретного вида зависимости между величинами (см. Регрессионный анализ).
Вспомогательными средствами при анализе выборочных двумерных данных являются корреляционное поле и корреляционная таблица. Корреляционное поле получают, нанося выборочные точки на координатную плоскость. По характеру расположения точек поля можно составить предварительное представление о форме зависимости случайных величин (например, о том, что одна величина в среднем возрастает или убывает при возрастании другой). Для численной обработки результаты обычно группируют и представляют в форме корреляционной таблицы. В каждой клетке этой таблицы приводятся численности тех пар , компоненты которых попадают в соответствующие интервалы группировки по каждой переменной. Обычно длины интервалов группировки (по каждой из переменных) выбирают равными между собой и центры (соответственно ) этих интервалов и числа используют в качестве основы для расчётов.
Корреляционная таблица позволяет, в частности, вычислить выборочный коэффициент корреляции и выборочное корреляционное отношение. Выборочный коэффициент корреляции определяется по формуле где
При большом числе независимых наблюдений, подчинённых одному и тому же распределению, близкому к нормальному, близок к истинному коэффициенту корреляции . В других случаях в качестве характеристики связи между и рекомендуется использовать корреляционное отношение , интерпретация которого не зависит от вида исследуемой зависимости. Выборочное значение вычисляется по данным корреляционной таблицы: где числитель характеризует рассеяние условных средних значений около безусловного среднего (аналогично определяется выборочное значение ). Величина используется в качестве индикатора отклонения регрессии от линейной.
Один из методов проверки гипотезы о значимости связи между и основывается на распределении выборочного коэффициента корреляции. В случае нормального распределения величина выборочного коэффициента корреляции считается значимо отличной от нуля, если выполняется неравенство где есть квантиль порядка распределения Стьюдента с степенями свободы, соответствующая выбранному уровню значимости . В случае часто используют т. н. -преобразование Фишера, заменяя величину на Уже при сравнительно небольших распределение величины хорошо приближается нормальным распределением с математическим ожиданием, равным и дисперсией, равной . Из этого можно определить интервалы (доверительные границы) для истинного коэффициента корреляции .