Корреляция в математике
Корреля́ция в математике, зависимость между случайными величинами, не имеющая, вообще говоря, строго функционального характера. В отличие от функциональной зависимости корреляция, как правило, рассматривается тогда, когда одна из величин зависит не только от данной другой величины, но и от ряда иных случайных факторов. Зависимость между двумя случайными событиями проявляется в том, что условная вероятность одного из них при условии, что другое произошло, отличается от безусловной вероятности. Аналогично, влияние одной случайной величины на другую характеризуется условными распределениями одной из них при фиксированных значениях другой.
Пусть и – случайные величины с заданным совместным распределением вероятностей, и – математические ожидания, и – дисперсии и – коэффициент корреляции случайных величин и . Если для каждого возможного значения случайной величины определено условное математическое ожидание , то функция называется регрессией величины по . Для оценки того, насколько точно регрессия передаёт изменение при изменении , используется условная дисперсия при данном значении или её средняя величина (мера рассеяния около линии регрессии), равная Если и независимы, то условные математические ожидания не зависят от и совпадают с безусловным, т. е. , при этом . При функциональной связи между и величина при каждом данном принимает одно значение и . Аналогично определяется – регрессия по . Показателем концентрации распределения вблизи линии регрессии служит корреляционное отношение Величина равна нулю тогда и только тогда, когда регрессия имеет вид , в этом случае коэффициент корреляции равен нулю и величина не коррелирована с . Если регрессия по линейна, т. е. линия регрессии – прямая, имеющая вид то и . Если, кроме того, , то связана с точной линейной зависимостью, если же , то между и нет точной функциональной зависимости. Точная функциональная зависимость от , отличная от линейной, имеет место тогда и только тогда, когда . Практическое использование коэффициента корреляции в качестве меры отсутствия зависимости оправданно (за редким исключением) лишь тогда, когда совместное распределение и нормально (или близко к нормальному распределению), т. к. в этом случае из равенства следует независимость и . Для произвольных случайных величин и использование как меры зависимости часто приводит к ошибочным выводам, т. к. может равняться нулю даже при функциональной связи между величинами. Если совместное распределение и нормально, то обе линии регрессии и суть прямые, при прямые регрессии сливаются в одну, что соответствует линейной зависимости между и , при величины и независимы.
При изучении связи между несколькими случайными величинами с заданным совместным распределением используется корреляционная матрица, элементами которой являются обычные коэффициенты корреляции между и , . Мерой линейной корреляции между и совокупностью остальных величин служит множественный коэффициент корреляции, который определяется как обычный коэффициент корреляции между и наилучшим линейным приближением по , т. е. между и , где числа определяются так, чтобы дисперсия величины была минимальной. Множественный коэффициент корреляции выражается через элементы корреляционной матрицы, например при он равен Если предполагается, что изменение величин и определяется в какой-то мере изменением остальных величин , то показателем линейной связи между и при исключении влияния является частный коэффициент корреляции между и относительно , который определяется как обычный коэффициент корреляции между и , где – соответственно наилучшие линейные приближения и по . Например, в случае этот коэффициент равен В математической статистике разработаны методы оценки корреляции между случайными величинами и методы проверки гипотез о значениях корреляции, использующие их выборочные аналоги. См. Корреляционный анализ.