Регрессионный анализ
Регрессио́нный ана́лиз, раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по статистическим данным. В отличие от функциональной зависимости , когда каждому значению независимой переменной соответствует одно определённое значение величины , при регрессионной зависимости одному и тому же значению могут соответствовать, в зависимости от случая, различные значения величины . Примером такого рода зависимости служит, например, зависимость средних диаметров сосен от их высот.
Изучение регрессии с точки зрения теории вероятностей основано на том, что случайные величины и с заданным совместным распределением вероятностей связаны вероятностной зависимостью: при каждом фиксированном значении величина является случайной величиной с определённым (зависящим от ) условным распределением вероятностей. Регрессия величины по величине определяется условным математическим ожиданием , вычисленным при условии, что : График функции называется линией или кривой регрессии величины по ; переменная называется регрессионной переменной или регрессором. Точность, с которой уравнение регрессии по отражает изменение в среднем при изменении , измеряется условной дисперсией величины , вычисленной для каждого значения :
Если при всех значениях , то и связаны строгой функциональной зависимостью. Если ни при каком значении и не зависит от , то говорят, что регрессия по отсутствует. Аналогичным образом определяется регрессия по .
Линии регрессии обладают следующим свойством: среди всех действительных функций минимум математического ожидания величины достигается для функции , т. е. регрессия по даёт наилучшее, в указанном смысле, представление величины по величине . Это свойство используется для прогноза по : если непосредственно наблюдается лишь компонента вектора , то в качестве прогнозируемого значения используют величину .
Наиболее простым является случай, когда регрессия по линейна:
Коэффициенты и называются коэффициентами регрессии, их можно вычислять по формулам
где – математические ожидания, – дисперсии , а – коэффициент корреляции между и . Кривая регрессии при этом имеет видВ общем случае кривая регрессии обычно выражается линейной комбинацией тех или иных заданных функций:
Наиболее важное значение имеет полиномиальная регрессия, при которой
Оценка неизвестных коэффициентов осуществляется методом наименьших квадратов. Оценки параметров , полученные этим методом, называются выборочными коэффициентами регрессии, а многочлен
определяет эмпирическую линию регрессии, которая служит статистической оценкой неизвестной истинной линии регрессии. Этот метод в предположении нормальной распределённости результатов наблюдений приводит к оценкам, совпадающим с оценками, полученными методом максимального правдоподобия. Оценки, полученные этим методом, оказываются, однако, в некотором смысле наилучшими и в случае отклонения от нормальной распределённости, если только объём выборки достаточно велик.