Мультиколлинеарность
Мультиколлинеа́рность, наличие линейной зависимости между объясняющими переменными, что является нарушением одного из ключевых предположений классической линейной модели множественной регрессии. Термин «мультиколлинеарность» ввёл в научный оборот норвежский экономист Р. Фриш в 1934 г.
Различают совершенную коллинеарность, которая означает наличие функциональной линейной зависимости, и частичную (просто мультиколлинеарность) – наличие сильной корреляции между регрессорами.
Совершенная (полная) мультиколлинеарность
В случае полной мультиколлинеарности в линейной модели регрессии с объясняющими переменными: (где – значение зависимой переменной для i-го объекта, – значение k-й объясняющей переменной для i-го объекта, – коэффициент, подлежащий оцениванию, – случайная ошибка), оказывается невозможным получить однозначно определённые значения оценок коэффициентов методом наименьших квадратов.
Если объединить значения всех регрессоров во всех наблюдениях в матрицу , значения объясняемой (зависимой) переменной объединить в вектор , значения регрессионных коэффициентов – в вектор , значения случайных ошибок – в вектор , так что:
то модель можно записать в матрично-векторной форме:
.
Если столбцы матрицы линейно независимы, то оценка наименьших квадратов для вектора коэффициентов однозначно вычисляется по формуле , в которой матрица – результат транспонирования матрицы , а – матрица, обратная к матрице .
Совершенная мультиколлинеарность означает линейную зависимость столбцов матрицы . При наличии совершенной мультиколлинеарности детерминант матрицы равен нулю, эта матрица не имеет обратной (в обычном смысле), и указанная формула неприменима. Линейная зависимость столбцов матрицы обязательно возникает, когда одна из объясняющих переменных по самому своему построению является точной линейной комбинацией других объясняющих переменных.
Иллюстрацией этого служит ситуация, известная под названием ловушки фиктивных переменных (англ. dummy trap). Ловушка фиктивных переменных может возникать при анализе моделей временных рядов, когда в правую часть уравнения регрессии для квартальных данных включаются константа и 4 сезонных дамми, бинарные переменные, каждая из которых равна 1, только если наблюдение произведено в соответствующий квартал года. В этом случае сумма 4 сезонных дамми-переменных будет равна единице для каждого момента времени. Константа также принимает значение 1 для каждого момента времени. В результате между константой и 4 дамми-переменными возникает линейная зависимость, а в регрессионной модели совершенная мультиколлинеарность. Если категориальная переменная может принимать k различных значений, то для избежания совершенной мультиколлинеарности следует создавать только k-1 фиктивных переменных.
Возникновение функциональной линейной связи между объясняющими переменными в практических задачах имеет малую вероятность. Гораздо чаще в практике эконометрического моделирования возникает ситуация высокой корреляции между независимыми переменными (частичная мультиколлинеарность).
Несовершенная мультиколлинеарность
Ситуация, когда в линейной модели регрессии предположение об отсутствии линейной зависимости между столбцами матрицы значений регрессоров выполнено, но при этом матрица близка к вырожденной. Хотя применение метода наименьших квадратов в такой ситуации определяет оценку вектора коэффициентов однозначно, эта оценка может иметь неудовлетворительные свойства. В частности, оценки коэффициентов оказываются неустойчивыми: это проявляется в том, что небольшое изменение исходных статистических данных (добавление или исключение небольшого количества наблюдений) приводит к существенному изменению оценок коэффициентов регрессионной модели, вплоть до изменения их знаков.
Указанная оценка вычисляется по формуле , где – вектор-столбец значений объясняемой переменной. Если выполнены и остальные условия теоремы Гаусса – Маркова, то ковариационная матрица вектора находится по формуле , где – дисперсия случайной ошибки. Если матрица близка к вырожденной, то дисперсии оценок коэффициентов могут оказаться достаточно большими. Это может приводить к признанию каждой из оценок статистически незначимой при применении -критериев, тогда как регрессия в целом признаётся значимой при использовании соответствующего -критерия. В такой ситуации оказывается невозможным разделение влияния на объясняющую переменную всех объясняющих переменных, на это в своей работе 1934 г. обратил внимание норвежский экономист Р. Фриш.
Указанием на то, что -я объясняющая переменная «почти является» линейной комбинацией остальных объясняющих переменных, может служить большое значение коэффициента возрастания дисперсии (variance inflation factor) оценки коэффициента при этой переменной:
,
вследствие наличия такой «почти линейной» зависимости между этой и остальными объясняющими переменными. Здесь – коэффициент детерминации при оценивании методом наименьших квадратов модели регрессии -й объясняющей переменной на остальные -1 объясняющие переменные:
Если , то , и это соответствует некоррелированности -й переменной с остальными переменными. Если же , то , и чем больше корреляция -й переменной с остальными переменными, тем в большей мере возрастает дисперсия оценки коэффициента при p-й переменной по сравнению с минимально возможной величиной этой оценки.
Аналогично определяется коэффициент возрастания дисперсии оценки коэффициента при -й объясняющей переменной для каждого :
Здесь – коэффициент детерминации при оценивании методом наименьших квадратов модели линейной регрессии -й объясняющей переменной на остальные объясняющие переменные.
Слишком большие значения коэффициентов возрастания дисперсии указывают на то, что статистические выводы для соответствующих объясняющих переменных могут быть весьма неопределёнными: доверительные интервалы для коэффициентов могут быть слишком широкими и включать в себя как положительные, так и отрицательные значения, что ведёт к признанию коэффициентов при этих переменных статистически незначимыми при использовании -критериев.
Однако высокие значения коэффициента возрастания дисперсии не всегда приводят к широким доверительным интервалам оценок коэффициентов (подробнее см. пример 3.3.5 в Носко, 2021). Так, формулу для дисперсии оценки коэффициента при -й объясняющей переменной можно представить в виде:
.
Из этой формулы вытекает, что большое значение может компенсироваться малым значением и большим значением суммы .
Простейшим методом борьбы с несовершенной мультиколлинеарностью является исключение из числа регрессоров переменной, имеющей наибольшее значение коэффициента возрастания дисперсии. При этом может возникнуть смещение оценок коэффициентов при оставшихся в уравнении объясняющих переменных. Используют также гребневые оценки, позволяющие уменьшить дисперсии оценок коэффициентов за счёт допущения некоторого смещения этих оценок. Метод лассо позволяет производить отбор из большого количества потенциальных объясняющих переменных для включения в модель небольшого количества регрессоров. В этом методе минимизируется сумма квадратов отклонений фактического значения зависимой переменной от модельного, как в обычной регрессии, но с дополнительным ограничением на сумму абсолютных значений коэффициентов. Снизить размерность модели можно также с использованием метода главных компонент.