Смещение из-за ошибок в переменных
Смеще́ние из-за оши́бок в переме́нных (англ. errors-in-variables bias), смещение оценок коэффициентов регрессии, которое возникает из-за ошибок измерения значений регрессоров. Можно пояснить это на примере модели парной линейной регрессии , со стохастической объясняющей переменной , дисперсия которой равна .
Пусть для этой модели выполнены условия теоремы Гаусса – Маркова, так что оценка наименьших квадратов является наилучшей линейной несмещённой оценкой параметра . Предположим, что значение невозможно измерить точно, и в результате вместо истинного значения можно наблюдать только значение , где – ошибка измерения. Пусть при этом , и для всех пар , .
В результате вместо оценивания уравнения парной линейной регрессии переменной на константу и переменную оценивается уравнение парной линейной регрессии переменной на константу и переменную . Поскольку значения остаются теми же, то исходное уравнение можно записать в виде:
так что в уравнении парной линейной регрессии переменной на константу и переменную случайная ошибка равна , и . Если , то и имеют отрицательную корреляцию; если , то и имеют положительную корреляцию. Это и приводит к смещению оценки наименьших квадратов в модели с ошибками в объясняющих переменных.
Получаемая оценка наименьших квадратов не только имеет смещение при конечных , но и оказывается несостоятельной, то есть даже при неограниченном увеличении количества наблюдений она не сходится к истинному значению по вероятности. Пределом по вероятности этой оценки является:
так что не сходится по вероятности к , за исключением случая, когда , то есть когда ошибки измерения отсутствуют.
В практических исследованиях возможное наличие ошибок измерений исследуемых факторов часто не принимают во внимание, поскольку если отношение дисперсий мало, то мало и расхождение между и . Однако если это не так, то это расхождение («асимптотическое смещение») может оказаться значительным.