Бинарные переменные
Бина́рные переме́нные (дамми-переменные, фиктивные переменные, индикаторные переменные, англ. dummy variable), переменные, предназначенные для учёта качественных характеристик исследуемых объектов в процессе эконометрического моделирования. Бинарные переменные принимают только два значения: 0 или 1. Близкими по смыслу к индикаторным переменным являются категоризованные переменные, которые могут принимать несколько значений. Например, способ, которым человек добирается на работу (на автобусе, на метро, на машине, пешком), является категоризованной переменной.
Бинарные переменные в пространственных данных
Бинарные переменные широко используются в регрессионном анализе в ситуациях, когда значение объясняемой переменной зависит от того, к какой категории относится объект наблюдения. Например, если в регрессии необходимо учесть пол индивида, то в качестве одной из объясняющих переменных следует использовать переменную «пол», которая будет равна 1, если индивид мужчина, и 0, если женщина, или наоборот: женщина – 1, мужчина – 0.
Включение в правую часть уравнения регрессии, помимо константы и количественных объясняющих переменных, дополнительных фиктивных объясняющих переменных (в упомянутой ситуации включение дополнительной фиктивной переменной , равной 1 для мужчин и 0 – для женщин) позволяет использовать одно уравнение регрессии для всех наблюдений, не оценивая отдельные модели для каждой группы, и применять при этом обычные методы регрессионного анализа. В результате появляется возможность анализировать влияние на объясняемую (зависимую) переменную факта принадлежности исследуемых объектов к разным категориям.
Бинарная переменная для учёта изменения уровня зависимой переменной
При рассмотрении модели парной линейной регрессии, в которой первые наблюдений произведены для женщин, а остальные наблюдений – для мужчин, полная модель для всех + наблюдений имеет вид
где для и для .
Для первых наблюдений получаем уравнение:
а для остальных наблюдений – уравнение
Соответственно, точки на диаграмме рассеяния в группе женщин рассеиваются вдоль прямой а в группе мужчин – вдоль параллельной ей прямой ; обе эти прямые имеют одинаковый угловой коэффициент.
Примером использования бинарных переменных является задача моделирования заработной платы индивида, которая задаётся следующим регрессионным уравнением:
,
где – заработная плата работника в долларах США в час, – трудовой стаж работника в годах, – бинарная переменная, характеризующая пол работника (женщина = 1, мужчина = 0). В результате оценивания этого уравнения, например с помощью метода наименьших квадратов, были получены следующие результаты:
.
Уравнения заработной платы для мужчин и женщин будут различаться. Заработная плата мужчины определяется соотношением , а женщины –. Сравнение результатов указывает на то, что при одинаковом трудовом стаже заработная плата женщин оказывается меньше на 3,5 доллара в час.
Бинарная переменная для учёта изменения интенсивности зависимой переменной
Можно допустить, что для мужчин и женщин будут отличаться и угловые коэффициенты прямых. Это приводит к модели:
В этом случае точки на диаграмме рассеяния в группе женщин рассеиваются вдоль прямой а в группе мужчин – вдоль прямой Эти прямые имеют разные угловые коэффициенты. Коэффициенты и при бинарной переменной отражают, соответственно, изменения константы и углового коэффициента при переходе от группы женщин к группе мужчин. В рамках дополненной модели можно обычным образом проверять гипотезу о параллельности этих прямых и гипотезу об их полном совпадении . Дополненную модель можно записать также в виде
В такой форме в правую часть включается комбинированная объясняющая переменная которая отражает взаимодействие переменной с бинарной переменной «пол».
В рассмотренной выше ситуации достаточно одной дополнительной фиктивной объясняющей переменной , поскольку она однозначно определяет выбор из двух альтернативных вариантов (принадлежность тому или иному полу).
Если же на результаты регрессионного анализа влияет переменная, задающая три и более альтернатив (категоризованная переменная), то её воздействие на зависимую переменную можно учесть с помощью нескольких бинарных переменных. Допустим, что категоризованная переменная может принимать значений (отражая, например, три уровня образования: среднее общее, среднее профессиональное, высшее). Влияние этой переменной на интересующий исследователя показатель можно учесть с помощью m-1 бинарной переменной. Для этого сначала следует выбрать «базовую» категорию, относительно которой будут сравниваться все остальные (например, среднее общее образование), а затем в правую часть уравнения включить () дополнительных фиктивных объясняющих переменных, каждая из которых соответствует одной из оставшихся () категорий. В примере с уровнем образования необходимо создать две бинарные переменные: , если у человека среднее профессиональное образование и 0 – в противном случае; , если у человека высшее образование и 0 – в противном. Тогда коэффициенты при фиктивных переменных будут отражать изменения зависимой переменной при переходе от базовой категории (в примере это среднее общее образование) к рассматриваемой категории.
Применение бинарных переменных в случае нескольких количественных объясняющих переменных и нескольких взаимодействий, а также интерпретация коэффициентов в таких ситуациях описаны в учебнике «Basic Econometrics» (Gujarati, Porter 2009, глава 9).
Если модель содержит только бинарные объясняющие переменные, то о ней говорят как о модели дисперсионного анализа (англ. analysis-of-variance, ANOVA). Если же в качестве регрессоров в модели выступают и бинарные, и обычные количественные переменные, то в этом случае говорят о модели ковариационного анализа (англ. analysis-of-covariance, ANCOVA).
Использование бинарных переменных при анализе временны́х рядов
Бинарные переменные используются при анализе временных рядов для учёта сезонности, структурных сдвигов, переключения режимов. Например, для анализа квартальных данных строятся т. н. сезонные дамми: бинарная переменная для первого квартала равна 1 в первом квартале и равна 0 в остальных трёх кварталах, бинарная переменная для второго квартала равна 1 во втором квартале и 0 – в остальных, бинарная переменная равна 1 для третьего квартала и 0 – в остальных, бинарная переменная равна 1 для четвёртого квартала и равна 0 в остальных кварталах. При наличии константы в правой части уравнения регрессии в качестве бинарных объясняющих переменных удастся использовать только три из этих четырёх сезонных дамми, поскольку иначе возникает линейная зависимость между столбцами матрицы значений объясняющих переменных (совершенная мультиколлинеарность), имеющей в модели парной регрессии для лет следующий вид:
.
В этой матрице первый столбец соответствует включению в модель константы, второй столбец содержит значения сезонной дамми-переменной , третий столбец содержит значения сезонной дамми-переменной , четвёртый – значения сезонной дамми-переменной , пятый – значения сезонной дамми-переменной , а шестой столбец – значения количественной объясняющей переменной . При этом первый столбец матрицы является суммой следующих за ним четырёх столбцов. Такая ситуация известна под названием «ловушка фиктивных переменных» (англ. dummy trap).
Для решения этой проблемы можно не включать в модель любую из четырёх квартальных бинарных переменных. Например, можно не включать в модель дамми для первого квартала. Тогда уравнение регрессии будет иметь вид: .
При таком выборе получим для первого квартала уравнение , для второго квартала – уравнение , для третьего – уравнение и для четвёртого – уравнение . Коэффициенты при бинарных переменных показывают, на сколько значения константы в уравнениях для второго, третьего и четвёртого кварталов соответственно изменяются по сравнению со значением константы в уравнении для первого квартала. В этом смысле первый квартал в данном примере является «базовым», сравнение производится именно с первым кварталом. Если за базовый принять четвёртый квартал, то уравнение с бинарными переменными примет вид: ; из него получаем те же самые уравнения для отдельных кварталов, которые были приведены выше, но только теперь коэффициенты при включённых бинарных переменных показывают, на сколько значения константы в уравнениях для первого, второго и третьего кварталов соответственно изменяются по отношению к значению константы в уравнении для четвёртого квартала.
Другие случаи использования бинарных переменных
Дамми-переменные широко используются при анализе панельных данных для учёта в модели индивидуальных и временных эффектов.
Особо выделяют в регрессионном анализе случаи, когда сама зависимая (объясняемая) переменная относится к классу бинарных переменных и характеризует наличие или отсутствие определённого признака у объекта исследования. В таких случаях используют модели бинарного выбора, из которых наиболее широкое распространение получили пробит- и логит-модели (Кэмерон. 2015).