Модель Хекмана
Моде́ль Хе́кмана (англ. Heckman model), разновидность цензурированной регрессии, в которой одновременно используются модель бинарного выбора для оценки вероятности участия или неучастия объекта в исследуемом процессе и линейная модель для оценки интенсивности участия объекта в исследуемом процессе. Иными словами, с использованием модели даётся ответ на следующий вопрос: если объект принял решение участвовать в исследуемом процессе, то каким количественно окажется результат этого участия? Например, в случае анализа решения о том, чтобы завести детей, 1-е уравнение – оценка вероятности того, что объект примет решение завести детей, 2-е уравнение – число детей, которых завёл объект. В моделях с оценкой факторов, влияющих на уровень заработной платы, 1-е уравнение оценивает вероятность того, что объект примет предложение о работе, 2-е уравнение – уровень получаемой заработной платы (в качестве зависимой переменной). Модель также известна как селективная модель Хекмана, Тобит II или Хекит. Классическим примером, в котором применяется модель Хекмана, является оценка факторов, влияющих на уровень заработной платы по случайной выборке индивидов. Использование стандартной линейной модели для решения этой задачи приводит к смещению оценок коэффициентов, т. к. заработная плата индивида наблюдается только в том случае, если он принимает решение выйти на рабочее место, и является ненаблюдаемой, если он этого не делает.
История возникновения модели
Модель была впервые предложена американским экономистом Дж. Хекманом в 1974 г. (Heckman. 1974). Концептуально идея заключается в том, чтобы сначала явным образом моделировать вероятность отбора объекта в выборку или вероятность принадлежности объекта какому-либо классу (уравнение отбора), а затем условное математическое ожидание интересующей зависимой переменной (уравнение результата или размера) в зависимости от сделанного выбора или принадлежности к определённому классу. Хекман также разработал двухэтапную процедуру оценки предложенной им модели. В 2000 г. Хекман (совместно с Д. Макфадденом) получил Нобелевскую премию «за разработку теории и методов для анализа селективных выборок».
Описание модели
Допустим, значения показателя наблюдаются не для всех . Значения показателя наблюдаются со значением , если выполнено условие . Уравнения модели Хекмана выглядят следующим образом:
уравнение выбора:
уравнение результата:
где – номер наблюдения – векторы объясняющих переменных, – векторы их коэффициентов, – случайные ошибки, которые имеют совместное нормальное распределение:
.
Объясняющие переменные в уравнениях для и могут быть как одинаковыми, так и различными. В ряде ситуаций экономическая аргументация указывает на необходимость включения в правую часть уравнения для (уравнение выбора) всех переменных, включённых в правую часть уравнения для . При этом коэффициенты при одной и той же переменной в уравнениях для и могут быть различными. Случай, когда и , является моделью Тобит I.
В моделях Тобит I предполагается одинаковое влияние факторов на вероятность принятия решения (выбора) и на интенсивность участия (результат). В ряде случаев такое предположение оправданно. Например, в случае покупки автомобиля доход оказывает положительное влияние на вероятность покупки и на стоимость приобретённого автомобиля. Однако модель Хекмана позволяет предполагать различное влияние факторов на принятие решения и на результат. Например, при анализе расходов на отпуск фактор наличия детей может отрицательно влиять на решение о поездке, но, если такое решение принято, наличие детей увеличивает размер расходов на отпуск.
Пример модели Хекмана.
Допустим, исследователя интересует процесс формирования заработной платы. Заработная плата зависит от некоторого набора наблюдаемых характеристик (возраст, стаж работы, пол, число лет образования и т. д.):
где – уровень заработной платы, – вектор объясняющих переменных (характеристик), – вектор коэффициентов при объясняющих переменных, – случайные ошибки.
Заработная плата () наблюдается только для тех агентов, которые решили выйти на рынок труда (приняли предложение о работе). Исследователь не наблюдает заработные платы (предложенные) неработающих агентов, которые отказались от предложения о работе. В свою очередь, решение о выходе на рынок труда ( означает согласие, – отказ) также зависит от ряда показателей. Можно предполагать, что индивид соглашается выйти на рынок труда, если предложенная заработная плата выше резервной заработной платы (минимальный уровень заработной платы, который агент считает для себя приемлемым). Факторы, влияющие на резервный уровень заработной платы (), могут отличаться от факторов, которые влияют на формирование заработных плат на рынке труда, поскольку, например, они могут быть неважны для работодателя, но важны для работника (общий семейный доход, наличие детей и т. д.).
Тогда принятие решение о выходе на рынок труда выглядит как
а уравнение резервной заработной платы:
где – уровень резервной заработной платы, – вектор объясняющих переменных, – вектор коэффициентов при объясняющих переменных, – случайные ошибки.
Поскольку данных о резервных заработных платах нет, исследователь может оценить вероятностную модель того, примет ли агент предложение о работе с помощью моделей бинарного выбора (пробит или логит-регрессии).
Двухшаговая процедура Хекмана оценки коэффициентов
Идея состоит в использовании соотношения:
где – носит название «лямбда Хекмана», а и – функции плотности вероятности и распределения случайной величины.
На основе соотношения строится следующая регрессия, которая может быть оценена методом наименьших квадратов:
Значения не наблюдаются из-за того, что неизвестен вектор коэффициентов модели выбора. Однако он может быть оценён в рамках модели бинарного выбора (пробит или логит-регрессии) уравнения выбора, что является 1-м шагом процедуры Хекмана. Оценённые значения вектора используются вместо на 2-м шаге процедуры при оценке уравнения, приведённого выше. Вместо двухшаговой процедуры можно также произвести оценивание модели Хекмана методом максимального правдоподобия.
Применение
Модель Хекмана применяется в различных сферах, где исследователи сталкиваются с цензурированными выборками. Если говорить об экономике, то зачастую данная модель используется для оценки спроса на медицинские услуги, моделирования заработных плат, оценки стоимости картин, оценки кредитного риска при ипотечном кредитовании и т. д.
При моделировании спроса на медицинские услуги исследователи сталкиваются с неполными (или цензурированными) выборками, т. е. они не наблюдают, например, сколько готовы заплатить агенты, которые не обращаются в медицинские учреждения (в силу того, что они здоровы или чувствуют себя здоровыми, или по иным причинам). В данном случае возникает смещение (selection bias). В частности, модель Хекмана может применяться при моделировании решения о покупке лекарств и о том, сколько средств тратится на лекарства.
В ситуациях, когда в выборке наблюдаются 2 типа агентов – работающие и неработающие, возникает смещение выборки, поскольку принятие решения о выходе на рынок труда зависит от некоторых факторов, которые также влияют и на уровень заработной платы, которая, в свою очередь, также влияет на принятие решения о выходе на рынок труда. При этом принятие решения о выходе на рынок труда и уровень получаемой заработной платы зависят и от других ненаблюдаемых характеристик.
Одним из распространённых способов моделирования цен (или доходностей) на предметы искусства является модель повторных продаж (Repeat-Sales model или Repeat-Sales method), суть которой заключается в расчёте изменения цены продажи одного и того же объекта искусства в течение определённого периода времени. Однако данный метод также подвержен проблеме неслучайного характера выборки. Во-первых, повторные продажи – нечастое событие, поэтому размер выборки довольно мал и не отражает совокупность всех свойств генеральной совокупности. Во-вторых, может также возникать систематическая ошибка отбора (selection bias), когда вторые (повторные) продажи рассматриваются как первые из-за пропущенных данных о первых продажах. Для устранения этой ошибки применяется двухэтапная процедура, разработанная Хекманом. Процедура требует оценки вероятностной пробит-модели, предсказывающей, является ли товар предметом повторной продажи или продаётся впервые. Затем из уравнения пробит-регрессии берётся оценка лямбды Хекмана и включается в качестве независимой переменной в оценку 2-го уравнения с разницей цены повторной и первой продажи в качестве зависимой переменной. Такой подход позволяет получить несмещённые оценки коэффициентов регрессии.
В моделях оценки кредитного риска при ипотечном кредитовании также возникает смещение выборки из-за того, что рассматриваются агенты, которым был одобрен кредит, и не рассматриваются агенты, которым было отказано в кредите. Модель Хекмана позволяет учесть смещение выборки.
Критика
1. Двухэтапная оценка, предложенная Хекманом, представляет собой оценку максимального правдоподобия с ограниченной информацией. В исследовании 2000 г. было отмечено, что в асимптотической теории и на конечных выборках, как показано моделированием Монте-Карло, оценка с полной информацией (FIML) демонстрирует лучшие статистические свойства. Однако оценка FIML более сложна в вычислительном плане для реализации.
2. Каноническая модель Хекмана предполагает, что ошибки двух уравнений имеют совместное нормальное распределение. В работе «Abnormal selection bias» (Goldberg, 1983) было отмечено, что, если это предположение не соответствует действительности, оценки уравнений модели, как правило, оказываются смещёнными, что́ приводит к некорректным выводам на небольших выборках. Для случаев, когда предположение о совместном нормальном распределении ошибок двух уравнений не выполняется, было предложено использовать полупараметрические методы.
3. Как правило, для получения достоверных оценок требуется ограничение на исключение: должна быть по крайней мере одна переменная, которая присутствует с ненулевым коэффициентом в уравнении выбора и отсутствует в уравнении результата (в примере с заработной платой такой переменной может быть количество детей в семье, которое влияет на вероятность выхода на рынок труда, но не влияет на величину заработной платы). На практике критика состоит в том, что такую объясняющую переменную сложно найти.