Квантильная регрессия
Кванти́льная регре́ссия (англ. quantile regression), метод регрессионного анализа, используемый в математической статистике и эконометрике для исследования зависимости между переменными. Квантильная регрессия является расширением классической линейной регрессии, в которой методом наименьших квадратов оценивается условное математическое ожидание зависимой переменной при известных (фиксированных) значениях объясняющих переменных. В отличие от классической линейной регрессии с помощью квантильной регрессии оцениваются параметры линейной связи между независимыми переменными и определённым уровнем квантиля (в том числе медианы, которая является 50%-ным квантилем) зависимой переменной, что позволяет измерить влияние переменных не только в центре, но и на хвостах распределения интересующего показателя.
Преимуществом оценок коэффициентов квантильной регрессии по сравнению с классической линейной регрессией является их бо́льшая устойчивость к «выбросам» (аномальным значениям) в статистических данных. Квантильная регрессия позволяет учесть разную функциональную форму зависимости между переменными для разных квантилей объясняющей переменной.
История метода
Идея оценки медианного наклона прямой, теорема о минимизации суммы абсолютных отклонений и геометрический алгоритм построения медианной оценки углового коэффициента были предложены в 1760 г. Р. И. Бошковичем. Он занимался решением вопроса: как провести прямую по наблюдаемым данным таким образом, чтобы сумма абсолютных остатков (модулей разности предсказанных и фактических значений) была минимальной. Фактически эта задача построения линии медианной регрессии; найти наклон (линию) медианной регрессии – это то же самое, что оценить параметры в уравнении медианной регрессии. Бошкович интересовался эллиптичностью (сплюснутостью) Земли, основываясь на предположении И. Ньютона о том, что вращение Земли может вызвать экваториальное вздутие с соответствующим уплощением на полюсах. Бошкович создал первую геометрическую процедуру для определения экватора вращающейся планеты по трём наблюдениям поверхностного элемента. Что более важно в контексте разработки метода квантильной регрессии, Бошкович первым сформулировал наименьший абсолютный критерий (используемый для нахождения оценок частного случая квантильной регрессии – медианной регрессии) и создал предпосылки для разработки метода наименьших квадратов, предложенного спустя полвека французским математиком А.-М. Лежандром в 1805–1806 гг.
Другие учёные продолжили развивать идею Бошковича, к примеру П.-С. Лаплас, разработавший т. н. метод ситуации: в 1799 г. он охарактеризовал решение двумерной вычислительной задачи как взвешенную медиану. Термин «взвешенная медиана» тем не менее принадлежит экономисту Ф. И. Эджуорту. Он также развивал идеи Бошковича и Лапласа и предложил геометрический подход к оценке медианной регрессии.
Работы Бошковича, Лапласа и Эджуорта были использованы американским эконометристом Р. Кенкером (род. 1947) при разработке квантильной регрессии. Именно он в соавторстве с Г. Бассеттом в 1978 г. в статье «Регрессионные квантили» первым формализовал квантильную регрессию (Koenker. 1978). В дальнейшем Кенкер дал детальное теоретическое описание и обсуждение метода в своей книге «Квантильная регрессия» (Koenker. 2005).
Следует отметить, что несмотря на зарождающийся интерес к квантильной регрессии с конца 18 в., метод не был популярен среди статистиков, отдававших предпочтение менее вычислительно затратному методу наименьших квадратов, вплоть до широкого распространения компьютеров во второй половине 20 в.
Описание метода
Квантильная регрессия выражает условные квантили зависимой переменной как линейные функции независимых (объясняющих) переменных. Квантиль зависимой переменной () при условии вектора объясняющих переменных () определяется следующим соотношением:
.
Для нахождения оценок квантильной регрессии минимизируется взвешенная (асимметричная) сумма модулей ошибок прогнозов определённого квантиля. В случае медианной регрессии минимизируется сумма абсолютных отклонений.
Оценки коэффициентов в медианной регрессии вычисляются по формуле:
где – функция потерь следующего вида:
где I – индикаторная функция.
Примеры применения метода
Квантильная регрессия нашла применение в задачах экономики рынка труда. В частности, квантильные регрессии используются при исследовании факторов, влияющих на уровень заработной платы работника на разных участках распределения заработных плат. Применение квантильных регрессий в таком вопросе позволяет проверить наличие различий в процессах формирования заработных плат низкоквалифицированных (получающих низкую заработную плату) и высококвалифицированных (получающих высокую заработную плату) работников.
Квантильные регрессии также применялись для оценки отдачи от образования на разных уровнях оплаты труда. Экономисты пытались понять, какой вклад вносит образование на разных уровнях заработной платы (низкой, средней, высокой). Авторы получили устойчивый результат, что отдача от обучения выше у более квалифицированных рабочих, т. е. у тех, кто получает высокую заработную плату.
Также квантильная регрессия используется в исследованиях, посвящённых оцениванию стоимости недвижимости, например оценки влияния различных характеристик на разные квантили цен жилья. Эмпирические результаты показывают, что вкусы и предпочтения покупателей жилья сильно различаются в разных ценовых диапазонах стоимости недвижимости.
Квантильные регрессии также применяются для оценки влияния факторов на стоимость жилья с учётом различий в его ценовых категориях. Для оценки квантиля порядка стоимости жилья авторы используют следующее уравнение:
где – квантиль порядка стоимости i-ой квартиры, – объясняющие переменные первой группы (внутренние характеристики жилья), – объясняющие переменные второй группы (позиция района в рейтинге), – объясняющие переменные третьей группы (рейтинг лучшей из доступности школ), – вектора оценок коэффициентов при объясняющих переменных группы n, – случайная ошибка регрессии, – свободный член регрессии. Полученные результаты подтверждают тезис о том, что одни и те же параметры по-разному сказываются на стоимости недорогих и очень дорогих квартир.
Рис. 1. Квантильные регрессии для разных наборов данных для квантилей 5, 25, 50, 75 и 95%.