Модель бинарного выбора
Модель бинарного выбора — применяемая в эконометрике модель зависимости бинарной переменной (принимающей всего два значения — 0 и 1) от совокупности факторов. Построение обычной линейной модели для таких зависимых переменных теоретически некорректно, так как условное математическое ожидание таких переменных равно вероятности того, что зависимая переменная примет значение 1, а линейная модель допускает с том числе отрицательные значения и значения выше 1 (притом что вероятность должна быть от 0 до 1). Поэтому обычно используются некоторые интегральные функции распределения. Чаще всего используются нормальное распределение (пробит), логистическое распределение (логит) , распределение Гомперца (гомпит).
Сущность модели
Пусть переменная является бинарной, то есть может принимать только два значения, которые для упрощения предполагаются равными и . Например, может означать наличие/отсутствие каких либо условий, успех или провал чего-либо, ответ да/нет в опросе и т. д. Пусть также имеется вектор регрессоров (факторов) , которые оказывают влияние на .
Регрессионная модель имеет дело с условным по факторам математическим ожиданием зависимой переменной, которое в данном случае равно вероятности того, что зависимая переменная равна 1. В самом деле, по определению математического ожидания и с учетом всего двух возможных значений имеем:
В связи с этим применение, например, стандартной модели линейной регрессии теоретически некорректно хотя бы потому, что вероятность по определению принимает ограниченные значения от 0 до 1. В связи с этим разумно моделировать через интегральные функции тех или иных распределений.
Обычно предполагается, что имеется некая скрытая (не наблюдаемая) "обычная" переменная , в зависимости от значений которой наблюдаемая переменная принимает значение 0 или единица:
Предполагается, что скрытая переменная зависит от факторов в смысле обычной линейной регрессии , где случайная ошибка имеет распределение . Тогда
Если распределение симметричное, то можно записать
Экономическая интерпретация
Ещё одно обоснование заключается в использовании понятия полезности альтернатив — не наблюдаемой функции , то есть фактически двух функций и соответственно для двух альтернатив. Логично предположить, что если при заданных значениях факторов полезность одной альтернативы больше полезности другой, то выбирается первая и наоборот. В связи с этим разумно рассмотреть функцию разности полезностей альтернатив . Если она больше нуля, то выбирается первая альтернатива, если меньше или равна нулю — то вторая. Таким образом, функция разности полезностей альтернатив здесь выполняет роль той самой скрытой переменной. Наличие случайной ошибки в моделях полезностей позволяет учесть не абсолютную детерминированность выбора (по крайней мере не детерминированность данным набором факторов, хотя элемент случайности выбора есть при любом наборе факторов).
Модели по видам распределений
Пробит. В пробит-модели в качестве используется интегральная функция стандартного нормального распределения :
Логит. В логит-модели используется CDF логистического распределения:
Гомпит. Используется распределение экстремальных значений - распределение Гомперца:
Оценка параметров
Оценка обычно производится методом максимального правдоподобия. Пусть имеется выборка объёма факторов и зависимой переменной . Для данного номера наблюдения используем индекс . Вероятность получения в наблюдении значения можно смоделировать следующим образом:
В самом деле, если , то второй множитель очевидно равен 1, а первый как раз , если же , то первый множитель равен единице, а второй — . Предполагается, что данные независимы. Поэтому функцию правдоподобия можно получить как произведение вышеуказанных вероятностей:
Соответственно логарифмическая функция правдоподобия имеет вид:
Максимизация данной функции по неизвестным параметрам позволяет получить состоятельные, асимптотически эффективные и асимптотически нормальные оценки параметров. Последнее означает, что:
где — асимптотическая ковариационная матрица оценок параметров, которая определяется стандартным для метода максимального правдоподобия способом (через гессиан или градиент логарифмической функции правдоподобия в оптимальной точке).
Показатели качества и тестирование модели
- Статистика отношения правдоподобия
- ,
где — значения логарифмической функции правдоподобия оцененной модели и ограниченной модели, в которой является константой (не зависит от факторов x, исключая константу из множества факторов).
Данная статистика, как и в общем случае использования метода максимального правдоподобия, позволяет тестировать статистическую значимость модели в целом. Если её значение достаточно большое (больше критического значения распределения , где -количество факторов (без константы) модели), то модель можно признать статистически значимой.
Также используются аналоги классического коэффициента детерминации, например:
- Псевдо-коэффициент детерминации:
- Коэффициент детерминации МакФаддена (индекс отношения правдоподобия):
Оба показателя меняются в пределах от 0 до 1.
- Информационные критерии: информационный критерий Акаике (AIC), байесовский информационный критерий Шварца (BIC, SC), критерий Хеннана-Куина (HQ).
Важное значение имеет анализ доли правильных прогнозов в зависимости от выбранного порога классификации (с какого уровня вероятности принимается значение 1). Обычно применяется ROC-кривая для оценки качества модели и показатель AUC - площадь под ROC-кривой.
- Статистика Хосмера-Лемешоу (H-L, HL, Hosmer-Lemeshow). Для расчета данной статистики выборка разбивается на несколько подвыборок, по каждой из которых определяются — фактическая доля данных со значением зависимой переменной 1, то есть фактически среднее значение зависимой переменной по подвыборке
- и предсказанная средняя вероятность по подруппе
- .
- Тогда значение статистики HL определяется по формуле
Точное распределение данной статистики неизвестно, однако авторы методом симуляций установили, что оно аппроксимируется распределением .
- Статистика Эндрюса (Andrews)
См. также
Литература
- Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2007. — 504 с. — ISBN 978-5-7749-0473-0..
- Greene, William H. (1997) Econometric Analysis, 3rd edition, Prentice-Hall.
- Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Theory,” Econometrica, 56, 1419–1453.
- Andrews, Donald W.K. (1988) “Chi-Square Diagnostic Tests for Econometric Models: Introduction and Applications,” Journal of Econometrics, 37, 135–156.
- Hosmer, David W. Jr. and Stanley Lemeshow (1989) Applied Logistic Regression, John Wiley & Sons.