Коэффициент Байеса
Коэффицие́нт Ба́йеса — байесовская альтернатива проверке статистических гипотез[1][2]. Байесовское сравнение моделей — метод выбора моделей на основе коэффициентов Байеса. Обсуждаемые модели являются статистическими моделями[3]. Целью коэффициента Байеса является количественное выражение поддержки модели по сравнению с другой моделью, независимо от того, верны модели или нет[4]. Техническое определение понятия «поддержка» в контексте байесовского вывода дано ниже.
Определение
Коэффициент Байеса является отношением правдоподобия для предельного правдоподобия двух гипотез, обычно нулевой гипотезы и альтернативной[5].
Апостериорная вероятность модели M, задаваемой данными D, определяется теоремой Байеса:
Ключевой зависящий от данных член является правдоподобием модели M с учётом данных D и он представляет вероятность того, что некоторые данные получены в предположении принятия модели M. Правильное вычисление этого члена является ключом байесовского сравнения моделей.
Если дана задача выбора модели, в которой мы должны выбрать между двумя моделями на основе наблюдаемых данных D, относительная правдоподобность двух различных моделей M1 и M2, параметризованных векторами параметров и , определяется коэффициентом Байеса K, определяемым как
Если две модели априори одинаково вероятны, так что коэффициент Байеса равен отношению апостериорных вероятностей моделей M1 и M2. Если вместо интеграла коэффициента Байеса используется правдоподобие, соответствующее максимальной оценке правдоподобия параметра для каждой статистической модели, то тест становится классическим тестом отношения правдоподобия. В отличие от теста отношения правдоподобия, байесовское сравнение моделей не зависит от какого-либо конкретного набора параметров, так как оно вычисляется в результате интегрирования по всем параметрам в каждой модели (с учётом априорных вероятностей). Однако преимущество использования коэффициентов Байеса заключается в том, что они автоматически и вполне естественным образом включают штраф за избыточное включение структуры модели[6]. Это ограждает от переобучения. В случае моделей, у которых явный вид функции правдоподобия неизвестен или её вычисление слишком затратно, для байесовского выбора модели могут быть использованы приближённые байесовские вычисления [7], хотя следует принять во внимание, что приближённая байесовская оценка коэффициентов Байеса часто смещена[8].
Другие подходы:
- трактовать модель сравнения как задачу принятия решений, вычисляя ожидаемое значение или цену каждого выбора модели;
- использовать принцип сообщений минимальной длины (англ. minimum message length, MML).
Интерпретация
Значение K > 1 означает, что гипотеза M1 сильнее поддерживается данными, чем гипотеза M2. Заметим, что классическая проверка статистических гипотез принимает по умолчанию одну гипотезу (или модель) («нулевая гипотеза»), и рассматривает только свидетельства против неё. Гарольд Джеффрис приводит таблицу для интерпретации полученного значения K[9]:
K | dHart | битов | Весомость доказательств |
---|---|---|---|
< 100 | 0 | — | Отрицательная (поддерживает M2) |
100...101/2 | 0...5 | 0...1,6 | Едва заслуживает внимания |
101/2...101 | 5...10 | 1,6...3,3 | Значительная |
101...103/2 | 10...15 | 3,3...5,0 | Сильная |
103/2...102 | 15...20 | 5,0...6,6 | Очень сильная |
> 102 | > 20 | > 6,6 | Убедительная |
Второй столбец даёт соответствующие веса поддержки в единицах децихартли (известных также как децибаны), биты добавлены в третьем столбце для ясности. Согласно И. Дж. Гуду, люди в повседневной жизни едва могут разумно оценить разницу в степени доверия гипотезе, соответствующую изменению веса на 1 децибан или 1/3 бита (например, отношение исходов 4:5 в 9 испытаниях с двумя возможными исходами)[10].
Альтернативную широко цитируемую таблицу предложили Касс и Рафтери (1995)[6]:
log10K | K | Весомость доказательств |
---|---|---|
от 0 до 1⁄2 | от 1 до 3,2 | Достойна лишь простого упоминания |
от 1⁄2 до 1 | от 3,2 до 10 | Положительная |
от 1 до 2 | от 10 до 100 | Сильная |
> 2 | > 100 | Очень сильная |
Использование коэффициентов Байеса или классической проверки статистических гипотез происходит в контексте вывода, а не принятия решений в условиях неопределённости. То есть мы только хотим найти, какая гипотеза верна, а не принимаем действительное решение на основе этой информации. Частотная статистика делает строгое различие между этими двумя подходами, поскольку классические методы проверки гипотез не когерентны в байесовском смысле. Байесовские процедуры, включая коэффициенты Байеса, когерентны, так что нет необходимости делать это различие. Вывод тогда просто рассматривается как частный случай принятия решения в условиях неопределённости, в котором конечным действием является возврат значения. Для принятия решений статистики, использующие байесовский подход, могут использовать коэффициент Байеса вместе с априорным распределением и функцией потерь. В контексте вывода функция потерь примет вид правила подсчёта результата. Использование логарифмического правила подсчёта, например, приводит к ожидаемой полезности, принимающей форму расхождение Кульбака — Лейблера.
Пример
Предположим, что у нас есть случайная величина, которая принимает значение либо успех, либо неудача. Мы хотим сравнить модель M1, где вероятность успеха равна q = ½, и другую модель M2, в которой значение q неизвестно, и мы принимаем в качестве априорного распределения для q однородное распределение на [0,1]. Мы делаем 200 испытаний и получаем 115 успехов и 85 неудач. Правдоподобие может быть вычислено согласно биномиальному распределению:
Тогда мы имеем для гипотезы M1
тогда как для M2
Отношение этих величин составляет 1,197…, следовательно, различие «едва заслуживает внимания», хотя выбор склоняется слегка в сторону M1.
Проверка этих статистических гипотез на основе частотного вывода M1 (рассматривается здесь как нулевая гипотеза) даст совершенно другой результат. Такая проверка утверждает, что гипотеза M1 должна быть отброшена на уровне значимости 5 %, поскольку вероятность получения 115 или более успехов из выборки в 200 элементов при q = ½ равна 0,0200, а двухсторонний критерий получения экстремума в 115 или более даёт 0,0400. Заметим, что 115 отличается от 100 более чем на два стандартных отклонения. Таким образом, в то время как проверка статистической гипотезы на основе частотного вывода даёт статистическую значимость на уровне 5 %, коэффициент Байеса вряд ли примет это как экстремальный результат. Заметим, однако, что неоднородное априорное распределение (например, такое, которое отражает ожидание, что числа успешных и неуспешных исходов будут одного порядка величины) может привести к коэффициенту Байеса, который больше согласуется с проверкой на основе частотного вывода.
В классическом тесте отношения правдоподобия была бы найдена оценка максимального правдоподобия для q, равная 115⁄200 = 0,575, откуда
(вместо усреднения по всем возможным q). Это даёт отношение правдоподобия 0,1045 и указывает на гипотезу M2.
M2 является более сложной моделью, чем M1, поскольку имеет свободный параметр, который позволяет описывать данные более согласованно. Способность коэффициентов Байеса учитывать это является причиной, почему байесовский вывод выдвигается как теоретическое обоснование и обобщение бритвы Оккама, в котором уменьшаются ошибки первого рода[11].
С другой стороны, современный метод относительного правдоподобия принимает во внимание число свободных параметров моделей, в отличие от классического отношения правдоподобия. Метод относительного правдоподобия можно применить следующим образом. Модель M1 имеет 0 параметров, а потому её значение информационного критерия Акаике (AIC) равно 2 · 0 − 2 ln 0,005956 ≈ 10,2467. Модель M2 имеет 1 параметр, а потому её значение AIC равно 2 · 1 − 2 ln 0,056991 ≈ 7,7297. Следовательно, M1 с меньшей вероятностью минимизирует потерю информации, чем M2, примерно в exp((7,7297 − 10,2467)/2) ≈ 0,284 раза. Таким образом, M2 слегка предпочтительнее, но M1 отбрасывать нельзя.
Приложение
- Коэффициент Байеса был применён для упорядочения динамической экспрессии генов вместо q-значения[12].
См. также
- Информационный критерий Акаике
- Приближенные байесовские вычисления
- Байесовский информационный критерий
- Информационный критерий суммы квадратов отклонений от среднего
- Парадокс Линдли
- Сообщение минимальной длины
- Выбор модели
- Статистические показатели
Примечания
- Goodman (1), 1999, с. 995–1004.
- Goodman (2), 1999, с. 1005–13.
- Morey, Romeijn, Rouder, 2016, с. 6–18.
- Ly, Verhagen, Wagenmakers, 2016, с. 19–32.
- Good, Hardin, 2012, с. 129—131.
- Kass, Raftery, 1995, с. 791.
- Toni, Stumpf, 2009, с. 104–10.
- Robert, Cornuet, Marin, Pillai, 2011, с. 15112–15117.
- Jeffreys, 1961, с. 432.
- Good, 1979, с. 393—396.
- Sharpening Ockham’s Razor On a Bayesian Strop
- Hajiramezanali, Dadaneh, Figueiredo, Sze, Zhou, Qian, 2018.
Литература
- Toward evidence-based medical statistics. 1: The P value fallacy // Ann Intern Med. — 1999. — Т. 130, вып. 12. — doi:10.7326/0003-4819-130-12-199906150-00008. — PMID 10383371.
- Toward evidence-based medical statistics. 2: The Bayes factor // Ann Intern Med. — 1999. — Т. 130, вып. 12. — С. 1005–13. — doi:10.7326/0003-4819-130-12-199906150-00019. — PMID 10383350.
- Richard D. Morey, Jan-Willem Romeijn, Jeffrey N. Rouder. The philosophy of Bayes factors and the quantification of statistical evidence // Journal of Mathematical Psychology. — 2016. — Т. 72. — doi:10.1016/j.jmp.2015.11.001.
- Alexander Ly, Josine Verhagen, Eric-Jan Wagenmakers. Harold Jeffreys’s default Bayes factor hypothesis tests: Explanation, extension, and application in psychology // Journal of Mathematical Psychology. — 2016. — Т. 72. — С. 19–32. — doi:10.1016/j.jmp.2015.06.004.
- Robert E. Kass, Adrian E. Raftery. Bayes Factors // Journal of the American Statistical Association. — 1995. — Т. 90, № 430. — doi:10.2307/2291091.
- Toni T., Stumpf M.P.H. Simulation-based model selection for dynamical systems in systems and population biology // Bioinformatics. — 2009. — Т. 26, вып. 1. — doi:10.1093/bioinformatics/btp619. — arXiv:0911.1705. — PMID 19880371.
- Robert C.P., Cornuet J., Marin J., Pillai N.S. Lack of confidence in approximate Bayesian computation model choice // Proceedings of the National Academy of Sciences. — 2011. — Т. 108, вып. 37. — doi:10.1073/pnas.1102900108. — . — PMID 21876135.
- Jeffreys H. The Theory of Probability. — 3rd. — Oxford, 1961.
- Good I.J. Studies in the History of Probability and Statistics. XXXVII A. M. Turing's statistical work in World War II // Biometrika. — 1979. — Т. 66, вып. 2. — doi:10.1093/biomet/66.2.393.
- Hajiramezanali E., Dadaneh S. Z., Figueiredo P. d., Sze S., Zhou Z., Qian X. Differential Expression Analysis of Dynamical Sequencing Count Data with a Gamma Markov Chain. — 2018.
- Phillip Good, James Hardin. Common errors in statistics (and how to avoid them). — 4th. — Hoboken, New Jersey: John Wiley & Sons, Inc., 2012. — ISBN 978-1118294390.
- Bernardo J., Smith A. F. M. Bayesian Theory. — John Wiley, 1994. — ISBN 0-471-92416-4.
- Denison D. G. T., Holmes C. C., Mallick B. K., Smith A. F. M. Bayesian Methods for Nonlinear Classification and Regression. — John Wiley, 2002. — ISBN 0-471-49036-9.
- Richard O. Duda, Peter E. Hart, David G. Stork. Section 9.6.5 // Pattern classification. — 2nd. — Wiley, 2000. — С. 487–489. — ISBN 0-471-05669-3.
- Gelman A., Carlin J., Stern H., Rubin D. Bayesian Data Analysis. — London: Chapman & Hall, 1995. — ISBN 0-412-03991-5.
- Jaynes E. T. chapter 24: MODEL COMPARISON AND ROBUSTNESS // Probability Theory: the logic of science. — 1994.
- Lee P. M. Bayesian Statistics: an introduction. — Wiley, 2012. — ISBN 9781118332573.
- Robert Winkler. Introduction to Bayesian Inference and Decision. — 2nd. — Probabilistic, 2003. — ISBN 0-9647938-4-9.
Ссылка
- BayesFactor —an R package for computing Bayes factors in common research designs
- Bayes Factor Calculators —web-based version of much of the BayesFactor package