Байесовское иерархическое моделирование

Байесовское иерархическое моделирование — это статистическая модель, записанная в виде нескольких уровней (в иерархическом виде), которая оценивает параметры апостериорного распределения используя байесовский метод[1]. Подмодели комбинируются в иерархическую модель и используется теорема Байеса для объединения их с наблюдаемыми данными и учёта всех присутствующих неопределённостей. Результатом этого объединения является апостериорное распределение, известное также как уточнённая оценка вероятности после того, как получены дополнительные сведения об априорной вероятности.

Введение

Частотная статистика, наиболее популярное основание статистики, может дать заключение по внешнему виду несовместимое с заключением, которое даёт байесовская статистика, поскольку байесовский подход трактует параметры как случайные величины и использует субъективную информацию для установления допущений на эти параметры[2]. Так как подходы отвечают на разные вопросы, формальные результаты технически не являются противоречивыми, но два подхода расходятся во мнении, какой ответ относится к конкретным приложениям. Приверженцы байесовского подхода утверждают, что относящаяся к принятию решения информация и обновление уверенностей нельзя игнорировать и что иерархическое моделирование имеет потенциал взять верх над классическими методами в приложениях, где респондент даёт несколько вариантов данных наблюдений. Более того доказано, что модель робастна с меньшей чувствительностью апостериорного распределения к изменчивым иерархическим априорным данным.

Иерархическое моделирование используется, когда информация доступна в нескольких различных уровнях наблюдаемых величин. Иерархический вид анализа и представления помогают в понимании многопараметрических задач и играют важную роль в разработке вычислительных стратегий[3].

Философия

Многочисленные статистические приложения используют несколько параметров, которые можно считать как зависимые или связанные таким образом, что задача предполагает зависимость модели совместной вероятности этих параметров[4].

Индивидуальные степени уверенности, выраженные в форме вероятностей, имеют свою неопределённость[5]. Кроме того, возможны изменения степени уверенности со времени. Как утверждали профессор Жозе М. Бернардо и профессор Адриан Ф. Смит, «Актуальность процесса обучения состоит в эволюции индивидуальной и субъективной уверенности о реальности». Эти субъективные вероятности привлекаются в разум более непосредственно, чем физические вероятности[6]. Следовательно, это требует обновления уверенности, и сторонники байесовского подхода сформулировали альтернативную статистическую модель, которая принимает во внимание априорные случаи конкретного события[7].

Теорема Байеса

Предполагаемое получение реального события обычно изменяет предпочтения между определёнными вариантами. Это делается путём изменения степени доверия к событиям, определяющим варианты[8].

Предположим, что при изучении эффективности сердечной терапии пациентов в госпитале j, имеющих вероятность выживания $\theta _{j}$ , вероятность выживания обновляется при событии y, заключающемся в создании гипотетической сомнительной сыворотки, которая, как думают некоторые, увеличивает выживание больных с сердечными проблемами.

Чтобы сделать обновлённые утверждения о вероятности $\theta _{j}$ , задающее возникновение события y, мы должны начать с модели, обеспечивающей совместное распределение вероятностей для $\theta _{j}$ и y. Это может быть записано как произведение двух распределений, которые часто упоминаются как априорная вероятность $P(\theta )$ и выборочное распределение $P(y\mid \theta )$ соответственно:

P(\theta ,y)=P(\theta )P(y\mid \theta )

Если использовать основное свойство условной вероятности, апостериорное распределение даст:

P(\theta \mid y)={\frac {P(\theta ,y)}{P(y)}}={\frac {P(y\mid \theta )P(\theta )}{P(y)}}

Равенство, показывающее связь между условной вероятностью и индивидуальными событиями, известно как теорема Байеса. Это простое выражение воплощает техническое ядро байесовского вывода, которое нацелено на включение обновлённого доверия $P(\theta \mid y)$ в уместном и разрешимом виде[8].

Перестановочность

Обычной стартовой точкой статистического анализа является предположение, что n значений $y_{n}$ перестановочны. Если никакой информации, отличной от данных y, недоступно для различения любого $\theta _{j}$ от любого другого и никакого упорядочения или группировки параметров нельзя сделать, следует предполагать симметрию параметров относительно их априорной вероятности[9]. Эта симметрия представлена вероятностной перестановочностью. Обычно полезно и приемлемо моделировать данные из перестановочного распределения как независимые и одинаково распределённые, если дан некоторый неизвестный вектор параметров $\theta$ с распределением $P(\theta )$ .

Конечная перестановочность

Для фиксированного числа n набор $y_{1},y_{2},\ldots ,y_{n}$ перестановочен, если совместное распределение $P(y_{1},y_{2},\ldots ,y_{n})$ инвариантно относительно перестановок индексов. То есть, для любой перестановки $\pi$ or $(\pi _{1},\pi _{2},\ldots ,\pi _{n})$ индексов (1, 2, …, n), $P(y_{1},y_{2},\ldots ,y_{n})=P(y_{\pi _{1}},y_{\pi _{2}},\ldots ,y_{\pi _{n}}).$ [10]

Ниже приведён пример перестановочной, но не независимой и одинаково распределённой последовательности: Рассмотрим урну с красными и синими шарами с вероятностями вытаскивания ${\frac {1}{2}}$ шаров. Шары вытаскиваются без возврата в урну, то есть, после вытаскивания одного из n шаров в урне остаётся n − 1 шаров для следующего вытаскивания.

Пусть $Y_{i}={\begin{cases}1,\\0,\end{cases}}$	если $i$ -й шар красный
	иначе.

Поскольку вероятность вытаскивания красного шара при первом вытаскивании и синего шара при втором вытаскивании равна вероятности вытаскивания синего шара при первом вытаскивании и красного при втором, которые обе равны 1/2 (то есть $[P(y_{1}=1,y_{2}=0)=P(y_{1}=0,y_{2}=1)={\frac {1}{2}}]$ ), то $y_{1}$ и $y_{2}$ перестановочны.

Однако вероятность выбора красного шара при втором вытаскивании уже не будет равна 1/2. Таким образом, $y_{1}$ и $y_{2}$ не независимы.

Если $x_{1},\ldots ,x_{n}$ независимы и одинаково распределены, то они перестановочны, но обратное не обязательно верно[11].

Бесконечная перестановочность

Бесконечная перестановочность — это такое свойство, что любое конечное подмножество бесконечной последовательности $y_{1}$ , $y_{2},\ldots$ перестановочно. То есть, для любого n последовательность $y_{1},y_{2},\ldots ,y_{n}$ перестановочна[11].

Иерархические модели

Составляющие

Байесовское иерархическое моделирование использует две важные концепции для получения апостериорного распределениея[1], а именно:

Гиперпараметр: параметры априорного распределения
Гиперприорные распределения: распределения гиперпараметров

Предположим, что случайная величина Y имеет нормальное распределение с параметром θ как среднее и параметром 1 в качестве дисперсии, то есть $Y\mid \theta \sim N(\theta ,1)$ . Предположим, что параметр $\theta$ имеет распределение, задаваемое нормальным распределением со средним $\mu$ и дисперсией 1, то есть $\theta \mid \mu \sim N(\mu ,1)$ . Кроме того, $\mu$ является другим распределением, заданным, например, стандартным нормальным распределением ${\text{N}}(0,1)$ . Параметр $\mu$ называется гиперпараметром, в то время как его распределение, заданное как ${\text{N}}(0,1)$ , является примером гиперприорного распределения. Обозначение для Y изменяется с добавлением другого параметра, то есть $Y\mid \theta ,\mu \sim N(\theta ,1)$ . Если имеется другой уровень, скажем, $\mu$ является другим нормальным распределением со средним $\beta$ и дисперсией $\epsilon$ , что означает $\mu \sim N(\beta ,\epsilon )$ , то ${\mbox{ }}$ $\beta$ и $\epsilon$ могут также быть названы гиперпараметрами, а их распределения являются гиперприорными распределениями[4].

Система

Пусть $y_{j}$ будут наблюдениями и $\theta _{j}$ будет параметром, который управляет процессом генерации $y_{j}$ . Предположим далее, что параметры $\theta _{1},\theta _{2},\ldots ,\theta _{j}$ порождаются перестановочными из основной популяции с распределением, управляемым гиперпараметром $\phi$ .

Байесовская иерархическая модель содержит следующие уровни:

Уровень I:

y_{j}\mid \theta _{j},\phi \sim P(y_{j}\mid \theta _{j},\phi )

Уровень II:

\theta _{j}\mid \phi \sim P(\theta _{j}\mid \phi )

Уровень III:

\phi \sim P(\phi )

Правдоподобие, как видно из уровня I, равно $P(y_{j}\mid \theta _{j},\phi )$ , c $P(\theta _{j},\phi )$ в качестве его априорного распределения. Заметим, что правдоподобие зависит только от $\phi$ через $\theta _{j}$ .

Априорное распределение из уровня I может быть разбито на:

P(\theta _{j},\phi )=P(\theta _{j}\mid \phi )P(\phi )

[из определения условной вероятности]

где $\phi$ является гиперпараметром с гиперприорным распределением $P(\phi )$ .

Тогда апостериорное распределение пропорционально этой величине:

P(\phi ,\theta _{j}\mid y)\propto P(y_{j}\mid \theta _{j},\phi )P(\theta _{j},\phi )

[используя теорему Байеса]

P(\phi ,\theta _{j}\mid y)\propto P(y_{j}\mid \theta _{j})P(\theta _{j}\mid \phi )P(\phi )

[12]

Пример

Для иллюстрации рассмотрим пример: Учитель хочет оценить, насколько хорошо студент выполнил свой SAT тест (англ. Scholastic Assessment Test[13]). Он использует информацию о студенте в старших классах и его текущем среднем балле оценок (англ. grade point average, GPA), чтобы получить оценку. Текущая GPA, обозначим её $Y$ , имеет правдоподобие, задаваемое некоторой функцией вероятности с параметром $\theta$ , то есть $Y\mid \theta \sim P(Y\mid \theta )$ . Этот параметр $\theta$ является баллом SAT студента. Балл SAT рассматривается как элемент выборки, полученный из общей выборки, полученной из распределения общей популяции, индексированной другим параметром $\phi$ , которая является баллом студента в старших классах школы[14]. То есть, $\theta \mid \phi \sim P(\theta \mid \phi )$ . Более того, гиперпараметр $\phi$ имеет своё собственное распределение с функцией $P(\phi )$ , которое называется гиперприорным распределением.

Чтобы получить балл SAT по информации о GPA,

P(\theta ,\phi \mid Y)\propto P(Y\mid \theta ,\phi )P(\theta ,\phi )

P(\theta ,\phi \mid Y)\propto P(Y\mid \theta )P(\theta \mid \phi )P(\phi )

Вся информация в задаче будет использована для получения апостериорного распределения. Вместо решения с использованием только априорной вероятности и функции правдоподобия, использование гиперприорных распределений даёт больше информации, что приводит к большей уверенности в поведении параметра[15].

Двухуровневая иерархическая модель

В общем случае интересующее нас совместное апостериорное распределение 2-уровневых иерархических моделей равно:

P(\theta ,\phi \mid Y)={P(Y\mid \theta ,\phi )P(\theta ,\phi ) \over P(Y)}={P(Y\mid \theta )P(\theta \mid \phi )P(\phi ) \over P(Y)}

P(\theta ,\phi \mid Y)\propto P(Y\mid \theta )P(\theta \mid \phi )P(\phi )

[15]

Трёхуровневая иерархическая модель

Для 3-уровневых иерархических моделей апостериорное распределение задаётся так:

P(\theta ,\phi ,X\mid Y)={P(Y\mid \theta )P(\theta \mid \phi )P(\phi \mid X)P(X) \over P(Y)}

P(\theta ,\phi ,X\mid Y)\propto P(Y\mid \theta )P(\theta \mid \phi )P(\phi \mid X)P(X)

[15]

Примечания

Allenby, Rossi, McCulloch, 2005, с. 3.
Gelman, Carlin, Stern, Rubin, 2004, с. 4–5.
Gelman, Carlin, Stern, Rubin, 2004, с. 6.
Gelman, Carlin, Stern, Rubin, 2004, с. 117.
Good, 1980, с. 480.
Good, 1980, с. 489—490.
Bernardo, Smith, 1994, с. 23.
Gelman, Carlin, Stern, Rubin, 2004, с. 6—8.
Dickey, Chen, 1983, с. 167–168.
Gelman, Carlin, Stern, Rubin, 2004, с. 121—125.
Diaconis, Freedman, 1980, с. 745–747.
Kadane, Wasilkowski, 1983, с. 371–372.
«Академический оценочный тест» — стандартизованный тест для приёма в высшие учебные заведения США
Gelman, Carlin, Stern, Rubin, 2004, с. 120—121.
Box, Tiao, 1965.

Литература

Greg M. Allenby, Peter E. Rossi, Robert E. McCulloch. Hierarchical Bayes Model: A Practitioner’s Guide. — 2005. — Январь.
Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin. Bayesian Data Analysis. — 2nd. — Boca Raton, Florida: CRC Press, 2004. — ISBN 1-58488-388-X.
Good I.J. Some history of the hierarchical Bayesian methodology // Trabajos de Estadistica Y de Investigacion Operativa. — Springer – Verlag, 1980. — Февраль (т. 31, вып. 1).
Jose M. Bernardo, Adrian F.M. Smith. Bayesian Theory. — Chichester, England: John Wiley & Sons, 1994. — (Willey series in probability and statistics). — ISBN 0-471-92416-4.
Diaconis P., Freedman D. Finite exchangeable sequences // Annals of Probability. — 1980.
Greg M. Allenby, Peter E. Rossi. Bayesian Applications in Marketing // SSRN Electronic Journal. — 2009.
Box G. E. P., Tiao G. C. Multiparameter problem from a bayesian point of view. Multiparameter Problems From A Bayesian Point of View. — New York City: John Wiley & Sons, 1965. — Т. 36. — ISBN 0-471-57428-7. Другие тома
Kadane J.B., Wasilkowski G.W. Average case $\epsilon$ -complexity in computer science, a Bayesian view // Bayesian Statistics 2 / Bernardo J.M., Degroot V.H., Lindley D.V., Smith A.F.M.. Proceedings of the Second Valencia International Meeting. — Amsterdam, New York, Oxford: Elsevier Science Publishers B.V, 1983. — ISBN 0-444-87746-0. Похожая книга
James M. Dickey, Chong-Hong Chen. Direct Subjective-Probability Modelling Using Ellipsoidal Distributions // Proceedings of the Second Valencia International Meeting / Bernardo J.M., Degroot V.H., Lindley D.V., Smith A.F.M.. — Amsterdam, New York, Oxford: Elsevier Science Publishers B.V, 1983. — ISBN 0-444-87746-0.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[_0595212c8e87a2e2-1] Allenby, Rossi, McCulloch, 2005, с. 3.

[_1c3b3454f38169a0-2] Gelman, Carlin, Stern, Rubin, 2004, с. 4–5.

[_de2b3b7f18e85be0-3] Gelman, Carlin, Stern, Rubin, 2004, с. 6.

[_09ffa541be82dceb-4] Gelman, Carlin, Stern, Rubin, 2004, с. 117.

[_7f25ca8e2cb4a086-5] Good, 1980, с. 480.

[_c50406d77da95b9a-6] Good, 1980, с. 489—490.

[_147200e8fec7cef5-7] Bernardo, Smith, 1994, с. 23.

[_2b11e93e38b7608a-8] Gelman, Carlin, Stern, Rubin, 2004, с. 6—8.

[_e07b6fc1541fea85-9] Dickey, Chen, 1983, с. 167–168.

[_750b08288798d2c8-10] Gelman, Carlin, Stern, Rubin, 2004, с. 121—125.

[_7520b80e39ae355c-11] Diaconis, Freedman, 1980, с. 745–747.

[_1fb11b20af3d6268-12] Kadane, Wasilkowski, 1983, с. 371–372.

[13] «Академический оценочный тест» — стандартизованный тест для приёма в высшие учебные заведения США

[_0433ba9a6315d6bd-14] Gelman, Carlin, Stern, Rubin, 2004, с. 120—121.

[_44b9649fe749e94c-15] Box, Tiao, 1965.