Распределение Дирихле

В теории вероятностей и математической статистике распределение Дирихле (по имени Иоганна Петера Густава Лежён-Дирихлe), часто обозначаемое Dir(α) — это семейство непрерывных многомерных вероятностных распределений параметризованных вектором α неотрицательных вещественных чисел. Распределение Дирихле является обобщением Бета-распределения на многомерный случай. То есть, его функция плотности вероятности возвращает доверительную вероятность того, что вероятность каждого из K взаимоисключающих событий равна при условии, что каждое событие наблюдалось раз.

Функция плотности вероятности

Функция плотности вероятности для распределения Дирихле порядка K есть[1]:

где , , , а  — многомерная бета-функция, где

Свойства

Пусть и тогда[1]

Модой распределения является вектор x (x1, …,xK) с

Распределение Дирихле является сопряжённым априорным распределением к мультиномиальному распределению, а именно: если

где βi — число вхождений i в выборку из n точек дискретного распределения на {1, …, K} определенного через X, то

Эта связь используется в Байесовской статистике для того, чтобы оценить скрытые параметры, X, дискретного вероятностного распределения, имея набор из n выборок. Очевидно, если априорное распределение обозначено как Dir(α), то Dir(α + β) есть апостериорное распределение после серии наблюдений с гистограммой β.

Связи с другими распределениями

Если для

независимо, то

и

Несмотря на то, что Xi не являются независимыми друг от друга, они могут быть сгенерированы из набора из независимых гамма случайных величин. К несчастью, так как сумма теряется в процессе формирования X = (X1, …, XK), становится невозможно восстановить начальные значения гамма случайных величин только по этим значениям. Тем не менее, благодаря тому, что работать с независимыми случайными величинами проще, это преобразование параметров может быть полезно при доказательстве свойств распределения Дирихле.

Генерация случайных чисел

Метод построения случайного вектора для распределения Дирихле размерности K с параметрами следует непосредственно из этой связи. Сначала получим K независимых случайных выборок из гамма-распределений, каждое из которых имеет плотность

а затем положим

Наглядная трактовка параметров

В качестве примера использования распределения Дирихле можно предложить задачу, в которой требуется разрезать нитки (каждая начальной длины 1,0) на K частей с разными длинами так, чтобы все части имели заданную среднюю длину, но с возможностью некоторой вариации относительных длин частей. Значения α / α0 определяют средние длины частей нитки, получившиеся из распределения. Дисперсия вокруг среднего значения обратно пропорциональна α0.

См. также

Примечания

  1. Гроот, 1974, с. 56—58.

Литература

  • М. де Гроот Оптимальные статистические решения = Optimal Statistical Decisions. М.: Мир, 1974. — 492 с.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.