Дивергенция Брэгмана

Дивергенция Брэгмана или расстояние Брэгмана — мера расстояния между двумя точками, определённая в терминах строго выпуклой функции. Они образуют важный класс дивергенций. Если точки интерпретировать как распределение вероятностей, либо как значения параметрической модели, либо как набор наблюдаемых значений, то полученное расстояние является статистическим расстоянием. Самой элементарной дивергенцией Брэгмана является квадрат евклидова расстояния.

Дивергенции Брэгмана подобны метрикам, но не удовлетворяют ни неравенству треугольника, ни симметрии (в общем случае), однако они удовлетворяют обобщённой теореме Пифагора. В информационной геометрии соответствующее статистическое многообразие интерпретируется как плоское многообразие (или двойственное). Это позволяет обобщить многие техники оптимизации к дивергенции Брэгмана, что геометрически соответствует обобщению метода наименьших квадратов.

Дивергенция Брэгмана названа по имени Льва Мееровича Брэгмана, предложившего концепцию в 1967 году.

Определение

Пусть $F:\Omega \to \mathbb {R}$ будет непрерывно дифференцируемой строго выпуклой функцией, определённой на замкнутом выпуклом множестве $\Omega$ .

Расстояние Брэгмана, связанное с функцией F, для точек $p,q\in \Omega$ — это разность между значением функции F в точке p и значением разложения Тейлора первого порядка функции F в точке q, вычисленное в точке p:

D_{F}(p,q)=F(p)-F(q)-\langle \nabla F(q),p-q\rangle .

Свойства

Неотрицательность: $D_{F}(p,q)\geqslant 0$ для всех p, q. Это следствие выпуклости F.
Выпуклость: Функция $D_{F}(p,q)$ выпукла по первому аргументу, но не обязательно выпукла по второму (см. статью Баушке и Борвейна[1])
Линейность: Если мы рассматриваем расстояние Брэгмана как оператор от функции F, то он линеен относительно неотрицательных коэффициентов. Другими словами, для строго выпуклых и дифференцируемых $F_{1},F_{2}$ и $\lambda \geqslant 0$ ,

D_{F_{1}+\lambda F_{2}}(p,q)=D_{F_{1}}(p,q)+\lambda D_{F_{2}}(p,q)

Двойственность: Функция F имеет выпуклое сопряжение $F^{*}$ . Расстояние Брэгмана, определённое для $F^{*}$ , имеет связь с $D_{F}(p,q)$

D_{F^{*}}(p^{*},q^{*})=D_{F}(q,p)

Здесь

p^{*}=\nabla F(p)

и

q^{*}=\nabla F(q)

являются двойственными точками, соответствующими p и q.

Среднее как минимум: Ключевым результатом о дивергенции Брэгмана является то, что если дан случайный вектор, среднее векторов минимизирует ожидаемую дивергенцию Брэгмана от случайного вектора. Этот результат обобщает результат из учебников, что среднее по множеству минимизирует полную квадратичную ошибку элементов множества. Этот результат доказал для случая векторов Банерджи с соавторами[2] и распространили на случай функций/распределений Фриджик с соавторами[3].

Примеры

Квадрат евклидова расстояния $D_{F}(x,y)=\|x-y\|^{2}$ является каноническим примером расстояния Брэгмана, образованного выпуклой функцией $F(x)=\|x\|^{2}$
Квадрат расстояния Махаланобиса $D_{F}(x,y)={\tfrac {1}{2}}(x-y)^{T}Q(x-y)$ , которое образуется от выпуклой функцией $F(x)={\tfrac {1}{2}}x^{T}Qx$ . Это можно рассматривать как обобщение квадрата евклидова расстояния выше.
Обобщённая дивергенция Кульбака — Лейблера

D_{F}(p,q)=\sum _{i}p(i)\log {\frac {p(i)}{q(i)}}-\sum p(i)+\sum q(i)

образуется функцией отрицательной энтропии

F(p)=\sum _{i}p(i)\log p(i)

Расстояние Итакуры-Сайто,

D_{F}(p,q)=\sum _{i}\left({\frac {p(i)}{q(i)}}-\log {\frac {p(i)}{q(i)}}-1\right)

обобщается выпуклой функцией

F(p)=-\sum _{i}\log p(i)

Обобщение проективной двойственности

Ключевым средством в вычислительной геометрии является идея проективной двойственности, которая отображает точки в гиперплоскости и наоборот, сохраняя тем не менее отношения инцидентности и выше/ниже. Есть много видов проективной двойственности — обычный вид отображает точку $p=(p_{1},\ldots p_{d})$ в гиперплоскость $x_{d+1}=\sum _{1}^{d}2p_{i}x_{i}$ . Это отображение можно понимать (если отождествлять гиперплоскость с нормалью) как выпуклое сопряжённое отображение, которое переводит точку p в двойственную точку $p^{*}=\nabla F(p)$ , где F определяет d-мерный параболоид $x_{d+1}=\sum x_{i}^{2}$ .

Если мы теперь заменим параболоид на любую выпуклую функцию, мы получим другое двойственное отображение, которое сохраняет инцидентность и свойства выше/ниже стандартной проективной двойственности. Из этого вытекает, что естественные двойственные концепции вычислительной геометрии наподобие диаграммы Вороного и триангуляций Делоне сохраняют своё значение в пространствах с расстоянием, определённым произвольной дивергенцией Брэгмана. Алгоритмы «нормальной» геометрии распространяются естественным образом на эти пространства[4].

Обобщения дивергенции Брэгмана

Дивергенции Брэгмана можно интерпретировать как предельные случаи косых дивергенций Йенсена[5] (см. статью Нильсена и Больца[6]). Дивергенции Йенсена можно обобщить с помощью сравнительной выпуклости, а обобщение предельных случаев этих косых дивергенций Йенсена приводит к обобщённым дивергенциям Брэгмана (см. статью Нильсена и Нока[7]). Хордовая дивергенция Брэгмана[8] получается, если взять хорду вместо касательной.

Дивергенция Брэгмана на других объектах

Дивергенцию Брэгмана можно определить для матриц, функций и мер (распределений). Дивергенция Брэгмана для матриц включает функцию потерь Штайна[9] и энтропию Неймана. Дивергенции Брэгмана для функций включают полную квадратичную ошибку, относительную энтропию и квадрат смещения (см. статью Фриджика с соавторами[3] ниже для определений и свойств). Аналогично дивергенция Брэгмана определяется также для множеств посредством cубмодулярной функции множеств, известная как дискретный аналог выпуклой функции. Субмодулярная дивергенция Брэгмана включает ряд дискретных мер, таких как расстояние Хэмминга, точность и полнота, взаимная информация и некоторые другие меры расстояния на множествах (см. статью Айера и Билмеса[10] о деталях и свойствах субмодулярной дивергенции Брэгмана).

Список обычных матричных дивергенций Брэгмана можно найти в таблице 15.1 в статье Нока, Магдалоу, Браиса, Нильсена[11].

Приложения

В обучении машин дивергенция Брэгмана используется для вычисления модифицированной логистической функции ошибки, работающей лучше функции softmax с зашумлёнными данными[12].

Примечания

Bauschke, Borwein, 2001.
Banerjee, Merugu, Dhillon, Ghosh, 2005.
Frigyik, Srivastava, Gupta, 2008.
Boissonnat, Nielsen, Nock, 2010.
В русскоязычной литературе прижилось название Дивергенция Дженсена–Шеннона, хотя Йенсен является датчанином и читаться он должен по-датски, а не по-английски. В Википедии есть статья о Йенсене.
Nielsen, Boltz, 2011.
Nielsen, Nock, 2017.
Nielsen, Frank & Nock, Richard (2018), The Bregman chord divergence, arΧiv:1810.09113 [cs.LG]
Ознакомиться с термином Stein’s loss можно в статье https://www.jstor.org/stable/2241373?seq=1
Iyer, Bilmes, 2012.
Nock, Magdalou, Briys, Nielsen, 2012, с. 373-402.
Amid, Warmuth, Anil, Koren, 2019, с. 14987-14996.

Литература

H. Bauschke, J. Borwein. Joint and separate convexity of the Bregman Distance // Inherently Parallel Algorithms in Feasibility and Optimization and their Applications / D. Butnariu, Y. Censor, S. Reich (editors). — Elsevier, 2001.
R. Nock, B. Magdalou, E. Briys, F. Nielsen. Mining Matrix Data with Bregman MatrixDivergences for Portfolio Selection // Matrix Information Geometry. — 2012.
Ehsan Amid, Manfred K. Warmuth, Rohan Anil, Tomer Koren. Robust Bi-Tempered Logistic Loss Based on Bregman Divergences // Conference on Neural Information Processing Systems. — 2019.
Arindam Banerjee, Srujana Merugu, Inderjit S. Dhillon, Joydeep Ghosh. Clustering with Bregman divergences // Journal of Machine Learning Research. — 2005. — Т. 6. — С. 1705–1749.
Брэгман Л. М. Релаксационный метод нахождения общей точки выпуклых множеств и его применение для решения задач выпуклого программирования // Ж. вычисл. матем.и матем. физ.. — 1967. — Т. 7, № 3.
Bela A. Frigyik, Santosh Srivastava, Maya R.Gupta. Functional Bregman Divergences and Bayesian Estimation of Distributions // IEEE Transactions on Information Theory. — 2008. — Т. 54, вып. 11. — С. 5130–5139. — doi:10.1109/TIT.2008.929943. — arXiv:cs/0611123. Архивировано 12 августа 2010 года.
Rishabh Iyer, Jeff Bilmes. Submodular-Bregman divergences and Lovász-Bregman divergences with Applications // . — 2012.
Bela A. Frigyik, Santosh Srivastava, Maya R. Gupta. An Introduction to Functional Derivatives. — University of Washington, Dept. of Electrical Engineering, 2008. — (UWEE Tech Report 2008-0001).
Peter Harremoës. Divergence and Sufficiency for Convex Optimization // Entropy. — 2017. — Т. 19, вып. 5. — С. 206. — doi:10.3390/e19050206. — . — arXiv:1701.01010.
Frank Nielsen, Richard Nock. The dual Voronoi diagrams with respect to representational Bregman divergences // Proc. 6th International Symposium on Voronoi Diagrams. — IEEE, 2009. — doi:10.1109/ISVD.2009.15.
Frank Nielsen, Richard Nock. On the Centroids of Symmetrized Bregman Divergences. — 2007.
Frank Nielsen, Jean-Daniel Boissonnat, Richard Nock. On Visualizing Bregman Voronoi diagrams // Proc. 23rd ACM Symposium on Computational Geometry (video track). — 2007. — doi:10.1145/1247069.1247089.
Jean-Daniel Boissonnat, Frank Nielsen, Richard Nock. Bregman Voronoi Diagrams // Discrete and Computational Geometry. — 2010. — Т. 44, вып. 2. — С. 281–307. — doi:10.1007/s00454-010-9256-1.
Frank Nielsen, Richard Nock. On approximating the smallest enclosing Bregman Balls // Proc. 22nd ACM Symposium on Computational Geometry. — 2006. — С. 485–486. — doi:10.1145/1137856.1137931.
Frank Nielsen, Sylvain Boltz. The Burbea-Rao and Bhattacharyya centroids // IEEE Transactions on Information Theory. — 2011. — Т. 57, вып. 8. — С. 5455–5466. — doi:10.1109/TIT.2011.2159046. — arXiv:1004.5049.
Frank Nielsen, Richard Nock. Generalizing Skew Jensen Divergences and Bregman Divergences With Comparative Convexity // IEEE Signal Processing Letters. — 2017. — Т. 24, вып. 8. — С. 1123–1127. — doi:10.1109/LSP.2017.2712195. — . — arXiv:1702.04877.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[_7bbb56f908a10962-1] Bauschke, Borwein, 2001.

[_97dedae0b5a7921a-2] Banerjee, Merugu, Dhillon, Ghosh, 2005.

[_50406f4faea7ee11-3] Frigyik, Srivastava, Gupta, 2008.

[_f7e53116c9f47a91-4] Boissonnat, Nielsen, Nock, 2010.

[5] В русскоязычной литературе прижилось название Дивергенция Дженсена–Шеннона, хотя Йенсен является датчанином и читаться он должен по-датски, а не по-английски. В Википедии есть статья о Йенсене.

[_6b579b37c2b326d0-6] Nielsen, Boltz, 2011.

[_90538966f30942c2-7] Nielsen, Nock, 2017.

[Nock-8] Nielsen, Frank & Nock, Richard (2018), The Bregman chord divergence, arΧiv:1810.09113 [cs.LG]

[9] Ознакомиться с термином Stein’s loss можно в статье https://www.jstor.org/stable/2241373?seq=1

[_5d4022d696c82631-10] Iyer, Bilmes, 2012.

[_67fe2513ab5ed3f4-11] Nock, Magdalou, Briys, Nielsen, 2012, с. 373-402.

[_21ae631790fdffc0-12] Amid, Warmuth, Anil, Koren, 2019, с. 14987-14996.