Размещение патинко
Размещение патинко (англ. pachinko allocation, PAM) — метод тематического моделирования, применяемый в машинном обучении и обработке естественного языка, позволяющий обнаружить скрытую тематическую структуру в коллекции документов[1]. От более ранних методов (например, LDA) алгоритм отличается тем, что моделирует корреляции между темами в дополнение к корреляциям слов, задающих темы. PAM превосходит LDA по гибкости и выразительной силе[2]. Впервые метод описан, реализован и применён для обработки текстов на естественном языке, однако, может быть использован и в других областях, например, для задач биоинформатики. Своё название получил благодаря популярным в Японии игровым автоматам патинко, в которых реализована игра, напоминающая пинбол на доске Гальтона.
История
Впервые размещение патинко было описано Ли Вэем и Эндрю Маккаллумом в 2005 году[3]. В 2007 году Ли, Маккаллумом и Дэвидом Мимно идея была обобщена до иерархического размещения патинко[4]. В том же году Маккаллум и его коллеги предложили ввести в PAM непараметрическое байесовское распределение, основанное на модификации иерархического процесса Дирихле (HDP)[2]. Алгоритм реализован в Java-библиотеке с открытым исходным кодом Mallet.
Модель
Для изображения порождающей модели строится ациклический орграф, в котором вершинами являются слова и темы, причём слова могут быть только листьями. Тогда «трёхуровневая» модель — это LDA, а «двухуровневая» модель — Дирихле-мультиномиальное распределение[уточнить].
См. также
- Вероятностное латентное семантическое индексирование (PLSI) — тематическая модель, предложенная Томасом Хоффманом в 1999 году[5].
- Латентное размещение Дирихле — обобщение pLSI, предложенное Дэвидом Блеем, Эндрю Ыном и Майклом Джорданом в 2002 году[6].
Примечания
- Blei, David Topic modeling (недоступная ссылка). Дата обращения: 4 октября 2012. Архивировано 2 октября 2012 года.
- Li, Wei; Blei, David; McCallum, Andrew. Nonparametric Bayes Pachinko Allocation (неопр.). — 2007. Архивировано 3 октября 2012 года.
- Li, Wei; McCallum, Andrew. Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations (англ.) // Proceedings of the 23rd International Conference on Machine Learning : journal. — 2006.
- Mimno, David; Li, Wei; McCallum, Andrew. Mixtures of Hierarchical Topics with Pachinko Allocation (англ.) // Proceedings of the 24th International Conference on Machine Learning : journal. — 2007. Архивировано 20 июня 2013 года.
- Hofmann, Thomas. Probabilistic Latent Semantic Indexing (неопр.) // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. — 1999. Архивировано 14 декабря 2010 года.
- Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John. Latent Dirichlet allocation (англ.) // Journal of Machine Learning Research : journal. — 2003. — January (vol. 3). — P. pp. 993—1022. — doi:10.1162/jmlr.2003.3.4-5.993. Архивировано 1 мая 2012 года.