Ядерный метод

Ядерные методы в машинном обучении — это класс алгоритмов распознавания образов, наиболее известным представителем которого является метод опорных векторов (МОВ, англ. SVM). Общая задача распознавания образов — найти и изучить общие типы связей (например, кластеров, ранжирования, главных компонент, корреляций, классификаций) в наборах данных. Для многих алгоритмов, решающих эти задачи, данные, представленные в сыром виде, явным образом преобразуются в представление в виде вектора признаков посредством специфичной схемы распределения признаков, однако ядерные методы требуют только задания специфичного ядра, т.е. функции сходства пар точек данных в сыром представлении.

Ядерные методы получили своё название из-за использования ядерных функций, которые позволяют им оперировать в неявном пространстве признаков высокой размерности без вычисления координат данных в пространстве, просто вычисляя скалярные произведения между образами всех пар данных в пространстве признаков. Эта операция часто вычислительно дешевле явных вычислений координат. Этот подход называется «ядерным трюком»[1]. Ядерные функции были введены для последовательных данных, графов, текстов, изображений, а также для векторов.

Среди алгоритмов, способных работать с ядрами, находятся ядерный перцептрон, методы опорных векторов, гауссовские процессы, метод главных компонент (МГК, англ. PCA), канонический корреляционный анализ, гребневая регрессия, спектральная кластеризация, линейные адаптивные фильтры и многие другие. Любая линейная модель может быть переведена в нелинейную модель путём применения к модели ядерного трюка, заменив её признаки (предсказатели) ядерной функцией.

Большинство ядерных алгоритмов базируются на выпуклой оптимизации или нахождении собственных векторов и статистически хорошо обоснованы. Обычно их статистические свойства анализируются с помощью теории статистического обучения (например, используя радемахеровскую сложность).

Причины возникновения и неформальное объяснение

Ядерные методы можно рассматривать как обучение на примерах — вместо обучения некоторым фиксированным наборам параметров, соответствующим признакам входа, они «запоминают» $i$ -й тренировочный пример $(\mathbf {x} _{i},y_{i})$ и обучают согласно его весам $w_{i}$ . Предсказание для непомеченного ввода, т.е. не входящего в тренировочное множество, изучается при помощи функции сходства $k$ (называемой ядром) между непомеченным входом $\mathbf {x'}$ и каждым из тренировочных входов $\mathbf {x} _{i}$ . Например, ядерный бинарный классификатор обычно вычисляет взвешенную сумму похожести по формуле

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

,

где

${\hat {y}}\in \{-1,+1\}$ является ядерным бинарным классификатором предсказанной пометки для непомеченного входа $\mathbf {x'}$ , скрытая верная пометка которого $y$ нужна;
$k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ является ядерной функцией, которая измеряет схожесть пары входов $\mathbf {x} ,\mathbf {x'} \in {\mathcal {X}}$ ;
сумма пробегает по всем n помеченным примерам $\{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n}$ в тренировочном наборе классификатора с $y_{i}\in \{-1,+1\}$ ;
$w_{i}\in \mathbb {R}$ являются весами тренировочных примеров, как определено алгоритмом обучения;
Функция sgn определяет, будет предсказанная классификация положительной или отрицательной.

Ядерные классификаторы были описаны в начале 1960-х годов с изобретением ядерного перцептрона[2]. Они получили большое распространение вместе с популярностью метода опорных векторов в 1990-х годах, когда обнаружили, что МОВ конкурентоспособна с нейронными сетями на таких задачах, как распознавание рукописного ввода.

Математика: ядерный трюк

МОВ с ядром, заданной функцией φ((a, b))=(a, b, a² + b²), а тогда K(x, y)=x•y + x² y². Тренировочные точки показаны в 3-мерном пространстве, где можно легко найти разделяющую гиперплоскость

Ядерный трюк избегает явного отображения, которое нужно для получения линейного обучающего алгоритма для нелинейной функции или границы решений. Для всех $\mathbf {x}$ и $\mathbf {x'}$ во входном пространстве ${\mathcal {X}}$ некоторые функции $k(\mathbf {x} ,\mathbf {x'} )$ могут быть представлены как скалярное произведение в другом пространстве ${\mathcal {V}}$ . Функцию $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ часто называют ядром или ядерной функцией. Слово «ядро» используется в математике для обозначения весовой функции или интеграла.

Некоторые задачи обучения машин имеют дополнительную структуру, а не просто весовую функцию $k$ . Вычисления будут много проще, если ядро можно записать в виде "отображения признаков" $\varphi \colon {\mathcal {X}}\to {\mathcal {V}}$ , которое удовлетворяет равенству

k(\mathbf {x} ,\mathbf {x'} )=\langle \varphi (\mathbf {x} ),\varphi (\mathbf {x'} )\rangle _{\mathcal {V}}.

Главное ограничение здесь, что $\langle \cdot ,\cdot \rangle _{\mathcal {V}}$ должно быть подходящим скалярным произведением. С другой стороны, явное представление для $\varphi$ не обязательно, поскольку ${\mathcal {V}}$ является пространством со скалярным произведением. Альтернатива следует из теоремы Мерсера — неявно заданная функция $\varphi$ существует, если пространство ${\mathcal {X}}$ может быть снабжено подходящей мерой, обеспечивающей, что функция $k$ удовлетворяет условию Мерсера.

Теорема Мерсера подобна обобщению результата из линейной алгебры, которое связывает скалярное произведение с любой положительно определённой матрицей. Фактически, условие Мерсера может быть сведено к этому простому случаю. Если мы выбираем в качестве нашей меры считающую меру $\mu (T)=|T|$ для всех $T\subset X$ , которая считает число точек внутри множества $T$ , то интеграл в теореме Мерсера сводится к суммированию

\sum _{i=1}^{n}\sum _{j=1}^{n}k(\mathbf {x} _{i},\mathbf {x} _{j})c_{i}c_{j}\geq 0.

Если это неравенство выполняется для всех конечных последовательностей точек $(\mathbf {x} _{1},\dotsc ,\mathbf {x} _{n})$ в ${\mathcal {X}}$ и всех наборов $n$ вещественнозначных коэффициентов $(c_{1},\dots ,c_{n})$ (сравните, Положительно определённое ядро), тогда функция $k$ удовлетворяет условию Мерсера.

Некоторые алгоритмы, зависящие от произвольных связей, в исходном пространстве ${\mathcal {X}}$ будут, фактически, иметь линейное представление в других условиях — в ранжированном пространстве $\varphi$ . Линейная интерпретация даёт нам представление об алгоритме. Более того, часто нет необходимости вычислять $\varphi$ прямо во время вычислений, как в случае метода опорных векторов. Некоторые считают уменьшение времени за счёт этого главным преимуществом алгоритма. Исследователи используют его для уточнения смысла и свойств существующих алгоритмов.

Теоретически, матрица Грама $\mathbf {K} \in \mathbb {R} ^{n\times n}$ по отношению к $\{\mathbf {x} _{1},\dotsc ,\mathbf {x} _{n}\}$ (иногда называемая «ядерной матрицей»[3]), где $K_{ij}=k(\mathbf {x} _{i},\mathbf {x} _{j})$ , должна быть положительно полуопределена[4]. Эмпирически, для эвристики обучения машин, выбор функции $k$ , которая не удовлетворяет условию Мерсера, может оставаться оправданным, если $k$ , по меньшей мере, аппроксимирует интуитивную идею похожести[5]. Независимо от того, является ли $k$ ядром Мерсера, о $k$ могут продолжать говорить как о «ядре».

Если ядерная функция $k$ является также ковариантной функцией, что используется в гауссовском процессе, тогда матрица Грама $\mathbf {K}$ может быть названа ковариационной матрицей[6].

Приложения

Области применения ядерных методов разнообразны и включают геостатистику[7], кригинг, метод (обратных) взвешенных расстояний, трёхмерную реконструкцию, биоинформатику, хемоинформатику, извлечение информации и распознавание рукописного ввода.

Примечания

Theodoridis, 2008, с. 203.
Aizerman, Braverman, Rozoner, 1964, с. 821–837.
Hofmann, Scholkopf, Smola, 2007.
Mohri, Rostamizadeh, Talwalkar, 2012.
Sewell, Martin Support Vector Machines: Mercer's Condition (неопр.). www.svms.org.
Rasmussen, Williams, 2006.
Honarkhah, Caers, 2010, с. 487–517.

Литература

Aizerman M. A., Emmanuel M. Braverman, Rozoner L. I. Theoretical foundations of the potential function method in pattern recognition learning // Automation and Remote Control. — 1964. — Т. 25. — С. 821–837. Процитировано в статье
- Isabelle Guyon, B. Boser, Vladimir Vapnik. Automatic capacity tuning of very large VC-dimension classifiers // Advances in neural information processing systems. — 1993.
Sergios. Pattern Recognition. — Elsevier B.V., 2008. — ISBN 9780080949123.
Mehryar Mohri, Afshin Rostamizadeh and Ameet Talwalkar. . — Cambridge, London: MIT press, 2012. — (Adaptive Computation and Machine Learning). — ISBN 978-0-262-01825-8.
Thomas Hofmann, Bernhard Scholkopf, Alexander J. Smola. Kernel Methods in Machine Learning // The Annals of Statistics. — 2007. — Январь (т. 36, вып. 3).
Rasmussen C. E., Williams C. K. I. Gaussian Processes for Machine Learning. — Cambridge, London: MIT Press, 2006. — (Adaptive Computation and Machine Learning). — ISBN 0-262-18253-X.
Honarkhah M., Caers J. Stochastic Simulation of Patterns Using Distance-Based Pattern Modeling // Mathematical Geosciences. — 2010. — Т. 42. — doi:10.1007/s11004-010-9276-7.

Литература

John Shawe-Taylor, Nello Cristianini. Kernel Methods for Pattern Analysis. — Cambridge University Press, 2004.
Liu W., Principe J., Haykin S. Kernel Adaptive Filtering: A Comprehensive Introduction. — Wiley, 2010.

Ссылка

Kernel-Machines Org — community website
www.support-vector-machines.org (Literature, Review, Software, Links related to Support Vector Machines - Academic Site)
onlineprediction.net Kernel Methods Article

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[_fdc2f8ab3cc6981a-1] Theodoridis, 2008, с. 203.

[_ee8662c9b2b0826d-2] Aizerman, Braverman, Rozoner, 1964, с. 821–837.

[_b4540e5817c8eb64-3] Hofmann, Scholkopf, Smola, 2007.

[_c96aae220ded1ab1-4] Mohri, Rostamizadeh, Talwalkar, 2012.

[5] Sewell, Martin Support Vector Machines: Mercer's Condition (неопр.). www.svms.org.

[_2faca9ee8bf4eb80-6] Rasmussen, Williams, 2006.

[_a840dd961ca4599d-7] Honarkhah, Caers, 2010, с. 487–517.

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамбли моделей Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Ядерный метод

Причины возникновения и неформальное объяснение

Математика: ядерный трюк

Приложения

Популярные ядра

Примечания

Литература

Литература

Ссылка