Метод опорных векторов

Метод опорных векторов (англ. SVM, support vector machine) — набор схожих алгоритмов обучения с учителем, использующихся для задач классификации и регрессионного анализа. Принадлежит семейству линейных классификаторов и может также рассматриваться как частный случай регуляризации по Тихонову. Особым свойством метода опорных векторов является непрерывное уменьшение эмпирической ошибки классификации и увеличение зазора, поэтому метод также известен как метод классификатора с максимальным зазором.

Основная идея метода — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с наибольшим зазором в этом пространстве. Две параллельных гиперплоскости строятся по обеим сторонам гиперплоскости, разделяющей классы. Разделяющей гиперплоскостью будет гиперплоскость, создающая наибольшее расстояние до двух параллельных гиперплоскостей. Алгоритм основан на допущении, что чем больше разница или расстояние между этими параллельными гиперплоскостями, тем меньше будет средняя ошибка классификатора.

Постановка задачи

Несколько классифицирующих разделяющих прямых (гиперплоскостей), из которых только одна соответствует оптимальному разделению

Часто в алгоритмах машинного обучения возникает необходимость классифицировать данные. Каждый объект данных представляется как вектор (точка) в $p$ -мерном пространстве (упорядоченный набор $p$ чисел). Каждая из этих точек принадлежит только одному из двух классов. Вопрос состоит в том, можно ли разделить точки гиперплоскостью размерности ( $p$ −1). Это — типичный случай линейной разделимости. Искомых гиперплоскостей может быть много, поэтому полагают, что максимизация зазора между классами способствует более уверенной классификации. То есть, можно ли найти такую гиперплоскость, чтобы расстояние от неё до ближайшей точки было максимальным. Это эквивалентно[1] тому, что сумма расстояний до гиперплоскости от двух ближайших к ней точек, лежащих по разные стороны от неё, максимальна. Если такая гиперплоскость существует, она называется оптимальной разделяющей гиперплоскостью, а соответствующий ей линейный классификатор называется оптимально разделяющим классификатором.

Формальное описание задачи

Мы полагаем, что точки имеют вид:

\{(\mathbf {x} _{1},c_{1}),(\mathbf {x} _{2},c_{2}),\ldots ,(\mathbf {x} _{n},c_{n})\}

где $c_{i}$ принимает значение 1 или −1, в зависимости от того, какому классу принадлежит точка $\mathbf {x} _{i}$ . Каждое $\mathbf {x} _{i}$ — это $p$ -мерный вещественный вектор, обычно нормализованный значениями $[0,1]$ или $[-1,1]$ . Если точки не будут нормализованы, то точка с большими отклонениями от средних значений координат точек слишком сильно повлияет на классификатор. Мы можем рассматривать это как обучающую выборку, в которой для каждого элемента уже задан класс, к которому он принадлежит. Мы хотим, чтобы алгоритм метода опорных векторов классифицировал их таким же образом. Для этого мы строим разделяющую гиперплоскость, которая имеет вид:

Оптимальная разделяющая гиперплоскость для метода опорных векторов, построенная на точках из двух классов. Ближайшие к параллельным гиперплоскостям точки называются опорными векторами

\mathbf {w} \cdot \mathbf {x} -b=0.

Вектор $\mathbf {w}$ — перпендикуляр к разделяющей гиперплоскости. Параметр ${\frac {b}{\|\mathbf {w} \|}}$ равен по модулю расстоянию от гиперплоскости до начала координат. Если параметр b равен нулю, гиперплоскость проходит через начало координат, что ограничивает решение.

Так как нас интересует оптимальное разделение, нас интересуют опорные вектора и гиперплоскости, параллельные оптимальной и ближайшие к опорным векторам двух классов. Можно показать, что эти параллельные гиперплоскости могут быть описаны следующими уравнениям (с точностью до нормировки).

\mathbf {w} \cdot \mathbf {x} -b=1,

\mathbf {w} \cdot \mathbf {x} -b=-1.

Если обучающая выборка линейно разделима, то мы можем выбрать гиперплоскости таким образом, чтобы между ними не лежала ни одна точка обучающей выборки и затем максимизировать расстояние между гиперплоскостями. Ширину полосы между ними легко найти из соображений геометрии, она равна ${\frac {2}{\|\mathbf {w} \|}}$ [2], таким образом наша задача минимизировать $\|\mathbf {w} \|$ . Чтобы исключить все точки из полосы, мы должны убедиться для всех $i$ , что

\left[{\begin{array}{lcr}\mathbf {w} \cdot \mathbf {x_{i}} -b\geq 1,\ c_{i}=1\mathrm {} \\\mathbf {w} \cdot \mathbf {x_{i}} -b\leq -1,\ c_{i}=-1\mathrm {} \\\end{array}}\right.

Это может быть также записано в виде:

c_{i}(\mathbf {w} \cdot \mathbf {x_{i}} -b)\geq 1,\quad 1\leq i\leq n.\qquad \qquad (1)

Случай линейной разделимости

Проблема построения оптимальной разделяющей гиперплоскости сводится к минимизации $\|\mathbf {w} \|$ , при условии (1). Это задача квадратичной оптимизации, которая имеет вид:

\left\{{\begin{array}{lcr}\|\mathbf {w} \|^{2}\to \min \\c_{i}(\mathbf {w} \cdot \mathbf {x_{i}} -b)\geq 1,\quad 1\leq i\leq n.\\\end{array}}\right.

По теореме Куна — Таккера эта задача эквивалентна двойственной задаче поиска седловой точки функции Лагранжа

\left\{{\begin{array}{lcr}\mathbf {L} (\mathbf {w} ,\mathbf {b

где $\mathbf {\lambda } =(\mathbf {\lambda _{1}} ,\ldots ,\mathbf {\lambda _{n}} )$ — вектор двойственных переменных.

Сведем эту задачу к эквивалентной задаче квадратичного программирования, содержащую только двойственные переменные:

\left\{{\begin{array}{lcr}-\mathbf {L} (\mathbf {\lambda } )=-\sum _{i=1}^{n}\mathbf {\lambda _{i}} +{\frac {1}{2}}\sum _{i=1}^{n}\sum _{j=1}^{n}\mathbf {\lambda _{i}} \mathbf {\lambda _{j}} c_{i}c_{j}(\mathbf {x_{i}} \cdot \mathbf {x_{j}} )\to \min _{\lambda }\\\mathbf {\lambda _{i}} \geq 0,\quad 1\leq i\leq n\\\sum _{i=1}^{n}\mathbf {\lambda _{i}} c_{i}=0\\\end{array}}\right.(3)

Допустим мы решили данную задачу, тогда $\mathbf {w}$ и $\mathbf {b}$ можно найти по формулам:

\mathbf {w} =\sum _{i=1}^{n}\mathbf {\lambda _{i}} c_{i}\mathbf {x_{i}}

\mathbf {b} =\mathbf {w} \cdot \mathbf {x_{i}} -c_{i},\quad \mathbf {\lambda } _{i}>0

В итоге алгоритм классификации может быть записан в виде:

a(x)=sign\left(\sum _{i=1}^{n}\mathbf {\lambda _{i}} c_{i}\mathbf {x_{i}} \cdot \mathbf {x} -b\right)(4)

При этом суммирование идёт не по всей выборке, а только по опорным векторам, для которых $\mathbf {\lambda _{i}} \neq 0$ .

Случай линейной неразделимости

Для того, чтобы алгоритм мог работать в случае, если классы линейно неразделимы, позволим ему допускать ошибки на обучающей выборке. Введём набор дополнительных переменных $\xi _{i}\geq 0$ , характеризующих величину ошибки на объектах $\mathbf {x} _{i},\quad 1\leq i\leq n$ . Возьмём за отправную точку (2), смягчим ограничения неравенства, так же введём в минимизируемый функционал штраф за суммарную ошибку:

\left\{{\begin{array}{lcr}{\frac {1}{2}}\|\mathbf {w} \|^{2}+C\sum _{i=1}^{n}\xi _{i}\to \min _{w,b,\xi _{i}}\\c_{i}(\mathbf {w} \cdot \mathbf {x_{i}} -b)\geq 1-\xi _{i},\quad 1\leq i\leq n\\\xi _{i}\geq 0,\quad 1\leq i\leq n\\\end{array}}\right.

Коэффициент $C$ — параметр настройки метода, который позволяет регулировать отношение между максимизацией ширины разделяющей полосы и минимизацией суммарной ошибки.

Аналогично, по теореме Куна-Таккера сводим задачу к поиску седловой точки функции Лагранжа:

\left\{{\begin{array}{lcr}\mathbf {L} (\mathbf {w} ,\mathbf {b} ,\mathbf {\xi

По аналогии сведём эту задачу к эквивалентной:

\left\{{\begin{array}{lcr}-\mathbf {L} (\mathbf {\lambda } )=-\sum _{i=1}^{n}\mathbf {\lambda _{i}} +{\frac {1}{2}}\sum _{i=1}^{n}\sum _{j=1}^{n}\mathbf {\lambda _{i}} \mathbf {\lambda _{j}} c_{i}c_{j}(\mathbf {x_{i}} \cdot \mathbf {x_{j}} )\to \min _{\lambda }\\0\leq \mathbf {\lambda _{i}} \leq \mathbf {C} ,\quad 1\leq i\leq n\\\sum _{i=1}^{n}\mathbf {\lambda _{i}} c_{i}=0\\\end{array}}\right.

На практике для построения машины опорных векторов решают именно эту задачу, а не (3), так как гарантировать линейную разделимость точек на два класса в общем случае не представляется возможным. Этот вариант алгоритма называют алгоритмом с мягким зазором (soft-margin SVM), тогда как в линейно разделимом случае говорят о жёстком зазоре (hard-margin SVM).

Для алгоритма классификации сохраняется формула (4), с той лишь разницей, что теперь ненулевыми $\mathbf {\lambda _{i}}$ обладают не только опорные объекты, но и объекты-нарушители. В определённом смысле это недостаток, поскольку нарушителями часто оказываются шумовые выбросы, и построенное на них решающее правило, по сути дела, опирается на шум.

Константу C обычно выбирают по критерию скользящего контроля. Это трудоёмкий способ, так как задачу приходится решать заново при каждом значении C.

Если есть основания полагать, что выборка почти линейно разделима, и лишь объекты-выбросы классифицируются неверно, то можно применить фильтрацию выбросов. Сначала задача решается при некотором C, и из выборки удаляется небольшая доля объектов, имеющих наибольшую величину ошибки $\mathbf {\xi _{i}}$ . После этого задача решается заново по усечённой выборке. Возможно, придётся проделать несколько таких итераций, пока оставшиеся объекты не окажутся линейно разделимыми.

Ядра

Алгоритм построения оптимальной разделяющей гиперплоскости, предложенный в 1963 году Владимиром Вапником и Алексеем Червоненкисом — алгоритм линейной классификации. Однако в 1992 году Бернхард Босер, Изабель Гийон и Вапник предложили способ создания нелинейного классификатора, в основе которого лежит переход от скалярных произведений к произвольным ядрам, так называемый kernel trick (предложенный впервые М. А. Айзерманом, Э. М. Браверманом и Л. И. Розоноэром для метода потенциальных функций), позволяющий строить нелинейные разделители. Результирующий алгоритм крайне похож на алгоритм линейной классификации, с той лишь разницей, что каждое скалярное произведение в приведённых выше формулах заменяется нелинейной функцией ядра (скалярным произведением в пространстве с большей размерностью). В этом пространстве уже может существовать оптимальная разделяющая гиперплоскость. Так как размерность получаемого пространства может быть больше размерности исходного, то преобразование, сопоставляющее скалярные произведения, будет нелинейным, а значит функция, соответствующая в исходном пространстве оптимальной разделяющей гиперплоскости, будет также нелинейной.

Если исходное пространство имеет достаточно высокую размерность, то выборка может быть линейно разделимой.

Наиболее распространённые ядра:

Полиномиальное (однородное): $k(\mathbf {x} ,\mathbf {x} ')=(\mathbf {x} \cdot \mathbf {x'} )^{d}$
Полиномиальное (неоднородное): $k(\mathbf {x} ,\mathbf {x} ')=(\mathbf {x} \cdot \mathbf {x'} +1)^{d}$
Радиальная базисная функция: $k(\mathbf {x} ,\mathbf {x} ')=\exp(-\gamma \|\mathbf {x} -\mathbf {x'} \|^{2})$ , для $\gamma >0$
Радиальная базисная функция Гаусса: $k(\mathbf {x} ,\mathbf {x} ')=\exp \left(-{\frac {\|\mathbf {x} -\mathbf {x'} \|^{2}}{2\sigma ^{2}}}\right)$
Сигмоид: $k(\mathbf {x} ,\mathbf {x} ')=\tanh(\kappa \mathbf {x} \cdot \mathbf {x'} +c)$ , для почти всех $\kappa >0$ и $c<0$

См. также

Размерность Вапника — Червоненкиса

Примечания

Вьюгин, 2013, с. 86—90.
К. В. Воронцов. Лекции по методу опорных векторов

Литература

Владимир Вьюгин. Математические основы теории машинного обучения и прогнозирования. — МЦМНО, 2013. — 390 с. — ISBN 978-5-4439-0111-4.
Nello Cristianini, John Shawe-Taylor. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. — Cambridge University Press, 2000. — ISBN 978-1-139-64363-4.
Alexander Statnikov, Constantin F. Aliferis, Douglas P. Hardin. A Gentle Introduction to Support Vector Machines in Biomedicine: Theory and methods. — World Scientific, 2011. — ISBN 978-981-4324-38-0.
Alexey Nefedov. Support Vector Machines: A Simple Tutorial. — 2016.

Ссылки

Data Mining. 10. Лекция: Методы классификации и прогнозирования. Метод опорных векторов // Интуит.ру
Юрий Лифшиц. Метод опорных векторов (Слайды) — лекция № 7 из курса «Алгоритмы для Интернета»

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[_63b6710b9e3e0f70-1] Вьюгин, 2013, с. 86—90.

[2] К. В. Воронцов. Лекции по методу опорных векторов

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамбли моделей Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG