Минимизация эмпирического риска
Минимизация эмпирического риска (МЭР, англ. Empirical risk minimization, ERM) — это принцип статистической теории обучения, который определяет семейство обучающихся алгоритмов и который задаёт теоретические границы результативности.
Основания
Рассмотрим следующую ситуацию, которая является основной установкой многих задач контролируемого обучения. Мы имеем два пространства объектов и и хотели бы натренировать функцию (часто именуемую гипотезой), которая ставит объект в соответствие объекту . Для этого мы имеем в распоряжении тренировочный набор из экземпляров , где является входом, а является соответствующим ответом, который мы хотим получить от .
Выражаясь более формально, предположим, что существует совместное распределение над и , и что тренировочный набор состоит из экземпляров , выбранных из независимых случайно распределённых величин из . Заметим, что допущение о совместном распределении позволяет симулировать неопределённость в предсказании (например, из-за шума в данных), поскольку не является детерминированной функцией от , а скорее случайной величиной с условным распределением для фиксированного .
Предположим также, что нам дана неотрицательная вещественнозначная функция потери , которая измеряет то, насколько отличается предсказание гипотезы от истинного выхода Риск, ассоциированный с гипотезой , определяется тогда как математическое ожидание функции потери:
Часто в качестве функции потери в теории используется 0-1 функция потери: , где означает индикатор.
Высшей целью обучающегося алгоритма является отыскание гипотезы в фиксированном классе функций , для которых риск минимален:
Минимизация эмпирического риска
В общем случае риск не может быть вычислен, поскольку распределение неизвестно для обучающего алгоритма (эта ситуация называется агностическим обучением). Однако мы можем вычислить аппроксимацию, именуемую эмпирическим риском, путём усреднения функции потери на тренировочном наборе:
Принцип минимизации эмпирического риска (МЭР) [1] утверждает, что обучающийся алгоритм должен выбирать гипотезу , которая минимизирует риск:
Тогда обучающийся алгоритм, определённый принципом МЭР состоит в решении вышеуказанной задачи оптимизации.
Свойства
Вычислительная сложность
Известно, что минимизация эмпирического риска для задачи классификации с 0-1 функцией потери является NP-трудной даже для такого относительно простого класса функций задач, как линейные классификаторы[2]. Хотя она может быть эффективно решена, когда минимальный эмпирический риск равен нулю, то есть данные линейно сепарабельны.
На практике автоматически обучающиеся алгоритмы справляются с этим либо путём выпуклой аппроксимации до 0-1 функции потери (подобно кусочно-линейной функции потерь для машин опорных элементов), которую проще оптимизировать, либо выдвижением допущения о распределении (а тогда обучающийся алгоритм перестаёт быть агностическим).
См. также
Примечания
- Vapnik, 1992, с. 831–838.
- Feldman, Guruswami, Raghavendra, Wu, 2012, pp. 1558-1590.
Литература
- Vapnik V. Principles of Risk Minimization for Learning Theory // Advances in neural information processing systems. — 1992.
- Feldman V., Guruswami V., Raghavendra P., Yi Wu. Agnostic Learning of Monomials by Halfspaces is Hard // SIAM Journal on Computing. — 2012. — Т. 41, вып. 6. — С. 1558—1590. — doi:10.1137/120865094.
Литература для дальнейшего чтения
- Vapnik V. The Nature of Statistical Learning Theory. — 2000. — (Information Science and Statistics). — ISBN 978-0-387-98780-4.