Q-обучение
Q-обучение (Q-learning) — метод, применяемый в искусственном интеллекте при агентном подходе. Относится к экспериментам вида oбучение с подкреплением. На основе получаемого от среды вознаграждения агент формирует функцию полезности Q, что впоследствии дает ему возможность уже не случайно выбирать стратегию поведения, а учитывать опыт предыдущего взаимодействия со средой. Одно из преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. Применяется для ситуаций, которые можно представить в виде марковского процесса принятия решений.
Aлгоритм Q-learning
- Initialization (Инициализация):
- for each s and a do Q[s, a] = RND // инициализируем функцию полезности Q от действия а в ситуации s как случайную для любых входных данных
- Observe (Наблюдение):
- s' = s // Запомнить предыдущие состояния
- a' = a // Запомнить предыдущие действия
- s = FROM_SENSOR // Получить текущие состояния с сенсора
- r = FROM_SENSOR // Получить вознаграждение за предыдущее действие
- Update (Обновление полезности):
- Q[s',a'] = Q[s',a'] + LF * (r + DF * MAX(Q,s) — Q[s',a'])
- Decision (Выбор действия):
- a = ARGMAX(Q, s)
- TO_ACTIVATOR = a
- Repeat: GO TO 2
Обозначения
- LF — это фактор обучения. Чем он выше, тем сильнее агент доверяет новой информации.
- DF — это фактор дисконтирования. Чем он меньше, тем меньше агент задумывается о выгоде от будущих своих действий.
Функция MAX(Q,s)
- max = minValue
- for each a of ACTIONS(s) do
- if Q[s, a] > max then max = Q[s, a]
- return max
Функция ARGMAX(Q,s)
- amax = First of ACTION(s)
- for each a of ACTION(s) do
- if Q[s, a] > Q[s, amax] then amax = a
- return amax
Литература
- Стюарт Рассел, Питер Норвиг, «ИИ — современный подход»
- Machine Learning Proceedings 1991: Proceedings of the Eighth International Workshop (ML91). — Elsevier Science, 2014. — P. 364. — ISBN 978-1-4832-9817-7.
См. также
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.