Марковский процесс принятия решений

Марковский процесс принятия решений (англ. Markov decision process (MDP)) — спецификация задачи последовательного принятия решений для полностью наблюдаемой среды с марковской моделью перехода и дополнительными вознаграждениями. Назван в честь Андрея Маркова, служит математической основой для того, чтобы смоделировать принятие решения в ситуациях, где результаты частично случайны и частично под контролем лица, принимающего решения. Сегодня эта спецификация используется во множестве областей, включая робототехнику, автоматизированное управление, экономику и производство.

Определение

Пример MDP с 3 состояниями и 2 действиями

Чтобы определить марковский процесс принятия решений, нужно задать 4-кортеж $(S,A,P_{\cdot }(\cdot ,\cdot ),R_{\cdot }(\cdot ,\cdot ))$ , где

$S$ конечное множество состояний,
$A$ конечное множество действий (часто представляется в виде множеств $A_{s}$ , доступных из состояния $s$ ),
$P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ вероятность, что действие $a$ в состоянии $s$ во время $t$ приведет в состояние $s'$ ко времени $t+1$ ,
$R_{a}(s,s')$ вознаграждение, получаемое после перехода в состояние $s'$ из состояния $s$ с вероятностью перехода $P_{a}(s,s')$ .

См. также

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.