Markov Decision Process(MDP)

Reinfrocement Learning

Lass_os 2021. 2. 9. 00:14

MDP는 MRP에 Action을 추가한 확률 과정입니다.

MDP는 $<S,A,P,R,\gamma>$ 인 튜플입니다.

$S$는 (유한한) 상태의 집합
$A$는 (유한한) 행동의 집합
$P$는 상태 천이 행렬, $P^{a}_{ss^{'}} = P[S_{t+1} = s^{'} \mid S_{t} = s, A_{t} = a]$ (더 이상 매트릭스로 표현이 불가능합니다. 3D구조로 표현해야 함.)
$R$은 보상 함수, $R:S \times A \rightarrow R$ (Stochastic / Deterministic 일 수 있음)
$\gamma$는 감소율, $\gamma \in [0,1]$ (0 ~ 1 사이의 실수값)

정책함수 $\pi$는 현재 상태에서 수행할 행동의 확률 분포입니다.

$$\pi(a \mid s) = P(A_{t} = a \mid S_{t} = s)$$

MDP$<S,A,P,R,\gamma>$와 정책 $\pi$가 결정 됐을 때,

$$P^{\pi}_{ss^{'}} = \sum_{a \in A}\pi(a \mid s)P^{a}_{ss^{'}}$$

$$P^{\pi}_{s} = \sum_{a \in A}\pi(a \mid s)R^{a}_{s}$$

좋은 $\pi$를 가지고 있다면, 최대한 많은 이득을 얻는 것이 가능합니다.

상태 가치함수(State-value-function) : $V_{\pi}(s) = E_{\pi}[G_{t} \mid S_{t} = s]$

행동 가치함수(Action-value-function) : $Q_{\pi}(s) = E_{\pi}[G_{t} \mid S_{t} = s,A_{t} = a]$

행동 가치함수 $\rightarrow$ 상태 가치함수

$$V_{\pi}(s) = \sum_{a \in A}\pi(a \mid s)Q_{\pi}(s,a)$$

상태 가치함수 $\rightarrow$ 행동 가치함수

$$Q_{\pi}(s,a) = R^{a}_{s} + \gamma\sum_{s^{'} \in S}P^{a}_{ss^{'}}V_{\pi(s^{'})}$$