Reinfrocement Learning
Markov Decision Process(MDP)
Lass_os
2021. 2. 9. 00:14
"Markov Decision Process(MDP)"
MDP는 MRP에 Action을 추가한 확률 과정입니다.
MDP는 $<S,A,P,R,\gamma>$ 인 튜플입니다.
- $S$는 (유한한) 상태의 집합
- $A$는 (유한한) 행동의 집합
- $P$는 상태 천이 행렬, $P^{a}_{ss^{'}} = P[S_{t+1} = s^{'} \mid S_{t} = s, A_{t} = a]$ (더 이상 매트릭스로 표현이 불가능합니다. 3D구조로 표현해야 함.)
- $R$은 보상 함수, $R:S \times A \rightarrow R$ (Stochastic / Deterministic 일 수 있음)
- $\gamma$는 감소율, $\gamma \in [0,1]$ (0 ~ 1 사이의 실수값)
"정책 함수(Policy Function)"
정책함수 $\pi$는 현재 상태에서 수행할 행동의 확률 분포입니다.
$$\pi(a \mid s) = P(A_{t} = a \mid S_{t} = s)$$
- Agent는 현재 상태 $s_{t}$ 를 활용하여, 현재의 a_{t}를 결정한다.
- $s_{t}$를 아는 것이 역사를 아는 것과 동일하다는 Markov 특성을 가정하였으므로, 현재 상태만을 가지고 의사 결정을 해도 충분합니다.
"MDP, MRP와 MP의 관계"
MDP$<S,A,P,R,\gamma>$와 정책 $\pi$가 결정 됐을 때,
- $S_{0},S_{1}, S_{2}, ...$는 MP이다.
- $S_{0},R_{1},S_{1},R_{2},S_{2}$는 MRP $<S,P^{\pi},R^{\pi},\gamma>$입니다.
$$P^{\pi}_{ss^{'}} = \sum_{a \in A}\pi(a \mid s)P^{a}_{ss^{'}}$$
$$P^{\pi}_{s} = \sum_{a \in A}\pi(a \mid s)R^{a}_{s}$$
좋은 $\pi$를 가지고 있다면, 최대한 많은 이득을 얻는 것이 가능합니다.
"MDP의 가치함수"
상태 가치함수(State-value-function) : $V_{\pi}(s) = E_{\pi}[G_{t} \mid S_{t} = s]$
- 현재 $t$상태 $s$에서 정책 $\pi$를 따른다면 얻을 미래의 가치의 감가 총합
행동 가치함수(Action-value-function) : $Q_{\pi}(s) = E_{\pi}[G_{t} \mid S_{t} = s,A_{t} = a]$
- 현재 $t$ 상태 $s$에서 $a$라는 행동을 추한 수, 정책 $\pi$를 따른다면 얻을 미래의 가치의 감가 총합
"상태가치 함수 $V$와 행동가치 함수 $Q$의 관계"
행동 가치함수 $\rightarrow$ 상태 가치함수
$$V_{\pi}(s) = \sum_{a \in A}\pi(a \mid s)Q_{\pi}(s,a)$$
상태 가치함수 $\rightarrow$ 행동 가치함수
$$Q_{\pi}(s,a) = R^{a}_{s} + \gamma\sum_{s^{'} \in S}P^{a}_{ss^{'}}V_{\pi(s^{'})}$$