RL Researcher

Markov Decision Process(MDP) 본문

Reinfrocement Learning

Markov Decision Process(MDP)

Lass_os 2021. 2. 9. 00:14

"Markov Decision Process(MDP)"

MDP는 MRP에 Action을 추가한 확률 과정입니다.

MDP는 $<S,A,P,R,\gamma>$ 인 튜플입니다.

  • $S$는 (유한한) 상태의 집합
  • $A$는 (유한한) 행동의 집합
  • $P$는 상태 천이 행렬, $P^{a}_{ss^{'}} = P[S_{t+1} = s^{'} \mid S_{t} = s, A_{t} = a]$ (더 이상 매트릭스로 표현이 불가능합니다. 3D구조로 표현해야 함.)
  • $R$은 보상 함수, $R:S \times A \rightarrow R$ (Stochastic / Deterministic 일 수 있음)
  • $\gamma$는 감소율, $\gamma \in [0,1]$ (0 ~ 1 사이의 실수값)

"정책 함수(Policy Function)"

정책함수 $\pi$는 현재 상태에서 수행할 행동의 확률 분포입니다.

$$\pi(a \mid s) = P(A_{t} = a \mid S_{t} = s)$$

  • Agent는 현재 상태 $s_{t}$ 를 활용하여, 현재의 a_{t}를 결정한다.
  • $s_{t}$를 아는 것이 역사를 아는 것과 동일하다는 Markov 특성을 가정하였으므로, 현재 상태만을 가지고 의사 결정을 해도 충분합니다.

"MDP, MRP와 MP의 관계"

MDP$<S,A,P,R,\gamma>$와 정책 $\pi$가 결정 됐을 때,

  • $S_{0},S_{1}, S_{2}, ...$는 MP이다.
  • $S_{0},R_{1},S_{1},R_{2},S_{2}$는 MRP $<S,P^{\pi},R^{\pi},\gamma>$입니다.

$$P^{\pi}_{ss^{'}} = \sum_{a \in A}\pi(a \mid s)P^{a}_{ss^{'}}$$

$$P^{\pi}_{s} = \sum_{a \in A}\pi(a \mid s)R^{a}_{s}$$

좋은 $\pi$를 가지고 있다면, 최대한 많은 이득을 얻는 것이 가능합니다.


"MDP의 가치함수"

상태 가치함수(State-value-function) : $V_{\pi}(s) = E_{\pi}[G_{t} \mid S_{t} = s]$

  • 현재 $t$상태 $s$에서 정책 $\pi$를 따른다면 얻을 미래의 가치의 감가 총합

행동 가치함수(Action-value-function) : $Q_{\pi}(s) = E_{\pi}[G_{t} \mid S_{t} = s,A_{t} = a]$

  • 현재 $t$ 상태 $s$에서 $a$라는 행동을 추한 수, 정책 $\pi$를 따른다면 얻을 미래의 가치의 감가 총합

"상태가치 함수 $V$와 행동가치 함수 $Q$의 관계"

행동 가치함수 $\rightarrow$ 상태 가치함수

$$V_{\pi}(s) = \sum_{a \in A}\pi(a \mid s)Q_{\pi}(s,a)$$

상태 가치함수 $\rightarrow$ 행동 가치함수

$$Q_{\pi}(s,a) = R^{a}_{s} + \gamma\sum_{s^{'} \in S}P^{a}_{ss^{'}}V_{\pi(s^{'})}$$

Comments