Markov Decision Process(MDP)

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

관리 메뉴

RL Researcher

Markov Decision Process(MDP) 본문

Reinfrocement Learning

Markov Decision Process(MDP)

Lass_os 2021. 2. 9. 00:14

"Markov Decision Process(MDP)"

MDP는 MRP에 Action을 추가한 확률 과정입니다.

MDP는 $<S,A,P,R,\gamma>$ 인 튜플입니다.

$S$는 (유한한) 상태의 집합
$A$는 (유한한) 행동의 집합
$P$는 상태 천이 행렬, $P^{a}_{ss^{'}} = P[S_{t+1} = s^{'} \mid S_{t} = s, A_{t} = a]$ (더 이상 매트릭스로 표현이 불가능합니다. 3D구조로 표현해야 함.)
$R$은 보상 함수, $R:S \times A \rightarrow R$ (Stochastic / Deterministic 일 수 있음)
$\gamma$는 감소율, $\gamma \in [0,1]$ (0 ~ 1 사이의 실수값)

"정책 함수(Policy Function)"

정책함수 $\pi$는 현재 상태에서 수행할 행동의 확률 분포입니다.

$$\pi(a \mid s) = P(A_{t} = a \mid S_{t} = s)$$

Agent는 현재 상태 $s_{t}$ 를 활용하여, 현재의 a_{t}를 결정한다.
$s_{t}$를 아는 것이 역사를 아는 것과 동일하다는 Markov 특성을 가정하였으므로, 현재 상태만을 가지고 의사 결정을 해도 충분합니다.

"MDP, MRP와 MP의 관계"

MDP$<S,A,P,R,\gamma>$와 정책 $\pi$가 결정 됐을 때,

$S_{0},S_{1}, S_{2}, ...$는 MP이다.
$S_{0},R_{1},S_{1},R_{2},S_{2}$는 MRP $<S,P^{\pi},R^{\pi},\gamma>$입니다.

$$P^{\pi}_{ss^{'}} = \sum_{a \in A}\pi(a \mid s)P^{a}_{ss^{'}}$$

$$P^{\pi}_{s} = \sum_{a \in A}\pi(a \mid s)R^{a}_{s}$$

좋은 $\pi$를 가지고 있다면, 최대한 많은 이득을 얻는 것이 가능합니다.

"MDP의 가치함수"

상태 가치함수(State-value-function) : $V_{\pi}(s) = E_{\pi}[G_{t} \mid S_{t} = s]$

현재 $t$상태 $s$에서 정책 $\pi$를 따른다면 얻을 미래의 가치의 감가 총합

행동 가치함수(Action-value-function) : $Q_{\pi}(s) = E_{\pi}[G_{t} \mid S_{t} = s,A_{t} = a]$

현재 $t$ 상태 $s$에서 $a$라는 행동을 추한 수, 정책 $\pi$를 따른다면 얻을 미래의 가치의 감가 총합

"상태가치 함수 $V$와 행동가치 함수 $Q$의 관계"

행동 가치함수 $\rightarrow$ 상태 가치함수

$$V_{\pi}(s) = \sum_{a \in A}\pi(a \mid s)Q_{\pi}(s,a)$$

상태 가치함수 $\rightarrow$ 행동 가치함수

$$Q_{\pi}(s,a) = R^{a}_{s} + \gamma\sum_{s^{'} \in S}P^{a}_{ss^{'}}V_{\pi(s^{'})}$$

저작자표시 비영리 변경금지

'Reinfrocement Learning' 카테고리의 다른 글

01. Introduction to Reinforcement Learning (0)	2021.04.03
강화학습 공부 자료 (0)	2021.02.27
MAB Problem (0)	2021.02.19
강화학습 문제와 가치기반 강화학습 문제의 풀이기법 (0)	2021.02.08
강화학습(Reinforcement Learning) 개요 (0)	2021.01.25

'Reinfrocement Learning' Related Articles

Comments

RL Researcher

Markov Decision Process(MDP) 본문

Markov Decision Process(MDP)

"Markov Decision Process(MDP)"

"정책 함수(Policy Function)"

"MDP, MRP와 MP의 관계"

"MDP의 가치함수"

"상태가치 함수 $V$와 행동가치 함수 $Q$의 관계"

'Reinfrocement Learning' 카테고리의 다른 글

티스토리툴바