Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 딥러닝
- machine learning
- ML-Agent
- pandas
- David Silver
- neural network
- optimization
- 사이킷런
- 리스트
- Hessian Matrix
- Python Programming
- Deep Learning
- Linear algebra
- rl
- 김성훈 교수님
- 모두를 위한 RL
- paper
- 강화학습
- Laplacian
- 판다스
- Jacobian Matrix
- reinforcement learning
- 논문
- 유니티
- list
- Series
- 데이터 분석
- statistics
- unity
- convex optimization
Archives
RL Researcher
Markov Decision Process(MDP) 본문
"Markov Decision Process(MDP)"
MDP는 MRP에 Action을 추가한 확률 과정입니다.
MDP는 $<S,A,P,R,\gamma>$ 인 튜플입니다.
- $S$는 (유한한) 상태의 집합
- $A$는 (유한한) 행동의 집합
- $P$는 상태 천이 행렬, $P^{a}_{ss^{'}} = P[S_{t+1} = s^{'} \mid S_{t} = s, A_{t} = a]$ (더 이상 매트릭스로 표현이 불가능합니다. 3D구조로 표현해야 함.)
- $R$은 보상 함수, $R:S \times A \rightarrow R$ (Stochastic / Deterministic 일 수 있음)
- $\gamma$는 감소율, $\gamma \in [0,1]$ (0 ~ 1 사이의 실수값)
"정책 함수(Policy Function)"
정책함수 $\pi$는 현재 상태에서 수행할 행동의 확률 분포입니다.
$$\pi(a \mid s) = P(A_{t} = a \mid S_{t} = s)$$
- Agent는 현재 상태 $s_{t}$ 를 활용하여, 현재의 a_{t}를 결정한다.
- $s_{t}$를 아는 것이 역사를 아는 것과 동일하다는 Markov 특성을 가정하였으므로, 현재 상태만을 가지고 의사 결정을 해도 충분합니다.
"MDP, MRP와 MP의 관계"
MDP$<S,A,P,R,\gamma>$와 정책 $\pi$가 결정 됐을 때,
- $S_{0},S_{1}, S_{2}, ...$는 MP이다.
- $S_{0},R_{1},S_{1},R_{2},S_{2}$는 MRP $<S,P^{\pi},R^{\pi},\gamma>$입니다.
$$P^{\pi}_{ss^{'}} = \sum_{a \in A}\pi(a \mid s)P^{a}_{ss^{'}}$$
$$P^{\pi}_{s} = \sum_{a \in A}\pi(a \mid s)R^{a}_{s}$$
좋은 $\pi$를 가지고 있다면, 최대한 많은 이득을 얻는 것이 가능합니다.
"MDP의 가치함수"
상태 가치함수(State-value-function) : $V_{\pi}(s) = E_{\pi}[G_{t} \mid S_{t} = s]$
- 현재 $t$상태 $s$에서 정책 $\pi$를 따른다면 얻을 미래의 가치의 감가 총합
행동 가치함수(Action-value-function) : $Q_{\pi}(s) = E_{\pi}[G_{t} \mid S_{t} = s,A_{t} = a]$
- 현재 $t$ 상태 $s$에서 $a$라는 행동을 추한 수, 정책 $\pi$를 따른다면 얻을 미래의 가치의 감가 총합
"상태가치 함수 $V$와 행동가치 함수 $Q$의 관계"
행동 가치함수 $\rightarrow$ 상태 가치함수
$$V_{\pi}(s) = \sum_{a \in A}\pi(a \mid s)Q_{\pi}(s,a)$$
상태 가치함수 $\rightarrow$ 행동 가치함수
$$Q_{\pi}(s,a) = R^{a}_{s} + \gamma\sum_{s^{'} \in S}P^{a}_{ss^{'}}V_{\pi(s^{'})}$$
'Reinfrocement Learning' 카테고리의 다른 글
01. Introduction to Reinforcement Learning (0) | 2021.04.03 |
---|---|
강화학습 공부 자료 (0) | 2021.02.27 |
MAB Problem (0) | 2021.02.19 |
강화학습 문제와 가치기반 강화학습 문제의 풀이기법 (0) | 2021.02.08 |
강화학습(Reinforcement Learning) 개요 (0) | 2021.01.25 |
Comments