'mdp' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

관리 메뉴

글쓰기
방명록
RSS
관리

목록mdp (1)

RL Researcher

Markov Decision Process(MDP)

"Markov Decision Process(MDP)" MDP는 MRP에 Action을 추가한 확률 과정입니다. MDP는 $$ 인 튜플입니다. $S$는 (유한한) 상태의 집합 $A$는 (유한한) 행동의 집합 $P$는 상태 천이 행렬, $P^{a}_{ss^{'}} = P[S_{t+1} = s^{'} \mid S_{t} = s, A_{t} = a]$ (더 이상 매트릭스로 표현이 불가능합니다. 3D구조로 표현해야 함.) $R$은 보상 함수, $R:S \times A \rightarrow R$ (Stochastic / Deterministic 일 수 있음) $\gamma$는 감소율, $\gamma \in [0,1]$ (0 ~ 1 사이의 실수값) "정책 함수(Policy Function)" 정책함수 $\pi$는 ..

Reinfrocement Learning 2021. 2. 9. 00:14

Prev 1 Next

목록mdp (1)

RL Researcher

티스토리툴바