'Reinfrocement Learning' 카테고리의 글 목록 (5 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

관리 메뉴

목록Reinfrocement Learning (25)

RL Researcher

강화학습 문제와 가치기반 강화학습 문제의 풀이기법

"강화학습 문제" 강화학습의 순차적인 문제를 우리는 Markov Decision Process(마르코프 결정과정), 또는 MDP라고 정의합니다.(Markov Chain) "강화학습의 문제 풀이 방법" 환경에 대해서 알 때 : Dynamic Programming(DP : 동적 계획법) 장점 : (상대적으로) 문제를 해결하기 쉬움, 매우 효율적임 단점 : 현실적이지 못함 환경에 대해서 모를 때 : Monte-Carlo(MC : 몬테 카를로), Temporal Difference(TD : 시간차) 장점 : 현실의 문제상황에 적용이 가능 단점 : (DP에 비해) 효율성이 떨어짐 "마르코프 특성(Markov property)" "어떠한 상태 $s_{t}$는 Markov 하다"의 정의 : $$P(s_{t+1} \m..

Reinfrocement Learning 2021. 2. 8. 22:19

Unity ML 기초

1. 머신러닝(ML)이란? 기계학습 또는 머신러닝은 인공지능의 한 분야입니다. 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야 대량의 데이터나 알고리즘을 통해 '학습'을 시켜 수행하는 방식입니다. (기초 데이터를 주지 않아도 스스로 학습을 통하여 결과를 추측해냅니다.) 2. 학습의 종류 강화학습(PPO) 모방학습 커리큘럼 학습 관찰학습 3. Unity ML - Agent 훈련 주기 Agent의 행동 Environment(환경)의 상태 변경 Agent에게 보상을 제공 4. Unity ML - Agent 내부 구조 Agent 각각의 Agent는 고유의 상태 및 관측 값을 가지고 있습니다. Environment내에서 고유의 행동을 수행하며 Enviornment에서 일어나는 이벤트에 따라 고유의..

Reinfrocement Learning/Unity-ML 2021. 2. 7. 22:03

Lecture 6: Value Function Approximation

RL은 다음과 같이 큰 문제들을 풀 수 있습니다 Backgammon Game : $10^{20}$개의 State Computer Go : $10^{170}"$개의 State Helicopter : 연속적인 공간 내에서 움직이기 때문에 값이 무한적입니다. 지난 2개의 강의에서 배웠던 Model-Free 메소드인 MC, TD에서 Prediction과 Control 문제를 어떻게 확장할 수 있을까요? 위의 질문에 답을 할 수 있는 Value Function Approximation을 통해서 Scale up이 가능합니다. 우리는 전 강의들 까지는 lookup table 방식으로 value function을 표현해 왔습니다. $V(s)$는 State $s$의 개수만큼 빈칸이 존재했습니다. $Q(s,a)$는 모든 ..

Reinfrocement Learning/David-Silver Lecture 2021. 2. 4. 16:59

Lecture 5: Model-Free Control

다시 한번 Prediction과 Control의 차이을 알아보겠습니다. Prediction (Value Function을 찾는 문제입니다.) 입력 : MDP $

Reinfrocement Learning/David-Silver Lecture 2021. 2. 3. 17:28

Prev 1 2 3 4 5 6 7 Next

목록Reinfrocement Learning (25)

RL Researcher

티스토리툴바