'David Silver' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

관리 메뉴

목록David Silver (6)

RL Researcher

Lecture 7: Policy Gradient

우리는 이전 강의들에서 $\theta$를 이용하여 State-value function 또는 Action-value Function에 근사하는 방법을 배웠었습니다. 이때까지는 Value-Function으로부터 생성된 Policy를 사용했었지만 이번 강의에서는 Policy를 Parameterise를 할 것입니다. $$\pi_{\theta}(s, a) = P[a \mid s, \theta]$$ 우리는 RL의 model-free기법에 초점을 맞추고 있을 것입니다. 저희가 이전까지 배웠던 것들은 전부 Value-Based Methods였습니다. 다른 방법으로는 Policy Based가 있습니다. (Value-function을 아예 학습하지 않고 Policy를 배우는 것) Value Based와 Policy Ba..

Reinfrocement Learning/David-Silver Lecture 2021. 2. 17. 10:01

Lecture 6: Value Function Approximation

RL은 다음과 같이 큰 문제들을 풀 수 있습니다 Backgammon Game : $10^{20}$개의 State Computer Go : $10^{170}"$개의 State Helicopter : 연속적인 공간 내에서 움직이기 때문에 값이 무한적입니다. 지난 2개의 강의에서 배웠던 Model-Free 메소드인 MC, TD에서 Prediction과 Control 문제를 어떻게 확장할 수 있을까요? 위의 질문에 답을 할 수 있는 Value Function Approximation을 통해서 Scale up이 가능합니다. 우리는 전 강의들 까지는 lookup table 방식으로 value function을 표현해 왔습니다. $V(s)$는 State $s$의 개수만큼 빈칸이 존재했습니다. $Q(s,a)$는 모든 ..

Reinfrocement Learning/David-Silver Lecture 2021. 2. 4. 16:59

Lecture 5: Model-Free Control

다시 한번 Prediction과 Control의 차이을 알아보겠습니다. Prediction (Value Function을 찾는 문제입니다.) 입력 : MDP $

Reinfrocement Learning/David-Silver Lecture 2021. 2. 3. 17:28

Lecture 4: Model-Free Prediction

이번시간에는 Model-Free(Environment를 알지 못할때)에 대해서 알아보겠습니다. Monte-Carlo기법은 에피소드에서의 경험으로부터 직접 배웁니다. Monte-Carlo기법은 Model-Free 이며(환경에 대해서 모름), MDP의 변환이나 보상에 대해서 알지 못합니다. Monte-Carlo기법은 부트스트랩이 존재하지 않으며 다 끝난 에피소드를 거치면서 배웁니다. Monte-Carlo기법은 episodic MDPs에만 Monte-Carlo가 적용가능합니다. 모든 Episode들은 반드시 종료되어야 합니다. 목표 : 정책 $\pi$에 따른 Episode에서의 경험으로부터 $v_{\pi}$를 배웁니다. $$S_{1},A_{1},R_{2},...,S_{k}\sim\pi$$ 반환값은 총 할인된 ..

Reinfrocement Learning/David-Silver Lecture 2021. 2. 3. 04:02

Prev 1 2 Next

목록David Silver (6)

RL Researcher

티스토리툴바