일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Python Programming
- Jacobian Matrix
- 모두를 위한 RL
- 유니티
- Linear algebra
- 논문
- rl
- ML-Agent
- Series
- 김성훈 교수님
- 딥러닝
- neural network
- 사이킷런
- paper
- Laplacian
- list
- convex optimization
- machine learning
- optimization
- Hessian Matrix
- 리스트
- reinforcement learning
- Deep Learning
- 판다스
- statistics
- 데이터 분석
- David Silver
- pandas
- 강화학습
- unity
목록David Silver (6)
RL Researcher

우리는 이전 강의들에서 θ를 이용하여 State-value function 또는 Action-value Function에 근사하는 방법을 배웠었습니다. 이때까지는 Value-Function으로부터 생성된 Policy를 사용했었지만 이번 강의에서는 Policy를 Parameterise를 할 것입니다. πθ(s,a)=P[a∣s,θ] 우리는 RL의 model-free기법에 초점을 맞추고 있을 것입니다. 저희가 이전까지 배웠던 것들은 전부 Value-Based Methods였습니다. 다른 방법으로는 Policy Based가 있습니다. (Value-function을 아예 학습하지 않고 Policy를 배우는 것) Value Based와 Policy Ba..

RL은 다음과 같이 큰 문제들을 풀 수 있습니다 Backgammon Game : 1020개의 State Computer Go : 10^{170}"개의 State Helicopter : 연속적인 공간 내에서 움직이기 때문에 값이 무한적입니다. 지난 2개의 강의에서 배웠던 Model-Free 메소드인 MC, TD에서 Prediction과 Control 문제를 어떻게 확장할 수 있을까요? 위의 질문에 답을 할 수 있는 Value Function Approximation을 통해서 Scale up이 가능합니다. 우리는 전 강의들 까지는 lookup table 방식으로 value function을 표현해 왔습니다. V(s)는 State s의 개수만큼 빈칸이 존재했습니다. Q(s,a)는 모든 ..

다시 한번 Prediction과 Control의 차이을 알아보겠습니다. Prediction (Value Function을 찾는 문제입니다.) 입력 : MDP $

이번시간에는 Model-Free(Environment를 알지 못할때)에 대해서 알아보겠습니다. Monte-Carlo기법은 에피소드에서의 경험으로부터 직접 배웁니다. Monte-Carlo기법은 Model-Free 이며(환경에 대해서 모름), MDP의 변환이나 보상에 대해서 알지 못합니다. Monte-Carlo기법은 부트스트랩이 존재하지 않으며 다 끝난 에피소드를 거치면서 배웁니다. Monte-Carlo기법은 episodic MDPs에만 Monte-Carlo가 적용가능합니다. 모든 Episode들은 반드시 종료되어야 합니다. 목표 : 정책 \pi에 따른 Episode에서의 경험으로부터 v_{\pi}를 배웁니다. S_{1},A_{1},R_{2},...,S_{k}\sim\pi 반환값은 총 할인된 ..