Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- 리스트
- David Silver
- 데이터 분석
- Jacobian Matrix
- paper
- statistics
- Laplacian
- machine learning
- pandas
- 강화학습
- reinforcement learning
- 사이킷런
- Series
- list
- Hessian Matrix
- convex optimization
- unity
- neural network
- 딥러닝
- 김성훈 교수님
- 논문
- ML-Agent
- 유니티
- 모두를 위한 RL
- rl
- Python Programming
- 판다스
- optimization
- Linear algebra
- Deep Learning
Archives
목록Policy Gradient (1)
RL Researcher

우리는 이전 강의들에서 $\theta$를 이용하여 State-value function 또는 Action-value Function에 근사하는 방법을 배웠었습니다. 이때까지는 Value-Function으로부터 생성된 Policy를 사용했었지만 이번 강의에서는 Policy를 Parameterise를 할 것입니다. $$\pi_{\theta}(s, a) = P[a \mid s, \theta]$$ 우리는 RL의 model-free기법에 초점을 맞추고 있을 것입니다. 저희가 이전까지 배웠던 것들은 전부 Value-Based Methods였습니다. 다른 방법으로는 Policy Based가 있습니다. (Value-function을 아예 학습하지 않고 Policy를 배우는 것) Value Based와 Policy Ba..
Reinfrocement Learning/David-Silver Lecture
2021. 2. 17. 10:01