Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- rl
- 모두를 위한 RL
- 논문
- ML-Agent
- 데이터 분석
- 강화학습
- Laplacian
- 판다스
- paper
- statistics
- Deep Learning
- unity
- Series
- Hessian Matrix
- 딥러닝
- pandas
- list
- convex optimization
- neural network
- Jacobian Matrix
- 김성훈 교수님
- reinforcement learning
- Linear algebra
- optimization
- machine learning
- 리스트
- 사이킷런
- Python Programming
- David Silver
- 유니티
Archives
목록Policy Gradient (1)
RL Researcher
Lecture 7: Policy Gradient
우리는 이전 강의들에서 $\theta$를 이용하여 State-value function 또는 Action-value Function에 근사하는 방법을 배웠었습니다. 이때까지는 Value-Function으로부터 생성된 Policy를 사용했었지만 이번 강의에서는 Policy를 Parameterise를 할 것입니다. $$\pi_{\theta}(s, a) = P[a \mid s, \theta]$$ 우리는 RL의 model-free기법에 초점을 맞추고 있을 것입니다. 저희가 이전까지 배웠던 것들은 전부 Value-Based Methods였습니다. 다른 방법으로는 Policy Based가 있습니다. (Value-function을 아예 학습하지 않고 Policy를 배우는 것) Value Based와 Policy Ba..
Reinfrocement Learning/David-Silver Lecture
2021. 2. 17. 10:01