Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- list
- neural network
- Python Programming
- paper
- optimization
- statistics
- David Silver
- Hessian Matrix
- 리스트
- pandas
- Linear algebra
- Jacobian Matrix
- Series
- 김성훈 교수님
- 유니티
- 모두를 위한 RL
- reinforcement learning
- convex optimization
- 사이킷런
- unity
- ML-Agent
- 강화학습
- Laplacian
- 딥러닝
- Deep Learning
- rl
- machine learning
- 데이터 분석
- 논문
- 판다스
Archives
목록Actor-Critic (1)
RL Researcher
Lecture 7: Policy Gradient
우리는 이전 강의들에서 $\theta$를 이용하여 State-value function 또는 Action-value Function에 근사하는 방법을 배웠었습니다. 이때까지는 Value-Function으로부터 생성된 Policy를 사용했었지만 이번 강의에서는 Policy를 Parameterise를 할 것입니다. $$\pi_{\theta}(s, a) = P[a \mid s, \theta]$$ 우리는 RL의 model-free기법에 초점을 맞추고 있을 것입니다. 저희가 이전까지 배웠던 것들은 전부 Value-Based Methods였습니다. 다른 방법으로는 Policy Based가 있습니다. (Value-function을 아예 학습하지 않고 Policy를 배우는 것) Value Based와 Policy Ba..
Reinfrocement Learning/David-Silver Lecture
2021. 2. 17. 10:01