Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- optimization
- 모두를 위한 RL
- Jacobian Matrix
- Laplacian
- Deep Learning
- 유니티
- reinforcement learning
- 김성훈 교수님
- Series
- 논문
- rl
- neural network
- 리스트
- Python Programming
- 강화학습
- Hessian Matrix
- David Silver
- statistics
- convex optimization
- pandas
- 판다스
- 딥러닝
- Linear algebra
- 데이터 분석
- 사이킷런
- unity
- machine learning
- list
- paper
- ML-Agent
Archives
목록DQN (1)
RL Researcher
Lecture 7: DQN
Q 함수의 근사가 Q-Net입니다. Q-Nets 자체도 쉬운 문제에 대해서 불안정한 상태를 보였습니다. 여러 문제들 때문에 $\hat{Q}$는 Q에 수렴하지 못했습니다. 위의 Q-Net의 문제를 해결한 알고리즘이 DQN알고리즘입니다. 두가지 큰 문제가 무엇인지 봅시다. 샘플 데이터간의 상관계수가 있다 타겟이 흔들린다. Q-Net을 초기화 시킨 후, initalize하고, Q-Net을 통해서 어떠한 Action을 할지 정합니다. 그런 다음 루프를 돌면서 Action을 취하면서 이동한 State에 대해서 환경과 보상을 받아옵니다. CartPole예제를 들면 5개의 Episode들이 받아오는 값들이 상관적일 것입니다. 두번째 문제는 타겟이 움직인다는 문제인데. 예측값과 Y Label(target)간의 오차를 ..
Reinfrocement Learning/모두를 위한 RL
2021. 2. 10. 03:46