Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- unity
- Series
- Deep Learning
- paper
- optimization
- Jacobian Matrix
- 데이터 분석
- 딥러닝
- list
- reinforcement learning
- Linear algebra
- 사이킷런
- rl
- ML-Agent
- 모두를 위한 RL
- 유니티
- 김성훈 교수님
- 리스트
- pandas
- 판다스
- statistics
- Hessian Matrix
- Laplacian
- convex optimization
- David Silver
- 논문
- machine learning
- Python Programming
- 강화학습
- neural network
Archives
목록Q-Learning Table (1)
RL Researcher
Lecture 4: Q-Learning (table)
전 게시글에서 봤던 Dummy Q-Learning algorithm입니다. 이것은 문제가 있습니다.. 이 문제가 어떠한 문제인지 알아보겠습니다. 우리는 Q값을 다음과 같이 업데이트 시켰습니다. 결과를 보게 되면 문제가 있다는 것을 눈치채실 겁니다. 이것을 현재값을 이용하는 Exploit과 탐험을 통해 더 좋은 Q값을 찾아 나서는 Exploration이 있습니다. 식당을 예로 들어보겠습니다. 많은 식당들 중 처음에는 아무곳도 가보지 않았기 때문에 전부 0점입니다. 어느 시점에서 이 식당들을 1번 씩 다 갔을 때 평일은 Exploit을 하고, 주말에는 Exploration을 하자라는 예가 있습니다. Q-Learning에서도 어떤 길을 갈 것인가에서 Exploit과 Exploration이 충돌합니다. 이것을 ..
Reinfrocement Learning/모두를 위한 RL
2021. 2. 9. 17:57