일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- pandas
- 강화학습
- list
- 사이킷런
- Deep Learning
- Series
- David Silver
- neural network
- 김성훈 교수님
- convex optimization
- unity
- reinforcement learning
- optimization
- rl
- Linear algebra
- Python Programming
- 데이터 분석
- 판다스
- paper
- 모두를 위한 RL
- Laplacian
- 딥러닝
- Hessian Matrix
- statistics
- 유니티
- Jacobian Matrix
- 논문
- 리스트
- ML-Agent
- machine learning
목록Reinfrocement Learning/모두를 위한 RL (7)
RL Researcher
Q 함수의 근사가 Q-Net입니다. Q-Nets 자체도 쉬운 문제에 대해서 불안정한 상태를 보였습니다. 여러 문제들 때문에 $\hat{Q}$는 Q에 수렴하지 못했습니다. 위의 Q-Net의 문제를 해결한 알고리즘이 DQN알고리즘입니다. 두가지 큰 문제가 무엇인지 봅시다. 샘플 데이터간의 상관계수가 있다 타겟이 흔들린다. Q-Net을 초기화 시킨 후, initalize하고, Q-Net을 통해서 어떠한 Action을 할지 정합니다. 그런 다음 루프를 돌면서 Action을 취하면서 이동한 State에 대해서 환경과 보상을 받아옵니다. CartPole예제를 들면 5개의 Episode들이 받아오는 값들이 상관적일 것입니다. 두번째 문제는 타겟이 움직인다는 문제인데. 예측값과 Y Label(target)간의 오차를 ..
우리는 앞서 Q-Table에 대해서 완벽히 이해했었습니다. 어떠한 State에 대해서 Action이 주어지면 Q값을 최대화 할수 있는 방법으로 진행하게 되는 것입니다. 미로 문제 같은 경우 100x100x4형태의 array가 필요합니다. 위의 예제가 $2^{80 \times 80}$이므로 계산을 수행해 보았습니다. 우리는 위와 같이 실전 문제에 대해서는 Q-Table을 적용하지 못합니다. 위처럼 실행활에 Q-Table은 이용하지 못합니다. 그럴때 이용하느 것이 있습니다. 바로 Q-Network입니다. State에 대한 Action을 수행하게 되었을 때 어떠한 값을 출력합니다. 입력과 출력이 사용자가 조절이 가능하기 때문에 입력을 State만 줘 보겠습니다. 우리가 앞으로 사용하게 될 Q-NN입니다.(Ne..
실제 Frozen Lake문제는 바람이 부는 Frozen Lake문제입니다. Agent가 $s$에서 시작한다고 했을 때, 강의 환경을 알지 못합니다. 잘하면 $s_{1}$이라는 State에 도착을 하겠지만, 바람도 심하게 불고 미끄럽기 때문에 아래쪽이나 2칸을 더 가게되는 상황이 발생할 수 있습니다. 그래서 오른쪽으로 갈려고 해도 항상 오른쪽으로 가지는 것이 아닙니다. 우리는 위에서 설명한 이것을 nondeterministic 즉 Stochastic이라고 부릅니다. 오른쪽으로 간다고 했을 때 오른쪽으로 갈수 없을 수도 있으며 다른 위치에 도착해 있을 수도 있기 때문에 보상도 다를 수 있습니다. 우리가 이전까지 했던 바람이 불지않는 Frozen Lake는 Deterministic Game이라고 부릅니다. ..
전 게시글에서 봤던 Dummy Q-Learning algorithm입니다. 이것은 문제가 있습니다.. 이 문제가 어떠한 문제인지 알아보겠습니다. 우리는 Q값을 다음과 같이 업데이트 시켰습니다. 결과를 보게 되면 문제가 있다는 것을 눈치채실 겁니다. 이것을 현재값을 이용하는 Exploit과 탐험을 통해 더 좋은 Q값을 찾아 나서는 Exploration이 있습니다. 식당을 예로 들어보겠습니다. 많은 식당들 중 처음에는 아무곳도 가보지 않았기 때문에 전부 0점입니다. 어느 시점에서 이 식당들을 1번 씩 다 갔을 때 평일은 Exploit을 하고, 주말에는 Exploration을 하자라는 예가 있습니다. Q-Learning에서도 어떤 길을 갈 것인가에서 Exploit과 Exploration이 충돌합니다. 이것을 ..