일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- optimization
- Laplacian
- Jacobian Matrix
- 강화학습
- rl
- reinforcement learning
- convex optimization
- 리스트
- Series
- unity
- 판다스
- 논문
- machine learning
- 데이터 분석
- Hessian Matrix
- 딥러닝
- 유니티
- neural network
- statistics
- Deep Learning
- Linear algebra
- ML-Agent
- 모두를 위한 RL
- pandas
- David Silver
- 사이킷런
- Python Programming
- list
- paper
- 김성훈 교수님
목록모두를 위한 RL (5)
RL Researcher
Q 함수의 근사가 Q-Net입니다. Q-Nets 자체도 쉬운 문제에 대해서 불안정한 상태를 보였습니다. 여러 문제들 때문에 $\hat{Q}$는 Q에 수렴하지 못했습니다. 위의 Q-Net의 문제를 해결한 알고리즘이 DQN알고리즘입니다. 두가지 큰 문제가 무엇인지 봅시다. 샘플 데이터간의 상관계수가 있다 타겟이 흔들린다. Q-Net을 초기화 시킨 후, initalize하고, Q-Net을 통해서 어떠한 Action을 할지 정합니다. 그런 다음 루프를 돌면서 Action을 취하면서 이동한 State에 대해서 환경과 보상을 받아옵니다. CartPole예제를 들면 5개의 Episode들이 받아오는 값들이 상관적일 것입니다. 두번째 문제는 타겟이 움직인다는 문제인데. 예측값과 Y Label(target)간의 오차를 ..
우리는 앞서 Q-Table에 대해서 완벽히 이해했었습니다. 어떠한 State에 대해서 Action이 주어지면 Q값을 최대화 할수 있는 방법으로 진행하게 되는 것입니다. 미로 문제 같은 경우 100x100x4형태의 array가 필요합니다. 위의 예제가 $2^{80 \times 80}$이므로 계산을 수행해 보았습니다. 우리는 위와 같이 실전 문제에 대해서는 Q-Table을 적용하지 못합니다. 위처럼 실행활에 Q-Table은 이용하지 못합니다. 그럴때 이용하느 것이 있습니다. 바로 Q-Network입니다. State에 대한 Action을 수행하게 되었을 때 어떠한 값을 출력합니다. 입력과 출력이 사용자가 조절이 가능하기 때문에 입력을 State만 줘 보겠습니다. 우리가 앞으로 사용하게 될 Q-NN입니다.(Ne..
실제 Frozen Lake문제는 바람이 부는 Frozen Lake문제입니다. Agent가 $s$에서 시작한다고 했을 때, 강의 환경을 알지 못합니다. 잘하면 $s_{1}$이라는 State에 도착을 하겠지만, 바람도 심하게 불고 미끄럽기 때문에 아래쪽이나 2칸을 더 가게되는 상황이 발생할 수 있습니다. 그래서 오른쪽으로 갈려고 해도 항상 오른쪽으로 가지는 것이 아닙니다. 우리는 위에서 설명한 이것을 nondeterministic 즉 Stochastic이라고 부릅니다. 오른쪽으로 간다고 했을 때 오른쪽으로 갈수 없을 수도 있으며 다른 위치에 도착해 있을 수도 있기 때문에 보상도 다를 수 있습니다. 우리가 이전까지 했던 바람이 불지않는 Frozen Lake는 Deterministic Game이라고 부릅니다. ..
첫번째 OpenAI GYM을 이용한 예제입니다. S는 현재 Agent의 State입니다. F는 얼어붙은 강이며 H는 구멍입니다. G는 Goal입니다. Agent가 움직일 수 있는 수는 1/4가지입니다.(Up,Down,Right,Left) Agent는 어떠한 Action을 취합니다.(right, left, up, down) Agent의 Action에 따라서 Environment는 State(Observation)d와 Reward를 돌려줍니다. Agent가 Right라는 Action을 Environment 에서 취하였습니다. 그렇다면 현재 스테이트는 1이며, 보상(Reward)은 없습니다. OpenAI는 전체적인 Framework를 만들어주는 것입니다. 상세한 정보는 OpenAI 홈페이지에 가게 되면 볼 수..