일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- reinforcement learning
- 유니티
- 강화학습
- 사이킷런
- Laplacian
- pandas
- 데이터 분석
- machine learning
- Hessian Matrix
- list
- 김성훈 교수님
- 판다스
- David Silver
- paper
- Python Programming
- optimization
- ML-Agent
- 리스트
- 논문
- Linear algebra
- statistics
- convex optimization
- Deep Learning
- Series
- unity
- rl
- 모두를 위한 RL
- 딥러닝
- neural network
- Jacobian Matrix
목록강화학습 (21)
RL Researcher
전 게시글에서 봤던 Dummy Q-Learning algorithm입니다. 이것은 문제가 있습니다.. 이 문제가 어떠한 문제인지 알아보겠습니다. 우리는 Q값을 다음과 같이 업데이트 시켰습니다. 결과를 보게 되면 문제가 있다는 것을 눈치채실 겁니다. 이것을 현재값을 이용하는 Exploit과 탐험을 통해 더 좋은 Q값을 찾아 나서는 Exploration이 있습니다. 식당을 예로 들어보겠습니다. 많은 식당들 중 처음에는 아무곳도 가보지 않았기 때문에 전부 0점입니다. 어느 시점에서 이 식당들을 1번 씩 다 갔을 때 평일은 Exploit을 하고, 주말에는 Exploration을 하자라는 예가 있습니다. Q-Learning에서도 어떤 길을 갈 것인가에서 Exploit과 Exploration이 충돌합니다. 이것을 ..
전의 Lecture에서도 설명했듯이 이 게임은 우리가 보기에는 쉬워 보이지만 Agent는 Enviornment를 전혀 모르기 때문에 Action을 통해서 State와 Reward값을 통해서 환경이 어떠한지 알아내야 합니다. 어차피 Agent는 아무것도 모르기 때문에 Random하게 가보는 건 어떨까? 처음에는 Random하게 할 수 있지만 계속 그렇게 한다면 성공할 수 있는 확률이 매우 낮습니다. 어떤 State에 갔더니 Q가 있습니다.(Q는 상태 행동 가치함수(State-action value function)) 이러한 Q-Learning의 핵심은 Q입니다. Q는 Agent의 State와 Action을 입력을 받으면 Q에서 보상의 기댓값(Return)을 반환해 줍니다. 다음은 정책을 이용한 Q함수에 대..
첫번째 OpenAI GYM을 이용한 예제입니다. S는 현재 Agent의 State입니다. F는 얼어붙은 강이며 H는 구멍입니다. G는 Goal입니다. Agent가 움직일 수 있는 수는 1/4가지입니다.(Up,Down,Right,Left) Agent는 어떠한 Action을 취합니다.(right, left, up, down) Agent의 Action에 따라서 Environment는 State(Observation)d와 Reward를 돌려줍니다. Agent가 Right라는 Action을 Environment 에서 취하였습니다. 그렇다면 현재 스테이트는 1이며, 보상(Reward)은 없습니다. OpenAI는 전체적인 Framework를 만들어주는 것입니다. 상세한 정보는 OpenAI 홈페이지에 가게 되면 볼 수..
RL은 어떠한 것을 훈련시킬 때 많이 사용합니다. ex) 강아지를 훈련 실생활에서의 학습에 대해서 설명하고 있습니다. RL에는 크게 2가지로 나뉩니다. Environment Agent 기본적인 구조는 Agent가 Environment에서 어떤 Action을 하게 되는데, Action을 할 때 마다 State가 변경됩니다. 관찰정보가 달라집니다.(Observation or State) 어떠한 행동의 끝에는 치즈를 찾는 것이 목표일 때 매 순간마다 잘했다 못했다의 지표가 주어지는 것은 아니지만 일련의 Action을 하다 보면 치즈를 보상으로 받게 될 수 있습니다. 위의 책을 보시면 1997년의 책이지만 RL에 대해서 나와 있습니다. RL에 대해서는 엄청 오래 되었습니다. 그 전까지는 RL이 다른 학습 알고리..