일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- machine learning
- optimization
- Jacobian Matrix
- Hessian Matrix
- list
- 논문
- ML-Agent
- 유니티
- 판다스
- 강화학습
- 리스트
- 김성훈 교수님
- reinforcement learning
- statistics
- Linear algebra
- David Silver
- Deep Learning
- Laplacian
- rl
- 모두를 위한 RL
- 딥러닝
- convex optimization
- Python Programming
- paper
- neural network
- Series
- unity
- pandas
- 사이킷런
- 데이터 분석
목록Reinfrocement Learning/모두를 위한 RL (7)
RL Researcher
전의 Lecture에서도 설명했듯이 이 게임은 우리가 보기에는 쉬워 보이지만 Agent는 Enviornment를 전혀 모르기 때문에 Action을 통해서 State와 Reward값을 통해서 환경이 어떠한지 알아내야 합니다. 어차피 Agent는 아무것도 모르기 때문에 Random하게 가보는 건 어떨까? 처음에는 Random하게 할 수 있지만 계속 그렇게 한다면 성공할 수 있는 확률이 매우 낮습니다. 어떤 State에 갔더니 Q가 있습니다.(Q는 상태 행동 가치함수(State-action value function)) 이러한 Q-Learning의 핵심은 Q입니다. Q는 Agent의 State와 Action을 입력을 받으면 Q에서 보상의 기댓값(Return)을 반환해 줍니다. 다음은 정책을 이용한 Q함수에 대..
첫번째 OpenAI GYM을 이용한 예제입니다. S는 현재 Agent의 State입니다. F는 얼어붙은 강이며 H는 구멍입니다. G는 Goal입니다. Agent가 움직일 수 있는 수는 1/4가지입니다.(Up,Down,Right,Left) Agent는 어떠한 Action을 취합니다.(right, left, up, down) Agent의 Action에 따라서 Environment는 State(Observation)d와 Reward를 돌려줍니다. Agent가 Right라는 Action을 Environment 에서 취하였습니다. 그렇다면 현재 스테이트는 1이며, 보상(Reward)은 없습니다. OpenAI는 전체적인 Framework를 만들어주는 것입니다. 상세한 정보는 OpenAI 홈페이지에 가게 되면 볼 수..
RL은 어떠한 것을 훈련시킬 때 많이 사용합니다. ex) 강아지를 훈련 실생활에서의 학습에 대해서 설명하고 있습니다. RL에는 크게 2가지로 나뉩니다. Environment Agent 기본적인 구조는 Agent가 Environment에서 어떤 Action을 하게 되는데, Action을 할 때 마다 State가 변경됩니다. 관찰정보가 달라집니다.(Observation or State) 어떠한 행동의 끝에는 치즈를 찾는 것이 목표일 때 매 순간마다 잘했다 못했다의 지표가 주어지는 것은 아니지만 일련의 Action을 하다 보면 치즈를 보상으로 받게 될 수 있습니다. 위의 책을 보시면 1997년의 책이지만 RL에 대해서 나와 있습니다. RL에 대해서는 엄청 오래 되었습니다. 그 전까지는 RL이 다른 학습 알고리..