일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Series
- 모두를 위한 RL
- neural network
- unity
- 판다스
- reinforcement learning
- 논문
- paper
- ML-Agent
- statistics
- 강화학습
- Hessian Matrix
- 데이터 분석
- convex optimization
- Deep Learning
- 사이킷런
- rl
- Laplacian
- list
- 리스트
- pandas
- optimization
- David Silver
- 딥러닝
- 김성훈 교수님
- Python Programming
- Jacobian Matrix
- machine learning
- Linear algebra
- 유니티
목록김성훈 교수님 (2)
RL Researcher
첫번째 OpenAI GYM을 이용한 예제입니다. S는 현재 Agent의 State입니다. F는 얼어붙은 강이며 H는 구멍입니다. G는 Goal입니다. Agent가 움직일 수 있는 수는 1/4가지입니다.(Up,Down,Right,Left) Agent는 어떠한 Action을 취합니다.(right, left, up, down) Agent의 Action에 따라서 Environment는 State(Observation)d와 Reward를 돌려줍니다. Agent가 Right라는 Action을 Environment 에서 취하였습니다. 그렇다면 현재 스테이트는 1이며, 보상(Reward)은 없습니다. OpenAI는 전체적인 Framework를 만들어주는 것입니다. 상세한 정보는 OpenAI 홈페이지에 가게 되면 볼 수..
RL은 어떠한 것을 훈련시킬 때 많이 사용합니다. ex) 강아지를 훈련 실생활에서의 학습에 대해서 설명하고 있습니다. RL에는 크게 2가지로 나뉩니다. Environment Agent 기본적인 구조는 Agent가 Environment에서 어떤 Action을 하게 되는데, Action을 할 때 마다 State가 변경됩니다. 관찰정보가 달라집니다.(Observation or State) 어떠한 행동의 끝에는 치즈를 찾는 것이 목표일 때 매 순간마다 잘했다 못했다의 지표가 주어지는 것은 아니지만 일련의 Action을 하다 보면 치즈를 보상으로 받게 될 수 있습니다. 위의 책을 보시면 1997년의 책이지만 RL에 대해서 나와 있습니다. RL에 대해서는 엄청 오래 되었습니다. 그 전까지는 RL이 다른 학습 알고리..