Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- paper
- convex optimization
- 강화학습
- optimization
- machine learning
- 모두를 위한 RL
- Deep Learning
- 리스트
- statistics
- Hessian Matrix
- 김성훈 교수님
- 판다스
- 논문
- rl
- list
- unity
- Linear algebra
- 유니티
- 데이터 분석
- Series
- ML-Agent
- reinforcement learning
- Python Programming
- pandas
- 사이킷런
- Laplacian
- David Silver
- neural network
- 딥러닝
- Jacobian Matrix
Archives
RL Researcher
Lecture 2: Playing OpenAI GYM Games 본문
첫번째 OpenAI GYM을 이용한 예제입니다.
S는 현재 Agent의 State입니다. F는 얼어붙은 강이며 H는 구멍입니다. G는 Goal입니다.
Agent가 움직일 수 있는 수는 1/4가지입니다.(Up,Down,Right,Left)
Agent는 어떠한 Action을 취합니다.(right, left, up, down) Agent의 Action에 따라서 Environment는 State(Observation)d와 Reward를 돌려줍니다.
Agent가 Right라는 Action을 Environment 에서 취하였습니다. 그렇다면 현재 스테이트는 1이며, 보상(Reward)은 없습니다.
OpenAI는 전체적인 Framework를 만들어주는 것입니다.
상세한 정보는 OpenAI 홈페이지에 가게 되면 볼 수 있습니다.
코드에 대한 자세한 설명은 생략하겠습니다.
간단하게 설명하자면
- gym모듈 import
- GYM을 통해 환경 생성
- State를 초기화
- for loop를 1000번 돌면서 환경을 rendering하고, 행동을 정의합니다.(right, left, up, Down)
- 각 step마다 Action에 대한 결과로 State, Reward, done(한 Episodic이 끝났는가에 대한 질문 True, False)을 반환해 줍니다.
저희가 보기에는 지금의 문제는 너무나도 쉬워보입니다. 하지만 Agent입장에서는 전혀 다릅니다. Agent 입장에서는 Environment가 하나도 보이지 않습니다. 하지만 Action을 통해서 이게 F(Frozen)인지 H(Hole)인지를 알게 됩니다.
실제로 Action을 통해서 Environment를 알아갑니다.
'Reinfrocement Learning > 모두를 위한 RL' 카테고리의 다른 글
Lecture 6: Q-Network (0) | 2021.02.10 |
---|---|
Lecture 5: Windy Frozen Lake Nondeterministic world! (0) | 2021.02.10 |
Lecture 4: Q-Learning (table) (0) | 2021.02.09 |
Lecture 3: Dummy Q-learning (table) (0) | 2021.02.09 |
Lecture 1: Introduction (0) | 2021.02.09 |
Comments