일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- unity
- Deep Learning
- 모두를 위한 RL
- 사이킷런
- Series
- list
- rl
- 강화학습
- Jacobian Matrix
- 김성훈 교수님
- David Silver
- Laplacian
- Linear algebra
- ML-Agent
- 리스트
- optimization
- convex optimization
- pandas
- Python Programming
- statistics
- 유니티
- 딥러닝
- 데이터 분석
- 판다스
- reinforcement learning
- Hessian Matrix
- 논문
- neural network
- machine learning
- paper
RL Researcher
Lecture 1: Introduction 본문
RL은 어떠한 것을 훈련시킬 때 많이 사용합니다. ex) 강아지를 훈련
실생활에서의 학습에 대해서 설명하고 있습니다.
RL에는 크게 2가지로 나뉩니다.
- Environment
- Agent
기본적인 구조는 Agent가 Environment에서 어떤 Action을 하게 되는데, Action을 할 때 마다 State가 변경됩니다. 관찰정보가 달라집니다.(Observation or State) 어떠한 행동의 끝에는 치즈를 찾는 것이 목표일 때 매 순간마다 잘했다 못했다의 지표가 주어지는 것은 아니지만 일련의 Action을 하다 보면 치즈를 보상으로 받게 될 수 있습니다.
위의 책을 보시면 1997년의 책이지만 RL에 대해서 나와 있습니다. RL에 대해서는 엄청 오래 되었습니다.
그 전까지는 RL이 다른 학습 알고리즘에 비해 주목받지 못했으나 위의 Atari 게임을 통해서 엄청난 세간의 이목을 끌게 되었습니다.
위의 그림처럼 RL은 한 게임에만 적용이 가능한 것이 아니라 모든 Game에도 적용이 가능하다는 것입니다.
사람은 게임을 할 때 픽셀의 정보를 받아들입니다. 그 픽셀의 정보를 보면서 조이스틱을 움직이면서 게임을 수행합니다. RL도 마찬가지 입니다. 픽셀의 정보만을 받아 왼쪽, 오른쪽의 조작을 학습을 통해서 배웁니다.
위 그림은 하나의 RL알고리즘을 이용해서 다양한 게임을 수행했습니다.
RL의 유명한 예로는 AlphaGo가 있습니다.
RL은 다양한 방면에 사용됩니다. 예로 구글 데이터 센터의 열을 식히는 Cooling down 에너지를 RL을 통해 학습시켜 40%의 에너지비를 절약했습니다.
RL은 로봇, 비지니스(재고 관리 등), 투자 등 재정관리, 이커머스, 미디어 등 활용할 수 있는 분야가 엄청 많습니다.
RL 분야에 대해 공부할 수 있는 사람에 대해 안내하고 있습니다.
위의 그림은 RL공부에 도움이 되는 사이트를 나열해 놓았습니다.(다른 글을 통해 정리해 놓았습니다.)
'Reinfrocement Learning > 모두를 위한 RL' 카테고리의 다른 글
Lecture 6: Q-Network (0) | 2021.02.10 |
---|---|
Lecture 5: Windy Frozen Lake Nondeterministic world! (0) | 2021.02.10 |
Lecture 4: Q-Learning (table) (0) | 2021.02.09 |
Lecture 3: Dummy Q-learning (table) (0) | 2021.02.09 |
Lecture 2: Playing OpenAI GYM Games (0) | 2021.02.09 |