RL Researcher

Lecture 1: Introduction 본문

Reinfrocement Learning/모두를 위한 RL

Lecture 1: Introduction

Lass_os 2021. 2. 9. 11:25

RL은 어떠한 것을 훈련시킬 때 많이 사용합니다. ex) 강아지를 훈련

실생활에서의 학습에 대해서 설명하고 있습니다.

RL에는 크게 2가지로 나뉩니다.

  • Environment
  • Agent

기본적인 구조는 Agent가 Environment에서 어떤 Action을 하게 되는데, Action을 할 때 마다 State가 변경됩니다. 관찰정보가 달라집니다.(Observation or State) 어떠한 행동의 끝에는 치즈를 찾는 것이 목표일 때 매 순간마다 잘했다 못했다의 지표가 주어지는 것은 아니지만 일련의 Action을 하다 보면 치즈를 보상으로 받게 될 수 있습니다.

위의 책을 보시면 1997년의 책이지만 RL에 대해서 나와 있습니다. RL에 대해서는 엄청 오래 되었습니다.

그 전까지는 RL이 다른 학습 알고리즘에 비해 주목받지 못했으나 위의 Atari 게임을 통해서 엄청난 세간의 이목을 끌게 되었습니다.

위의 그림처럼 RL은 한 게임에만 적용이 가능한 것이 아니라 모든 Game에도 적용이 가능하다는 것입니다. 

사람은 게임을 할 때 픽셀의 정보를 받아들입니다. 그 픽셀의 정보를 보면서 조이스틱을 움직이면서 게임을 수행합니다. RL도 마찬가지 입니다. 픽셀의 정보만을 받아 왼쪽, 오른쪽의 조작을 학습을 통해서 배웁니다. 

위 그림은 하나의 RL알고리즘을 이용해서 다양한 게임을 수행했습니다.

RL의 유명한 예로는 AlphaGo가 있습니다.

RL은 다양한 방면에 사용됩니다. 예로 구글 데이터 센터의 열을 식히는 Cooling down 에너지를 RL을 통해 학습시켜 40%의 에너지비를 절약했습니다.

RL은 로봇, 비지니스(재고 관리 등), 투자 등 재정관리, 이커머스, 미디어 등 활용할 수 있는 분야가 엄청 많습니다.

RL 분야에 대해 공부할 수 있는 사람에 대해 안내하고 있습니다.

위의 그림은 RL공부에 도움이 되는 사이트를 나열해 놓았습니다.(다른 글을 통해 정리해 놓았습니다.)

Comments