RL Researcher

Human-level control through deep reinforcement learning 본문

Reinfrocement Learning/Paper Review

Human-level control through deep reinforcement learning

Lass_os 2021. 2. 15. 11:23

본 논문에서는 DQN Algorithm이 사용되었습니다. 앞으로 계속 업데이트 해 나갈 예정입니다.

여기서 DQN이란 Deep Q-Network의 약자이며, 인공신경망 즉 심층 인공신경망(Deep NN)이라고 합니다. 이 Algorithm에서는 수신 필드의 효과를 모방하기 위해서 타일형의 Convolutional Filter의 Layer를 사용합니다.

Agent의 목표는 Cumulative Reward를 Maximise하는 방식으로  Action을 선택하는 것입니다. Deep Convolutional Neural Network를 사용하여 Optimal한 Value Function에 Approximation합니다.

$$Q^{*}(s,a) = \underset{\pi}{max}E[r_{t} + \gamma r_{t+1} + \gamma^{2} r+{t+2} + \cdot \cdot \cdot \mid s_{t} = s, a_{t} = a, \pi]$$

which is the maximum sum of rewards $r_{t}$ discounted by $\gamma$ at each time-step $t$, achievable by a behaviour policy $\pi = P(a \mid s)$, after making an observation (s) and taking an action (a) (see Methods)

RL은 Neural Network와 같은 non-linear function Approximation값을 사용하여 Action Value를 나타낼 때 불안정하거나 심지어는 발산하는 것으로 알려져 있습니다. 이러한 불안정성에는 여러 가지 원인이 있습니다. 

  • Observation의 시퀀스에 있는 Correlation 때문입니다.
  • Q Function을 미세하게 수정하였는데, Policy는 급격하게 변할 수 있습니다.
  • Action Values(Q) 와 Target Values $r + \gamma \underset{a^{'}}{max}Q(s^{'},a^{'})$사이의 관계도 급격하게 바뀝니다.
Comments