일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- David Silver
- 리스트
- 유니티
- statistics
- pandas
- rl
- 사이킷런
- 데이터 분석
- 딥러닝
- Python Programming
- optimization
- 김성훈 교수님
- convex optimization
- paper
- Laplacian
- Linear algebra
- neural network
- 모두를 위한 RL
- Deep Learning
- Jacobian Matrix
- ML-Agent
- 강화학습
- 논문
- machine learning
- reinforcement learning
- unity
- list
- Series
- 판다스
- Hessian Matrix
목록reinforcement learning (23)
RL Researcher
1. Abstract High-Dimensional Sensory Input으로부터 RL을 통해 Control Policy를 성공적으로 학습하는 DL Model을 선보입니다. Paper에서 구현한 Atari Game의 모델은 CNN이며, 변형된 Q-Learning을 사용해 학습되었습니다. Paper에서의 Q-Learning이란 input이 raw_pixel이고, output은 미래의 보상을 예측하는 Value function입니다. 게임을 학습할 때, 픽셀값들을 입력으로 받고, 각 행동에 대해 점수를 부여하고, 어떤 행동에 대한 결과값을 함수를 통해 받게 됩니다. 2600개 가량의 컴퓨터 게임들을 학습시키는데 동일한 모델과 학습 알고리즘을 사용했고, 성공적인 결과를 보여주었습니다. 2. Introduct..
본 논문에서는 DQN Algorithm이 사용되었습니다. 앞으로 계속 업데이트 해 나갈 예정입니다. 여기서 DQN이란 Deep Q-Network의 약자이며, 인공신경망 즉 심층 인공신경망(Deep NN)이라고 합니다. 이 Algorithm에서는 수신 필드의 효과를 모방하기 위해서 타일형의 Convolutional Filter의 Layer를 사용합니다. Agent의 목표는 Cumulative Reward를 Maximise하는 방식으로 Action을 선택하는 것입니다. Deep Convolutional Neural Network를 사용하여 Optimal한 Value Function에 Approximation합니다. $$Q^{*}(s,a) = \underset{\pi}{max}E[r_{t} + \gamma r..
Q 함수의 근사가 Q-Net입니다. Q-Nets 자체도 쉬운 문제에 대해서 불안정한 상태를 보였습니다. 여러 문제들 때문에 $\hat{Q}$는 Q에 수렴하지 못했습니다. 위의 Q-Net의 문제를 해결한 알고리즘이 DQN알고리즘입니다. 두가지 큰 문제가 무엇인지 봅시다. 샘플 데이터간의 상관계수가 있다 타겟이 흔들린다. Q-Net을 초기화 시킨 후, initalize하고, Q-Net을 통해서 어떠한 Action을 할지 정합니다. 그런 다음 루프를 돌면서 Action을 취하면서 이동한 State에 대해서 환경과 보상을 받아옵니다. CartPole예제를 들면 5개의 Episode들이 받아오는 값들이 상관적일 것입니다. 두번째 문제는 타겟이 움직인다는 문제인데. 예측값과 Y Label(target)간의 오차를 ..
우리는 앞서 Q-Table에 대해서 완벽히 이해했었습니다. 어떠한 State에 대해서 Action이 주어지면 Q값을 최대화 할수 있는 방법으로 진행하게 되는 것입니다. 미로 문제 같은 경우 100x100x4형태의 array가 필요합니다. 위의 예제가 $2^{80 \times 80}$이므로 계산을 수행해 보았습니다. 우리는 위와 같이 실전 문제에 대해서는 Q-Table을 적용하지 못합니다. 위처럼 실행활에 Q-Table은 이용하지 못합니다. 그럴때 이용하느 것이 있습니다. 바로 Q-Network입니다. State에 대한 Action을 수행하게 되었을 때 어떠한 값을 출력합니다. 입력과 출력이 사용자가 조절이 가능하기 때문에 입력을 State만 줘 보겠습니다. 우리가 앞으로 사용하게 될 Q-NN입니다.(Ne..