일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 판다스
- Python Programming
- rl
- 리스트
- 사이킷런
- paper
- statistics
- pandas
- Series
- 데이터 분석
- Hessian Matrix
- 논문
- ML-Agent
- unity
- 유니티
- list
- Linear algebra
- reinforcement learning
- 딥러닝
- Jacobian Matrix
- neural network
- Deep Learning
- 모두를 위한 RL
- 김성훈 교수님
- David Silver
- Laplacian
- machine learning
- 강화학습
- convex optimization
- optimization
목록분류 전체보기 (88)
RL Researcher
본 논문에서는 DQN Algorithm이 사용되었습니다. 앞으로 계속 업데이트 해 나갈 예정입니다. 여기서 DQN이란 Deep Q-Network의 약자이며, 인공신경망 즉 심층 인공신경망(Deep NN)이라고 합니다. 이 Algorithm에서는 수신 필드의 효과를 모방하기 위해서 타일형의 Convolutional Filter의 Layer를 사용합니다. Agent의 목표는 Cumulative Reward를 Maximise하는 방식으로 Action을 선택하는 것입니다. Deep Convolutional Neural Network를 사용하여 Optimal한 Value Function에 Approximation합니다. $$Q^{*}(s,a) = \underset{\pi}{max}E[r_{t} + \gamma r..
Website : github.com/Unity-Technologies 1. Background : Machine Learning ML-Agents Toolkit의 많은 사용자가 공식적인 기곗 학습 배경이 없을 수 있다는 점을 감안할 때 이 페이지에서는 ML-Agents Toolkit을 쉽게 이해할 수 있도록 개요를 제공합니다. 그러나 온라인에 환상적인 리소스가 있으므로 기계 학습에 대한 철저한 처리를 제공하지 않을 것입니다. 인공지능의 한 분야인 ML은 데이터에서 학습 패턴에 중점을 둡니다. ML Algorithm의 세가지 주요 클래스는 Unsupervised Learning, Supervised Learning, Reinforcement Learning입니다. Algorithm의 각 클래스는 다른 유..
Q 함수의 근사가 Q-Net입니다. Q-Nets 자체도 쉬운 문제에 대해서 불안정한 상태를 보였습니다. 여러 문제들 때문에 $\hat{Q}$는 Q에 수렴하지 못했습니다. 위의 Q-Net의 문제를 해결한 알고리즘이 DQN알고리즘입니다. 두가지 큰 문제가 무엇인지 봅시다. 샘플 데이터간의 상관계수가 있다 타겟이 흔들린다. Q-Net을 초기화 시킨 후, initalize하고, Q-Net을 통해서 어떠한 Action을 할지 정합니다. 그런 다음 루프를 돌면서 Action을 취하면서 이동한 State에 대해서 환경과 보상을 받아옵니다. CartPole예제를 들면 5개의 Episode들이 받아오는 값들이 상관적일 것입니다. 두번째 문제는 타겟이 움직인다는 문제인데. 예측값과 Y Label(target)간의 오차를 ..
우리는 앞서 Q-Table에 대해서 완벽히 이해했었습니다. 어떠한 State에 대해서 Action이 주어지면 Q값을 최대화 할수 있는 방법으로 진행하게 되는 것입니다. 미로 문제 같은 경우 100x100x4형태의 array가 필요합니다. 위의 예제가 $2^{80 \times 80}$이므로 계산을 수행해 보았습니다. 우리는 위와 같이 실전 문제에 대해서는 Q-Table을 적용하지 못합니다. 위처럼 실행활에 Q-Table은 이용하지 못합니다. 그럴때 이용하느 것이 있습니다. 바로 Q-Network입니다. State에 대한 Action을 수행하게 되었을 때 어떠한 값을 출력합니다. 입력과 출력이 사용자가 조절이 가능하기 때문에 입력을 State만 줘 보겠습니다. 우리가 앞으로 사용하게 될 Q-NN입니다.(Ne..