일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터 분석
- 사이킷런
- neural network
- paper
- 리스트
- ML-Agent
- 모두를 위한 RL
- convex optimization
- Series
- Deep Learning
- statistics
- 딥러닝
- list
- 논문
- pandas
- machine learning
- 강화학습
- Hessian Matrix
- Laplacian
- reinforcement learning
- 유니티
- rl
- optimization
- 판다스
- 김성훈 교수님
- David Silver
- Linear algebra
- unity
- Jacobian Matrix
- Python Programming
목록David Silver (6)
RL Researcher
MDP는 강화학습에서의 환경을 나타냅니다. Environment가 모두 관찰가능한 상황일 경우에 이것을 MDP라고 부릅니다. 현재의 State가 Process에 대해 완전히 표현하는 것입니다. 거의 모든 강화학습 문제는 MDP문제로 정의할 수 있습니다. 현재가 있다면 미래는 과거와 독립적이다. $$P[S_{t+1} \mid S_{t}\ = P[S_{t+1} \mid S_{1}, ..., S_{t}]$$ Markov State인 $s$ 그리고 다음상태가 $s^{'}$, 상태천이 확률은 다음과 같이 정의됩니다. $$P_{ss'} = P[S_{t+1} = s' \mid S_{t} = s]$$ 상태천이 행렬 $P$는 State $s$에서 다음 상태인 $s'$으로 갈때의 천이 확률을 정의합니다. Markov Pr..
본 글은 David Silver 교수님의 강의를 기반으로 작성하였습니다. Machine Learning의 종류는 3가지종류로 분류됩니다. Supervised Learning(지도학습) : 지도학습의 핵심은 Supervisor가 존재한다는 것입니다. 정답을 주고 학습을 시킨다고 보면 되겠습니다. 기계는 정답지와 자신이 추론한 정답의 오차를 비교하면서 학습하게 되는 것입니다. Unsupervised Learning(비지도 학습) : 비지도학습의 핵심은 정답이라고 말하는 Label이 존재하지 않습니다. 기계는 정답이 없이 학습을 통해 입력 데이터들의 패턴을 찾아내어 그 데이터들의 분류를 찾아내는 것입니다. Reinforcement Learning(강화 학습) : 본 주제가 강화학습이니 만큼 강화학습은 다른 기..