Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- David Silver
- Deep Learning
- statistics
- reinforcement learning
- 데이터 분석
- machine learning
- Linear algebra
- convex optimization
- list
- rl
- Hessian Matrix
- 판다스
- Jacobian Matrix
- optimization
- unity
- 사이킷런
- 논문
- Laplacian
- paper
- 강화학습
- neural network
- 리스트
- 김성훈 교수님
- pandas
- 모두를 위한 RL
- Series
- Python Programming
- 딥러닝
- ML-Agent
- 유니티
Archives
목록mp (1)
RL Researcher
강화학습 문제와 가치기반 강화학습 문제의 풀이기법
"강화학습 문제" 강화학습의 순차적인 문제를 우리는 Markov Decision Process(마르코프 결정과정), 또는 MDP라고 정의합니다.(Markov Chain) "강화학습의 문제 풀이 방법" 환경에 대해서 알 때 : Dynamic Programming(DP : 동적 계획법) 장점 : (상대적으로) 문제를 해결하기 쉬움, 매우 효율적임 단점 : 현실적이지 못함 환경에 대해서 모를 때 : Monte-Carlo(MC : 몬테 카를로), Temporal Difference(TD : 시간차) 장점 : 현실의 문제상황에 적용이 가능 단점 : (DP에 비해) 효율성이 떨어짐 "마르코프 특성(Markov property)" "어떠한 상태 $s_{t}$는 Markov 하다"의 정의 : $$P(s_{t+1} \m..
Reinfrocement Learning
2021. 2. 8. 22:19