Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- neural network
- 유니티
- 김성훈 교수님
- machine learning
- pandas
- 모두를 위한 RL
- Deep Learning
- rl
- 판다스
- 딥러닝
- statistics
- Laplacian
- list
- Jacobian Matrix
- 논문
- 강화학습
- Linear algebra
- David Silver
- unity
- 리스트
- 데이터 분석
- Python Programming
- ML-Agent
- reinforcement learning
- paper
- Hessian Matrix
- 사이킷런
- convex optimization
- Series
- optimization
Archives
목록MRP (1)
RL Researcher
강화학습 문제와 가치기반 강화학습 문제의 풀이기법
"강화학습 문제" 강화학습의 순차적인 문제를 우리는 Markov Decision Process(마르코프 결정과정), 또는 MDP라고 정의합니다.(Markov Chain) "강화학습의 문제 풀이 방법" 환경에 대해서 알 때 : Dynamic Programming(DP : 동적 계획법) 장점 : (상대적으로) 문제를 해결하기 쉬움, 매우 효율적임 단점 : 현실적이지 못함 환경에 대해서 모를 때 : Monte-Carlo(MC : 몬테 카를로), Temporal Difference(TD : 시간차) 장점 : 현실의 문제상황에 적용이 가능 단점 : (DP에 비해) 효율성이 떨어짐 "마르코프 특성(Markov property)" "어떠한 상태 $s_{t}$는 Markov 하다"의 정의 : $$P(s_{t+1} \m..
Reinfrocement Learning
2021. 2. 8. 22:19