Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 김성훈 교수님
- 강화학습
- 모두를 위한 RL
- Series
- 데이터 분석
- paper
- statistics
- 사이킷런
- list
- machine learning
- Jacobian Matrix
- Linear algebra
- rl
- pandas
- convex optimization
- optimization
- 리스트
- Hessian Matrix
- 유니티
- Deep Learning
- David Silver
- Laplacian
- unity
- 판다스
- neural network
- reinforcement learning
- 딥러닝
- ML-Agent
- 논문
- Python Programming
Archives
목록mp (1)
RL Researcher
강화학습 문제와 가치기반 강화학습 문제의 풀이기법
"강화학습 문제" 강화학습의 순차적인 문제를 우리는 Markov Decision Process(마르코프 결정과정), 또는 MDP라고 정의합니다.(Markov Chain) "강화학습의 문제 풀이 방법" 환경에 대해서 알 때 : Dynamic Programming(DP : 동적 계획법) 장점 : (상대적으로) 문제를 해결하기 쉬움, 매우 효율적임 단점 : 현실적이지 못함 환경에 대해서 모를 때 : Monte-Carlo(MC : 몬테 카를로), Temporal Difference(TD : 시간차) 장점 : 현실의 문제상황에 적용이 가능 단점 : (DP에 비해) 효율성이 떨어짐 "마르코프 특성(Markov property)" "어떠한 상태 $s_{t}$는 Markov 하다"의 정의 : $$P(s_{t+1} \m..
Reinfrocement Learning
2021. 2. 8. 22:19