Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- reinforcement learning
- list
- 유니티
- Linear algebra
- paper
- 모두를 위한 RL
- neural network
- Laplacian
- 데이터 분석
- pandas
- rl
- 강화학습
- optimization
- ML-Agent
- Python Programming
- unity
- Series
- 리스트
- Jacobian Matrix
- statistics
- 김성훈 교수님
- 판다스
- Deep Learning
- David Silver
- Hessian Matrix
- convex optimization
- 사이킷런
- 논문
- machine learning
- 딥러닝
Archives
목록MRP (1)
RL Researcher
강화학습 문제와 가치기반 강화학습 문제의 풀이기법
"강화학습 문제" 강화학습의 순차적인 문제를 우리는 Markov Decision Process(마르코프 결정과정), 또는 MDP라고 정의합니다.(Markov Chain) "강화학습의 문제 풀이 방법" 환경에 대해서 알 때 : Dynamic Programming(DP : 동적 계획법) 장점 : (상대적으로) 문제를 해결하기 쉬움, 매우 효율적임 단점 : 현실적이지 못함 환경에 대해서 모를 때 : Monte-Carlo(MC : 몬테 카를로), Temporal Difference(TD : 시간차) 장점 : 현실의 문제상황에 적용이 가능 단점 : (DP에 비해) 효율성이 떨어짐 "마르코프 특성(Markov property)" "어떠한 상태 $s_{t}$는 Markov 하다"의 정의 : $$P(s_{t+1} \m..
Reinfrocement Learning
2021. 2. 8. 22:19