Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- pandas
- 딥러닝
- Deep Learning
- David Silver
- convex optimization
- machine learning
- 모두를 위한 RL
- paper
- 판다스
- 강화학습
- 데이터 분석
- optimization
- 유니티
- Laplacian
- rl
- reinforcement learning
- 리스트
- Linear algebra
- unity
- 김성훈 교수님
- Jacobian Matrix
- 사이킷런
- ML-Agent
- statistics
- list
- Hessian Matrix
- 논문
- Series
- neural network
- Python Programming
Archives
목록Bellman Expectation Equation (1)
RL Researcher
강화학습 문제와 가치기반 강화학습 문제의 풀이기법
"강화학습 문제" 강화학습의 순차적인 문제를 우리는 Markov Decision Process(마르코프 결정과정), 또는 MDP라고 정의합니다.(Markov Chain) "강화학습의 문제 풀이 방법" 환경에 대해서 알 때 : Dynamic Programming(DP : 동적 계획법) 장점 : (상대적으로) 문제를 해결하기 쉬움, 매우 효율적임 단점 : 현실적이지 못함 환경에 대해서 모를 때 : Monte-Carlo(MC : 몬테 카를로), Temporal Difference(TD : 시간차) 장점 : 현실의 문제상황에 적용이 가능 단점 : (DP에 비해) 효율성이 떨어짐 "마르코프 특성(Markov property)" "어떠한 상태 $s_{t}$는 Markov 하다"의 정의 : $$P(s_{t+1} \m..
Reinfrocement Learning
2021. 2. 8. 22:19