일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터 분석
- Hessian Matrix
- reinforcement learning
- 판다스
- optimization
- paper
- 리스트
- 유니티
- 강화학습
- 딥러닝
- Series
- 논문
- David Silver
- 사이킷런
- Linear algebra
- unity
- Python Programming
- ML-Agent
- pandas
- 모두를 위한 RL
- convex optimization
- Jacobian Matrix
- 김성훈 교수님
- statistics
- Deep Learning
- neural network
- list
- Laplacian
- machine learning
- rl
목록Reinfrocement Learning (25)
RL Researcher
큰 population에서 무작위로 뽑은 sample average가 전체 population의 average와 가까울 가능성이 높다는 통계와 확률 분야의 기본 개념이다. Week Law of Larfe Numbers라고도 한다 Law of Large Numbers는 population 전체를 조사, 관측하지 않더라도 population으로부터 충분히 큰 표본을 뽑아 sample average를 계산하면 그것이 모평균과 같아진다는 점을 보여주기 때문에, sample average를 통한 모평균의 예측방법(Generally, 표본 통계량을 통한 모수의 추정 방법)이 타탕함을 보여주는 매우 중요한 법칙임. ex) 모든 학생의 평균 성적을 조사한다고 했을 때, 학교 전체를 조사할 수 없으므로 일정 학교만을 무..
What is Reinforcement Learning? 강아지한테 공 잡는 법을 가르친다고 하였을 때, 강아지가 공을 잡기 위해 어떻게 움직여야 하는지 하나하나 가르치기에는 매우 어려워 보입니다. 강화학습은 행동을 직접 가르치는 대신, 강아지가 공을 잘 받으면 쿠키를 주고, 공을 못 받으면 쿠키를 주지 않는 방식으로 가르치는 것입니다. 강아지는 쿠키를 얻을 수 있는 행동을 반복적으로 학습하고, 결과적으로 공을 잘 받게 될 것입니다. Reinforcement Learning은 무엇을 어떻게 하라고 직접적으로 가르치는 대신, 행동에 따라 Reward를 주는 간접 방식으로 가르칩니다. 강화학습에서의 보상은 Positive Reward와 Negative Reward 모두 가능합니다. Agent는 Trial a..
강화학습에 대한 공부를 하던 중 다 공부하던 것들은 재생목록에서 지우다 보니 기록을 남겨야겠다 싶어서 작성합니다. 강의 모두를 위한 RL - 김성훈 교수님의 강의 팡요랩 강의 혁펜하임 강의 (수학적 정의를 보고싶으신 분들은 여기를 참조 부탁드립니다.) Deep Mind Reinforcement Learning Lecture CS234 : Reinforcement Learning SNU Reinforcement Learning Lecture Deep RL BootCamp 2017 Deep Reinforcement Learning : CS 285 Fall 2020 POSTECH Reinforcement Learning
1. Multi-Armed Bandit Probelm MAB는 아래와 같습니다. Consider the following learning problem. You are faced repeatedly with a choice among k different options, or actions, After each choice you receive a numerical reward chosen from a stationary probability distribution that depends on the action you selected. Your objective is to maximize the expected total reward over some time period. Expected total ..