일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- machine learning
- 딥러닝
- David Silver
- Series
- paper
- Hessian Matrix
- 리스트
- 사이킷런
- ML-Agent
- Linear algebra
- unity
- optimization
- Python Programming
- reinforcement learning
- 모두를 위한 RL
- convex optimization
- Deep Learning
- 판다스
- statistics
- Laplacian
- 김성훈 교수님
- Jacobian Matrix
- 논문
- 강화학습
- pandas
- 데이터 분석
- 유니티
- rl
- list
- neural network
목록reinforcement learning (23)
RL Researcher
What is Reinforcement Learning? 강아지한테 공 잡는 법을 가르친다고 하였을 때, 강아지가 공을 잡기 위해 어떻게 움직여야 하는지 하나하나 가르치기에는 매우 어려워 보입니다. 강화학습은 행동을 직접 가르치는 대신, 강아지가 공을 잘 받으면 쿠키를 주고, 공을 못 받으면 쿠키를 주지 않는 방식으로 가르치는 것입니다. 강아지는 쿠키를 얻을 수 있는 행동을 반복적으로 학습하고, 결과적으로 공을 잘 받게 될 것입니다. Reinforcement Learning은 무엇을 어떻게 하라고 직접적으로 가르치는 대신, 행동에 따라 Reward를 주는 간접 방식으로 가르칩니다. 강화학습에서의 보상은 Positive Reward와 Negative Reward 모두 가능합니다. Agent는 Trial a..
강화학습에 대한 공부를 하던 중 다 공부하던 것들은 재생목록에서 지우다 보니 기록을 남겨야겠다 싶어서 작성합니다. 강의 모두를 위한 RL - 김성훈 교수님의 강의 팡요랩 강의 혁펜하임 강의 (수학적 정의를 보고싶으신 분들은 여기를 참조 부탁드립니다.) Deep Mind Reinforcement Learning Lecture CS234 : Reinforcement Learning SNU Reinforcement Learning Lecture Deep RL BootCamp 2017 Deep Reinforcement Learning : CS 285 Fall 2020 POSTECH Reinforcement Learning
1. Multi-Armed Bandit Probelm MAB는 아래와 같습니다. Consider the following learning problem. You are faced repeatedly with a choice among k different options, or actions, After each choice you receive a numerical reward chosen from a stationary probability distribution that depends on the action you selected. Your objective is to maximize the expected total reward over some time period. Expected total ..
우리는 이전 강의들에서 $\theta$를 이용하여 State-value function 또는 Action-value Function에 근사하는 방법을 배웠었습니다. 이때까지는 Value-Function으로부터 생성된 Policy를 사용했었지만 이번 강의에서는 Policy를 Parameterise를 할 것입니다. $$\pi_{\theta}(s, a) = P[a \mid s, \theta]$$ 우리는 RL의 model-free기법에 초점을 맞추고 있을 것입니다. 저희가 이전까지 배웠던 것들은 전부 Value-Based Methods였습니다. 다른 방법으로는 Policy Based가 있습니다. (Value-function을 아예 학습하지 않고 Policy를 배우는 것) Value Based와 Policy Ba..