일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 모두를 위한 RL
- Series
- rl
- paper
- convex optimization
- 강화학습
- 김성훈 교수님
- 데이터 분석
- reinforcement learning
- 유니티
- Deep Learning
- Jacobian Matrix
- unity
- Hessian Matrix
- 리스트
- neural network
- Linear algebra
- machine learning
- pandas
- 사이킷런
- statistics
- ML-Agent
- David Silver
- 딥러닝
- Python Programming
- list
- optimization
- 논문
- 판다스
- Laplacian
목록reinforcement learning (23)
RL Researcher
What is Reinforcement Learning? 강아지한테 공 잡는 법을 가르친다고 하였을 때, 강아지가 공을 잡기 위해 어떻게 움직여야 하는지 하나하나 가르치기에는 매우 어려워 보입니다. 강화학습은 행동을 직접 가르치는 대신, 강아지가 공을 잘 받으면 쿠키를 주고, 공을 못 받으면 쿠키를 주지 않는 방식으로 가르치는 것입니다. 강아지는 쿠키를 얻을 수 있는 행동을 반복적으로 학습하고, 결과적으로 공을 잘 받게 될 것입니다. Reinforcement Learning은 무엇을 어떻게 하라고 직접적으로 가르치는 대신, 행동에 따라 Reward를 주는 간접 방식으로 가르칩니다. 강화학습에서의 보상은 Positive Reward와 Negative Reward 모두 가능합니다. Agent는 Trial a..
강화학습에 대한 공부를 하던 중 다 공부하던 것들은 재생목록에서 지우다 보니 기록을 남겨야겠다 싶어서 작성합니다. 강의 모두를 위한 RL - 김성훈 교수님의 강의 팡요랩 강의 혁펜하임 강의 (수학적 정의를 보고싶으신 분들은 여기를 참조 부탁드립니다.) Deep Mind Reinforcement Learning Lecture CS234 : Reinforcement Learning SNU Reinforcement Learning Lecture Deep RL BootCamp 2017 Deep Reinforcement Learning : CS 285 Fall 2020 POSTECH Reinforcement Learning

1. Multi-Armed Bandit Probelm MAB는 아래와 같습니다. Consider the following learning problem. You are faced repeatedly with a choice among k different options, or actions, After each choice you receive a numerical reward chosen from a stationary probability distribution that depends on the action you selected. Your objective is to maximize the expected total reward over some time period. Expected total ..

우리는 이전 강의들에서 θ를 이용하여 State-value function 또는 Action-value Function에 근사하는 방법을 배웠었습니다. 이때까지는 Value-Function으로부터 생성된 Policy를 사용했었지만 이번 강의에서는 Policy를 Parameterise를 할 것입니다. πθ(s,a)=P[a∣s,θ] 우리는 RL의 model-free기법에 초점을 맞추고 있을 것입니다. 저희가 이전까지 배웠던 것들은 전부 Value-Based Methods였습니다. 다른 방법으로는 Policy Based가 있습니다. (Value-function을 아예 학습하지 않고 Policy를 배우는 것) Value Based와 Policy Ba..