일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- list
- 강화학습
- statistics
- 유니티
- 딥러닝
- pandas
- Hessian Matrix
- 사이킷런
- 김성훈 교수님
- Linear algebra
- unity
- machine learning
- Jacobian Matrix
- convex optimization
- reinforcement learning
- 모두를 위한 RL
- 리스트
- Python Programming
- 판다스
- paper
- neural network
- Series
- 논문
- 데이터 분석
- optimization
- David Silver
- Laplacian
- rl
- ML-Agent
- Deep Learning
RL Researcher
Lecture 7: Policy Gradient 본문
- 우리는 이전 강의들에서 $\theta$를 이용하여 State-value function 또는 Action-value Function에 근사하는 방법을 배웠었습니다.
- 이때까지는 Value-Function으로부터 생성된 Policy를 사용했었지만 이번 강의에서는 Policy를 Parameterise를 할 것입니다.
$$\pi_{\theta}(s, a) = P[a \mid s, \theta]$$
- 우리는 RL의 model-free기법에 초점을 맞추고 있을 것입니다.
- 저희가 이전까지 배웠던 것들은 전부 Value-Based Methods였습니다.
- 다른 방법으로는 Policy Based가 있습니다. (Value-function을 아예 학습하지 않고 Policy를 배우는 것)
- Value Based와 Policy Based의 학습 방법을 둘다 사용하여 학습하는 방법인 Actor Critic이 있습니다. (Actor : Policy, Critic : Value function)
- Policy Based의 장점
- 수렴하는 성질이 Value Based에 비해 더 좋습니다.
- High-dimensional 또는 continuos Action 공간에서 효과적입니다.
- Value-Based는 Deterministic Policy만 학습하였는데 Policy Based의 경우에는 Stochastic Policy를 배울 수 있습니다.
- Policy Based의 단점
- Global optimum보다는 local optimum에 빠지기가 쉽습니다.
- Policy를 학습하는 것에 분산이 높은 경우가 있습니다.
- Stochastic Policy가 사용되면 좋은 예를 보겠습니다. (iterative한 가위 바위 보)
- Deterministic Policy를 사용하게 되면 greedy하게 행동하기 때문에 가위만 낸다거나 주먹만 낸다거나 할 수 있습니다. 이것의 안좋은 점은 처음이나 나중에 이길수는 있겠지만 상대와 싸우는 문제에서의 몇수만에 간파를 당할 수 있다는 것입니다.
- 만약 가위바위보를 $\frac{1}{3}$확률로 내는 Policy가 있다면 이것은 격파할 수 없습니다.(이것은 다른 말로 내쉬 평형이라고도 합니다.)
- 다음은 Aliased Gridworld에 대한 예제입니다.
- Feature가 N,E,S,W의 폼에 따릅니다.
$$\phi (s,a) = 1(wall \ to \ N, a = move \ E)$$(가려는 방향에서 벽이 있다면 1, 없다면 0)
- Deterministic Policy는 평생 최적에 도달하지 못할수도 있습니다.
- Stochastic Policy를 사용하면 몇번의 step만을 사용한다면 최적에 도달할 수 있을 것입니다.
- 목표는 정책함수 $\pi_{\theta}(s,a)$로부터 최고의 $\theta$를 찾는 것입니다.
- 위와 같이 목적을 정의하는 3가지 방법이 있습니다.
- episodic environment인 경우에는 시작값을 사용할 수 있습니다.
'Reinfrocement Learning > David-Silver Lecture' 카테고리의 다른 글
Lecture 6: Value Function Approximation (0) | 2021.02.04 |
---|---|
Lecture 5: Model-Free Control (0) | 2021.02.03 |
Lecture 4: Model-Free Prediction (0) | 2021.02.03 |
Lecture 3: Planning by Dynamic Programming (0) | 2021.02.02 |
Lecture 02 : Markov Decision Processes (0) | 2021.02.02 |