Lecture 7: Policy Gradient

Notice

Recent Posts

Tags more

Archives

관리 메뉴

RL Researcher

Reinfrocement Learning/David-Silver Lecture

Lass_os 2021. 2. 17. 10:01

우리는 이전 강의들에서 $\theta$를 이용하여 State-value function 또는 Action-value Function에 근사하는 방법을 배웠었습니다.
이때까지는 Value-Function으로부터 생성된 Policy를 사용했었지만 이번 강의에서는 Policy를 Parameterise를 할 것입니다.

$$\pi_{\theta}(s, a) = P[a \mid s, \theta]$$

저희가 이전까지 배웠던 것들은 전부 Value-Based Methods였습니다.
다른 방법으로는 Policy Based가 있습니다. (Value-function을 아예 학습하지 않고 Policy를 배우는 것)
Value Based와 Policy Based의 학습 방법을 둘다 사용하여 학습하는 방법인 Actor Critic이 있습니다. (Actor : Policy, Critic : Value function)

Policy Based의 장점
- 수렴하는 성질이 Value Based에 비해 더 좋습니다.
- High-dimensional 또는 continuos Action 공간에서 효과적입니다.
- Value-Based는 Deterministic Policy만 학습하였는데 Policy Based의 경우에는 Stochastic Policy를 배울 수 있습니다.
Policy Based의 단점
- Global optimum보다는 local optimum에 빠지기가 쉽습니다.
- Policy를 학습하는 것에 분산이 높은 경우가 있습니다.

Stochastic Policy가 사용되면 좋은 예를 보겠습니다. (iterative한 가위 바위 보)
Deterministic Policy를 사용하게 되면 greedy하게 행동하기 때문에 가위만 낸다거나 주먹만 낸다거나 할 수 있습니다. 이것의 안좋은 점은 처음이나 나중에 이길수는 있겠지만 상대와 싸우는 문제에서의 몇수만에 간파를 당할 수 있다는 것입니다.
- 만약 가위바위보를 $\frac{1}{3}$확률로 내는 Policy가 있다면 이것은 격파할 수 없습니다.(이것은 다른 말로 내쉬 평형이라고도 합니다.)

$$\phi (s,a) = 1(wall \ to \ N, a = move \ E)$$(가려는 방향에서 벽이 있다면 1, 없다면 0)

Lecture 6: Value Function Approximation (0)	2021.02.04
Lecture 5: Model-Free Control (0)	2021.02.03
Lecture 4: Model-Free Prediction (0)	2021.02.03
Lecture 3: Planning by Dynamic Programming (0)	2021.02.02
Lecture 02 : Markov Decision Processes (0)	2021.02.02

'Reinfrocement Learning/David-Silver Lecture' Related Articles

Comments