RL Researcher

Lecture 7: Policy Gradient 본문

Reinfrocement Learning/David-Silver Lecture

Lecture 7: Policy Gradient

Lass_os 2021. 2. 17. 10:01

Policy-Based Reinforcement Learning

  • 우리는 이전 강의들에서 $\theta$를 이용하여 State-value function 또는 Action-value Function에 근사하는 방법을 배웠었습니다.
  • 이때까지는 Value-Function으로부터 생성된 Policy를 사용했었지만 이번 강의에서는 Policy를 Parameterise를 할 것입니다.

$$\pi_{\theta}(s, a) = P[a \mid s, \theta]$$

  • 우리는 RL의 model-free기법에 초점을 맞추고 있을 것입니다.

Value-Based and Policy-Based RL

  • 저희가 이전까지 배웠던 것들은 전부 Value-Based Methods였습니다.
  • 다른 방법으로는 Policy Based가 있습니다. (Value-function을 아예 학습하지 않고 Policy를 배우는 것)
  • Value Based와 Policy Based의 학습 방법을 둘다 사용하여 학습하는 방법인 Actor Critic이 있습니다. (Actor : Policy, Critic : Value function)

Advantages of Policy-Based RL

  • Policy Based의 장점
    • 수렴하는 성질이 Value Based에 비해 더 좋습니다.
    • High-dimensional 또는 continuos Action 공간에서 효과적입니다.
    • Value-Based는 Deterministic Policy만 학습하였는데 Policy Based의 경우에는 Stochastic Policy를 배울 수 있습니다.
  • Policy Based의 단점
    • Global optimum보다는 local optimum에 빠지기가 쉽습니다.
    • Policy를 학습하는 것에 분산이 높은 경우가 있습니다.

Example: Rock-Paper-Scissors

  • Stochastic Policy가 사용되면 좋은 예를 보겠습니다. (iterative한 가위 바위 보)
  • Deterministic Policy를 사용하게 되면 greedy하게 행동하기 때문에 가위만 낸다거나 주먹만 낸다거나 할 수 있습니다. 이것의 안좋은 점은 처음이나 나중에 이길수는 있겠지만 상대와 싸우는 문제에서의 몇수만에 간파를 당할 수 있다는 것입니다.
    • 만약 가위바위보를 $\frac{1}{3}$확률로 내는 Policy가 있다면 이것은 격파할 수 없습니다.(이것은 다른 말로 내쉬 평형이라고도 합니다.)

Example: Aliased Gridworld (1)

  • 다음은 Aliased Gridworld에 대한 예제입니다.
    • Feature가 N,E,S,W의 폼에 따릅니다.

$$\phi (s,a) = 1(wall \  to \ N, a = move \ E)$$(가려는 방향에서 벽이 있다면 1, 없다면 0)

 

Example : Aliased Gridworld (2)

  • Deterministic Policy는 평생 최적에 도달하지 못할수도 있습니다.

Example: Aliased Gridworld (3)

  • Stochastic Policy를 사용하면 몇번의 step만을 사용한다면 최적에 도달할 수 있을 것입니다.

Policy Objective Functions

  • 목표는 정책함수 $\pi_{\theta}(s,a)$로부터 최고의 $\theta$를 찾는 것입니다.
  • 위와 같이 목적을 정의하는 3가지 방법이 있습니다.
  • episodic environment인 경우에는 시작값을 사용할 수 있습니다.
  •  

Policy Optimization
Policy Gradient
Computing Gradients By Finite Differences
Training AIBO to Walk by Finite Difference Policy Gradient
AIBO Walk Policies
Score Function
Softmax Policy
Gaussian Policy
One-Step MDPs
Policy Gradient Theorem
Monte-Carlo Policy Grradient (REINFORCE)
Puck World Example
Reducing Variance Using a Critic
Estimating the Action-Value Function
Action-Value Actor-Critic
Bias in Actor-Critic Algorithms
Compatible Function Approximation
Proof of Compatible Function Approximation Theorem
Reducing Variance Using a Baseline
Estimating the Advantage Function (1)
Estimating the Advantage Function (2)
Critics at Different Time-Scales
Actors at Different Time-Scales
Polciy Gradient with Eligibility Traces
Alternative Policy Gradient Directions
Natural Policy Gradient
Natural Actor-Critic
Natural Actor Critic in Snake Domain
Natural Actor Critic in Snake Domain (2)
Natural Actor Critic in Snake Domain (3)
Summary of Policy Gradient Algorithms

Comments