Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- unity
- Series
- neural network
- rl
- Laplacian
- 모두를 위한 RL
- Linear algebra
- 강화학습
- 판다스
- statistics
- David Silver
- 사이킷런
- 김성훈 교수님
- 리스트
- convex optimization
- Jacobian Matrix
- pandas
- reinforcement learning
- Python Programming
- optimization
- machine learning
- 딥러닝
- Hessian Matrix
- 유니티
- ML-Agent
- 데이터 분석
- Deep Learning
- paper
- 논문
- list
Archives
RL Researcher
Lecture 7: Policy Gradient 본문

- 우리는 이전 강의들에서 θ를 이용하여 State-value function 또는 Action-value Function에 근사하는 방법을 배웠었습니다.
- 이때까지는 Value-Function으로부터 생성된 Policy를 사용했었지만 이번 강의에서는 Policy를 Parameterise를 할 것입니다.
πθ(s,a)=P[a∣s,θ]
- 우리는 RL의 model-free기법에 초점을 맞추고 있을 것입니다.

- 저희가 이전까지 배웠던 것들은 전부 Value-Based Methods였습니다.
- 다른 방법으로는 Policy Based가 있습니다. (Value-function을 아예 학습하지 않고 Policy를 배우는 것)
- Value Based와 Policy Based의 학습 방법을 둘다 사용하여 학습하는 방법인 Actor Critic이 있습니다. (Actor : Policy, Critic : Value function)

- Policy Based의 장점
- 수렴하는 성질이 Value Based에 비해 더 좋습니다.
- High-dimensional 또는 continuos Action 공간에서 효과적입니다.
- Value-Based는 Deterministic Policy만 학습하였는데 Policy Based의 경우에는 Stochastic Policy를 배울 수 있습니다.
- Policy Based의 단점
- Global optimum보다는 local optimum에 빠지기가 쉽습니다.
- Policy를 학습하는 것에 분산이 높은 경우가 있습니다.

- Stochastic Policy가 사용되면 좋은 예를 보겠습니다. (iterative한 가위 바위 보)
- Deterministic Policy를 사용하게 되면 greedy하게 행동하기 때문에 가위만 낸다거나 주먹만 낸다거나 할 수 있습니다. 이것의 안좋은 점은 처음이나 나중에 이길수는 있겠지만 상대와 싸우는 문제에서의 몇수만에 간파를 당할 수 있다는 것입니다.
- 만약 가위바위보를 13확률로 내는 Policy가 있다면 이것은 격파할 수 없습니다.(이것은 다른 말로 내쉬 평형이라고도 합니다.)

- 다음은 Aliased Gridworld에 대한 예제입니다.
- Feature가 N,E,S,W의 폼에 따릅니다.
ϕ(s,a)=1(wall to N,a=move E)(가려는 방향에서 벽이 있다면 1, 없다면 0)

- Deterministic Policy는 평생 최적에 도달하지 못할수도 있습니다.

- Stochastic Policy를 사용하면 몇번의 step만을 사용한다면 최적에 도달할 수 있을 것입니다.

- 목표는 정책함수 πθ(s,a)로부터 최고의 θ를 찾는 것입니다.
- 위와 같이 목적을 정의하는 3가지 방법이 있습니다.
- episodic environment인 경우에는 시작값을 사용할 수 있습니다.































'Reinfrocement Learning > David-Silver Lecture' 카테고리의 다른 글
Lecture 6: Value Function Approximation (0) | 2021.02.04 |
---|---|
Lecture 5: Model-Free Control (0) | 2021.02.03 |
Lecture 4: Model-Free Prediction (0) | 2021.02.03 |
Lecture 3: Planning by Dynamic Programming (0) | 2021.02.02 |
Lecture 02 : Markov Decision Processes (0) | 2021.02.02 |