RL Researcher

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

관리 메뉴

목록전체 글 (88)

RL Researcher

Lecture 1 : Convex Optimization (Stanford)

Introduction mathematical optimization (수학적 최적화) least-squares and linear programming (최소 제곱과 선형 계획법) convex optimization (볼록 최적화) example (예시) course goals and topics (코스 목표 및 주제) nonlinear optimization (비선형 최적화) brief history of convex optimization (볼록 최적화의 간략한 역사) Mathematical Optimization Optimization Problem의 정의 : $x = (x_{1}, ..., x_{n})$ : Optimization variables(최적화 변수), Decision variable..

Optimization/Stanford Lecture 2021. 2. 25. 03:49

MAB Problem

1. Multi-Armed Bandit Probelm MAB는 아래와 같습니다. Consider the following learning problem. You are faced repeatedly with a choice among k different options, or actions, After each choice you receive a numerical reward chosen from a stationary probability distribution that depends on the action you selected. Your objective is to maximize the expected total reward over some time period. Expected total ..

Reinfrocement Learning 2021. 2. 19. 02:27

Lecture 7: Policy Gradient

우리는 이전 강의들에서 $\theta$ 를 이용하여 State-value function 또는 Action-value Function에 근사하는 방법을 배웠었습니다. 이때까지는 Value-Function으로부터 생성된 Policy를 사용했었지만 이번 강의에서는 Policy를 Parameterise를 할 것입니다. $\pi_{\theta}(s, a) = P[a \mid s, \theta]$ 우리는 RL의 model-free기법에 초점을 맞추고 있을 것입니다. 저희가 이전까지 배웠던 것들은 전부 Value-Based Methods였습니다. 다른 방법으로는 Policy Based가 있습니다. (Value-function을 아예 학습하지 않고 Policy를 배우는 것) Value Based와 Policy Ba..

Reinfrocement Learning/David-Silver Lecture 2021. 2. 17. 10:01

Playing Atari with Deep Reinforcement Learning

1. Abstract High-Dimensional Sensory Input으로부터 RL을 통해 Control Policy를 성공적으로 학습하는 DL Model을 선보입니다. Paper에서 구현한 Atari Game의 모델은 CNN이며, 변형된 Q-Learning을 사용해 학습되었습니다. Paper에서의 Q-Learning이란 input이 raw_pixel이고, output은 미래의 보상을 예측하는 Value function입니다. 게임을 학습할 때, 픽셀값들을 입력으로 받고, 각 행동에 대해 점수를 부여하고, 어떤 행동에 대한 결과값을 함수를 통해 받게 됩니다. 2600개 가량의 컴퓨터 게임들을 학습시키는데 동일한 모델과 학습 알고리즘을 사용했고, 성공적인 결과를 보여주었습니다. 2. Introduct..

Reinfrocement Learning/Paper Review 2021. 2. 15. 12:16

Prev 1 ··· 3 4 5 6 7 8 9 ··· 22 Next

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

RL Researcher

목록전체 글 (88)

RL Researcher

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역