일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Series
- 유니티
- Linear algebra
- 김성훈 교수님
- 데이터 분석
- list
- reinforcement learning
- Deep Learning
- machine learning
- 리스트
- David Silver
- 사이킷런
- Laplacian
- 판다스
- rl
- 딥러닝
- pandas
- unity
- paper
- 강화학습
- convex optimization
- optimization
- Python Programming
- 모두를 위한 RL
- ML-Agent
- 논문
- Hessian Matrix
- neural network
- Jacobian Matrix
- statistics
목록분류 전체보기 (88)
RL Researcher
Introduction mathematical optimization (수학적 최적화) least-squares and linear programming (최소 제곱과 선형 계획법) convex optimization (볼록 최적화) example (예시) course goals and topics (코스 목표 및 주제) nonlinear optimization (비선형 최적화) brief history of convex optimization (볼록 최적화의 간략한 역사) Mathematical Optimization Optimization Problem의 정의 : $x = (x_{1}, ..., x_{n})$ : Optimization variables(최적화 변수), Decision variable..
1. Multi-Armed Bandit Probelm MAB는 아래와 같습니다. Consider the following learning problem. You are faced repeatedly with a choice among k different options, or actions, After each choice you receive a numerical reward chosen from a stationary probability distribution that depends on the action you selected. Your objective is to maximize the expected total reward over some time period. Expected total ..
우리는 이전 강의들에서 $\theta$를 이용하여 State-value function 또는 Action-value Function에 근사하는 방법을 배웠었습니다. 이때까지는 Value-Function으로부터 생성된 Policy를 사용했었지만 이번 강의에서는 Policy를 Parameterise를 할 것입니다. $$\pi_{\theta}(s, a) = P[a \mid s, \theta]$$ 우리는 RL의 model-free기법에 초점을 맞추고 있을 것입니다. 저희가 이전까지 배웠던 것들은 전부 Value-Based Methods였습니다. 다른 방법으로는 Policy Based가 있습니다. (Value-function을 아예 학습하지 않고 Policy를 배우는 것) Value Based와 Policy Ba..
1. Abstract High-Dimensional Sensory Input으로부터 RL을 통해 Control Policy를 성공적으로 학습하는 DL Model을 선보입니다. Paper에서 구현한 Atari Game의 모델은 CNN이며, 변형된 Q-Learning을 사용해 학습되었습니다. Paper에서의 Q-Learning이란 input이 raw_pixel이고, output은 미래의 보상을 예측하는 Value function입니다. 게임을 학습할 때, 픽셀값들을 입력으로 받고, 각 행동에 대해 점수를 부여하고, 어떤 행동에 대한 결과값을 함수를 통해 받게 됩니다. 2600개 가량의 컴퓨터 게임들을 학습시키는데 동일한 모델과 학습 알고리즘을 사용했고, 성공적인 결과를 보여주었습니다. 2. Introduct..