일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 유니티
- Hessian Matrix
- rl
- neural network
- Laplacian
- 논문
- 리스트
- Python Programming
- 데이터 분석
- reinforcement learning
- machine learning
- ML-Agent
- unity
- statistics
- optimization
- Series
- list
- 강화학습
- 김성훈 교수님
- Linear algebra
- Jacobian Matrix
- paper
- Deep Learning
- convex optimization
- pandas
- 모두를 위한 RL
- David Silver
- 판다스
- 사이킷런
- 딥러닝
목록전체 글 (88)
RL Researcher
Introduction mathematical optimization (수학적 최적화) least-squares and linear programming (최소 제곱과 선형 계획법) convex optimization (볼록 최적화) example (예시) course goals and topics (코스 목표 및 주제) nonlinear optimization (비선형 최적화) brief history of convex optimization (볼록 최적화의 간략한 역사) Mathematical Optimization Optimization Problem의 정의 : x=(x1,...,xn) : Optimization variables(최적화 변수), Decision variable..

1. Multi-Armed Bandit Probelm MAB는 아래와 같습니다. Consider the following learning problem. You are faced repeatedly with a choice among k different options, or actions, After each choice you receive a numerical reward chosen from a stationary probability distribution that depends on the action you selected. Your objective is to maximize the expected total reward over some time period. Expected total ..

우리는 이전 강의들에서 θ를 이용하여 State-value function 또는 Action-value Function에 근사하는 방법을 배웠었습니다. 이때까지는 Value-Function으로부터 생성된 Policy를 사용했었지만 이번 강의에서는 Policy를 Parameterise를 할 것입니다. πθ(s,a)=P[a∣s,θ] 우리는 RL의 model-free기법에 초점을 맞추고 있을 것입니다. 저희가 이전까지 배웠던 것들은 전부 Value-Based Methods였습니다. 다른 방법으로는 Policy Based가 있습니다. (Value-function을 아예 학습하지 않고 Policy를 배우는 것) Value Based와 Policy Ba..

1. Abstract High-Dimensional Sensory Input으로부터 RL을 통해 Control Policy를 성공적으로 학습하는 DL Model을 선보입니다. Paper에서 구현한 Atari Game의 모델은 CNN이며, 변형된 Q-Learning을 사용해 학습되었습니다. Paper에서의 Q-Learning이란 input이 raw_pixel이고, output은 미래의 보상을 예측하는 Value function입니다. 게임을 학습할 때, 픽셀값들을 입력으로 받고, 각 행동에 대해 점수를 부여하고, 어떤 행동에 대한 결과값을 함수를 통해 받게 됩니다. 2600개 가량의 컴퓨터 게임들을 학습시키는데 동일한 모델과 학습 알고리즘을 사용했고, 성공적인 결과를 보여주었습니다. 2. Introduct..