일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- rl
- statistics
- neural network
- 강화학습
- 데이터 분석
- 논문
- paper
- ML-Agent
- optimization
- Series
- David Silver
- 사이킷런
- 김성훈 교수님
- Linear algebra
- 리스트
- Hessian Matrix
- reinforcement learning
- unity
- Laplacian
- machine learning
- list
- 딥러닝
- Python Programming
- 유니티
- pandas
- Jacobian Matrix
- convex optimization
- 판다스
- Deep Learning
- 모두를 위한 RL
목록강화학습 (21)
RL Researcher
"Markov Decision Process(MDP)" MDP는 MRP에 Action을 추가한 확률 과정입니다. MDP는 $$ 인 튜플입니다. $S$는 (유한한) 상태의 집합 $A$는 (유한한) 행동의 집합 $P$는 상태 천이 행렬, $P^{a}_{ss^{'}} = P[S_{t+1} = s^{'} \mid S_{t} = s, A_{t} = a]$ (더 이상 매트릭스로 표현이 불가능합니다. 3D구조로 표현해야 함.) $R$은 보상 함수, $R:S \times A \rightarrow R$ (Stochastic / Deterministic 일 수 있음) $\gamma$는 감소율, $\gamma \in [0,1]$ (0 ~ 1 사이의 실수값) "정책 함수(Policy Function)" 정책함수 $\pi$는 ..
"강화학습 문제" 강화학습의 순차적인 문제를 우리는 Markov Decision Process(마르코프 결정과정), 또는 MDP라고 정의합니다.(Markov Chain) "강화학습의 문제 풀이 방법" 환경에 대해서 알 때 : Dynamic Programming(DP : 동적 계획법) 장점 : (상대적으로) 문제를 해결하기 쉬움, 매우 효율적임 단점 : 현실적이지 못함 환경에 대해서 모를 때 : Monte-Carlo(MC : 몬테 카를로), Temporal Difference(TD : 시간차) 장점 : 현실의 문제상황에 적용이 가능 단점 : (DP에 비해) 효율성이 떨어짐 "마르코프 특성(Markov property)" "어떠한 상태 $s_{t}$는 Markov 하다"의 정의 : $$P(s_{t+1} \m..
1. 머신러닝(ML)이란? 기계학습 또는 머신러닝은 인공지능의 한 분야입니다. 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야 대량의 데이터나 알고리즘을 통해 '학습'을 시켜 수행하는 방식입니다. (기초 데이터를 주지 않아도 스스로 학습을 통하여 결과를 추측해냅니다.) 2. 학습의 종류 강화학습(PPO) 모방학습 커리큘럼 학습 관찰학습 3. Unity ML - Agent 훈련 주기 Agent의 행동 Environment(환경)의 상태 변경 Agent에게 보상을 제공 4. Unity ML - Agent 내부 구조 Agent 각각의 Agent는 고유의 상태 및 관측 값을 가지고 있습니다. Environment내에서 고유의 행동을 수행하며 Enviornment에서 일어나는 이벤트에 따라 고유의..
RL은 다음과 같이 큰 문제들을 풀 수 있습니다 Backgammon Game : $10^{20}$개의 State Computer Go : $10^{170}"$개의 State Helicopter : 연속적인 공간 내에서 움직이기 때문에 값이 무한적입니다. 지난 2개의 강의에서 배웠던 Model-Free 메소드인 MC, TD에서 Prediction과 Control 문제를 어떻게 확장할 수 있을까요? 위의 질문에 답을 할 수 있는 Value Function Approximation을 통해서 Scale up이 가능합니다. 우리는 전 강의들 까지는 lookup table 방식으로 value function을 표현해 왔습니다. $V(s)$는 State $s$의 개수만큼 빈칸이 존재했습니다. $Q(s,a)$는 모든 ..