일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- neural network
- paper
- 모두를 위한 RL
- 판다스
- Laplacian
- Deep Learning
- machine learning
- optimization
- Hessian Matrix
- rl
- Linear algebra
- list
- Python Programming
- ML-Agent
- reinforcement learning
- 리스트
- 사이킷런
- pandas
- unity
- 딥러닝
- David Silver
- Jacobian Matrix
- 김성훈 교수님
- 데이터 분석
- 유니티
- convex optimization
- 강화학습
- 논문
- Series
- statistics
목록분류 전체보기 (88)
RL Researcher

RL은 어떠한 것을 훈련시킬 때 많이 사용합니다. ex) 강아지를 훈련 실생활에서의 학습에 대해서 설명하고 있습니다. RL에는 크게 2가지로 나뉩니다. Environment Agent 기본적인 구조는 Agent가 Environment에서 어떤 Action을 하게 되는데, Action을 할 때 마다 State가 변경됩니다. 관찰정보가 달라집니다.(Observation or State) 어떠한 행동의 끝에는 치즈를 찾는 것이 목표일 때 매 순간마다 잘했다 못했다의 지표가 주어지는 것은 아니지만 일련의 Action을 하다 보면 치즈를 보상으로 받게 될 수 있습니다. 위의 책을 보시면 1997년의 책이지만 RL에 대해서 나와 있습니다. RL에 대해서는 엄청 오래 되었습니다. 그 전까지는 RL이 다른 학습 알고리..
"Markov Decision Process(MDP)" MDP는 MRP에 Action을 추가한 확률 과정입니다. MDP는 $$ 인 튜플입니다. $S$는 (유한한) 상태의 집합 $A$는 (유한한) 행동의 집합 $P$는 상태 천이 행렬, $P^{a}_{ss^{'}} = P[S_{t+1} = s^{'} \mid S_{t} = s, A_{t} = a]$ (더 이상 매트릭스로 표현이 불가능합니다. 3D구조로 표현해야 함.) $R$은 보상 함수, $R:S \times A \rightarrow R$ (Stochastic / Deterministic 일 수 있음) $\gamma$는 감소율, $\gamma \in [0,1]$ (0 ~ 1 사이의 실수값) "정책 함수(Policy Function)" 정책함수 $\pi$는 ..
"강화학습 문제" 강화학습의 순차적인 문제를 우리는 Markov Decision Process(마르코프 결정과정), 또는 MDP라고 정의합니다.(Markov Chain) "강화학습의 문제 풀이 방법" 환경에 대해서 알 때 : Dynamic Programming(DP : 동적 계획법) 장점 : (상대적으로) 문제를 해결하기 쉬움, 매우 효율적임 단점 : 현실적이지 못함 환경에 대해서 모를 때 : Monte-Carlo(MC : 몬테 카를로), Temporal Difference(TD : 시간차) 장점 : 현실의 문제상황에 적용이 가능 단점 : (DP에 비해) 효율성이 떨어짐 "마르코프 특성(Markov property)" "어떠한 상태 $s_{t}$는 Markov 하다"의 정의 : $$P(s_{t+1} \m..

1. 머신러닝(ML)이란? 기계학습 또는 머신러닝은 인공지능의 한 분야입니다. 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야 대량의 데이터나 알고리즘을 통해 '학습'을 시켜 수행하는 방식입니다. (기초 데이터를 주지 않아도 스스로 학습을 통하여 결과를 추측해냅니다.) 2. 학습의 종류 강화학습(PPO) 모방학습 커리큘럼 학습 관찰학습 3. Unity ML - Agent 훈련 주기 Agent의 행동 Environment(환경)의 상태 변경 Agent에게 보상을 제공 4. Unity ML - Agent 내부 구조 Agent 각각의 Agent는 고유의 상태 및 관측 값을 가지고 있습니다. Environment내에서 고유의 행동을 수행하며 Enviornment에서 일어나는 이벤트에 따라 고유의..