일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- statistics
- convex optimization
- Series
- ML-Agent
- Python Programming
- optimization
- 논문
- neural network
- 리스트
- 사이킷런
- 데이터 분석
- 모두를 위한 RL
- Linear algebra
- Deep Learning
- unity
- 판다스
- machine learning
- pandas
- David Silver
- Laplacian
- Hessian Matrix
- 유니티
- paper
- 강화학습
- reinforcement learning
- 딥러닝
- Jacobian Matrix
- 김성훈 교수님
- rl
- list
목록분류 전체보기 (88)
RL Researcher
What is Reinforcement Learning? 강아지한테 공 잡는 법을 가르친다고 하였을 때, 강아지가 공을 잡기 위해 어떻게 움직여야 하는지 하나하나 가르치기에는 매우 어려워 보입니다. 강화학습은 행동을 직접 가르치는 대신, 강아지가 공을 잘 받으면 쿠키를 주고, 공을 못 받으면 쿠키를 주지 않는 방식으로 가르치는 것입니다. 강아지는 쿠키를 얻을 수 있는 행동을 반복적으로 학습하고, 결과적으로 공을 잘 받게 될 것입니다. Reinforcement Learning은 무엇을 어떻게 하라고 직접적으로 가르치는 대신, 행동에 따라 Reward를 주는 간접 방식으로 가르칩니다. 강화학습에서의 보상은 Positive Reward와 Negative Reward 모두 가능합니다. Agent는 Trial a..
Mathematical optimization $mathematical \ optimization \ problem$, 또는 $optimization \ problem$ 은 다음과 같은 형식으로 가지고 있습니다. vector $x = (x_{1},...,x_{n})$ : 문제의 $optimization \ variable$ or $decision \ variable$ function $f_{0}:R^{n}\rightarrow R$ : $objective \ function$ function $f_{i}:R^{n}\rightarrow R, \ i=1,...,m$ : $(ineuqality) \ constraint \ functions$ $b_{1},...,b_{m}$ : limits, or bound fo..
베이즈 정리는 데이터라는 조건이 주어졌을 때의 조건부 확률을 구하는 공식이다. 베이즈 정리를 쓰면 데이터가 주어지기 전의 사전확률값이 데이터가 주어지면서 어떻게 변하는지 계산할 수 있다. 따라서 데이터가 주어지기 전에 이미 어느 정도 확률값을 예측하고 있을 때 이를 새로 수집한 데이터와 합쳐서 최종 결과에 반영할 수 있다. 데이터의 개수가 부족한 경우 유용하게 사용된다. 데이터를 매일 추가적으로 얻는 상황에서도 매일 전체 데이터를 대상으로 새로 분석작업을 할 필요 없이 어제 분석결과에 오늘 들어온 데이터를 합쳐서 업데이트만 하면 되므로 유용하게 활용이 가능하다. 베이즈 정리 공식 조건부 활률을 구하는 베이즈 정리의 공식은 다음과 같다. $$P(A \mid B)=\frac{P(B \mid A)P(A)}{P..
Eigen Value, Eigen Vactor란? 고유값(eigenvalue), 고유벡터(eigenvector)에 대한 수학정 정의는 다음과 같다. 행렬 A를 선형변환(Linear transform)으로 봤을 때, 선형변환 A에 의한 변환 결과가 자기 자신의 상수배가 되는 0이 아닌 벡터 를 고유벡터(eigenvactor)라고 하고, 이 상수배 값을 고유값(eigenvalue)라고 한다. 고유값(eigenvalue), 고유벡터(eigenvector)는 $n \times x$ 정방행렬에 대해서만 정의된다. A에 대해 $Av = \lambda v$를 만족하는 0이 아닌 열벡터 v를 고유벡터, 상수 $\lambda$를 고유값이라고 정의한다. $Av = \lambda v$ -- (1) $\begin{pmatri..