'Machine-Learning/Scikit-Learn' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

관리 메뉴

목록Machine-Learning/Scikit-Learn (4)

RL Researcher

교차검증(Cross-Validation)

1. Cross-Validation이란? 간략히 먼저 설명하자면 본고사를 치르기 전에 모의고사를 여러번 보는 것입니다. 즉, 본고사가 테스트 데이터 세트에 대해 평가하는 거라면 모의고사는 교차검증에서 많은 학습과 검증 세트에서 알고리즘 학습과 평가를 수행하는 것입니다. Machine Learning은 데이터에 기반합니다. 그리고 데이터는 이상치, 분포도, 다양한 속성값, 피처 중요도 등 여러가지 Machine Learning에 영향을 미치는 요소를 가지고 있습니다. 특정 Machine Learning 알고리즘에서 최적으로 동작할 수 있도록 데이터를 선별하여 학습한다면 실제 데이터 양식과는 많은 차이가 있을 것이고 결국은 성능저하로 이어질 가능성이 매우 높습니다. 교차 검증(Cross-validation)..

Machine-Learning/Scikit-Learn 2021. 1. 16. 02:47

사이킷런(Scikit-Learn) 주요 모듈

1. Sklearn 주요 모듈 분류 모듈명 설명 예제 데이터 sklearn.datasets 사이킷런에 내장되어 예제로 제공하는 데이터 세트 Feature 처리 sklearn.preprocessing 데이터 전처리에 필요한 다양한 가공 기능 제공(문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등) sklearn.feature_selection 알고리즘에 큰 영향을 미치는 Feature를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공 sklearn.feature_extraction 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용됨. 예를 들어 텍스트 데이터에서 Count Vectorizer나 Tf-ldf Vectorizer 등을 생성하는 기능 제공. 텍스트 데이터의 Featu..

Machine-Learning/Scikit-Learn 2021. 1. 5. 02:01

train_test_split()을 활용해 학습과 테스트 세트 분리

1. train_test_split 모든 기계학습(Machine Learning,Deep Learning, Reinforcement Learning)에서는 학습 데이터(train data)와 테스트 데이터(test data)의 분리가 중요합니다. 학습데이터와 테스트 데이터의 분리가 적절하게 이루지지 않은 경우에는 과적합(overfitting)이 발생하기 때문입니다. 코드를 통해서 실습해보도록 하겠습니다. 먼저 테스트 데이터 세트를 이용하지 않고 학습 데이터 세트로만 학습하고 예측하게 되면 어떤 문제가 발생하는지 알아보겠습니다. # 다양한 모듈 import from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifi..

Machine-Learning/Scikit-Learn 2020. 12. 28. 18:18

Scikit-Learn(붓꽃 품종 예측하기)

첫번째 머신러닝 - 붓꽃 품종 예측 분류(Classification)는 대표적인 지도학습(Supervised Learning) 방법의 하나입니다. - 지도학습은 학습을 위한 다양한 피처(Feature)와 분류 결정값인 레이블(Label) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측합니다. - 즉 지도학습(Supervised Learning)은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식입니다. # 사이킷런 내의 아이리스 모듈 import합니다. # 분류 모델의 종류인 DecisiontreeClassifier 불러오기 # 데이터 세트를 학습 데이터와 테스트 데이터로 분리하는 데 train_test_split()함수 사용합니다. from sk..

Machine-Learning/Scikit-Learn 2020. 12. 14. 21:45

Prev 1 Next

목록Machine-Learning/Scikit-Learn (4)

RL Researcher

티스토리툴바