scikit-learn1 [sklearn] train_test_split 사용하는 방법 및 유의사항 좋은 데이터 예측 모델을 만들 때, 중요한 것은 1) 데이터 분석 목적에 맞춘 데이터 만들기 2) 데이터 전처리 잘하기 3) 훈련데이터와 테스트 데이터 잘 나누기 4) 분석 파라미터 잘 설정하기 5) 데이터 특성에 맞는 평가 지표로 평가하기 이 중에서 '3) 훈련 데이터와 테스트 데이터 잘 나누기'를 자세히 알아보자 why? 훈련데이터와 테스트 데이터를 잘 나눠야 하는 이유는? 훈련데이터에서만 우수한 예측 성능을 보이는 과대적합된 모델을 만들 수 있기 때문이다. 만약 새로운 데이터, 즉, 테스트 데이터가 들어온다면 예측 성능이 매우 낮게 될 수 있다. What? 무슨 데이터를 나눌 수 있을까? 지도학습인 대표적인 분류 모델, 회귀 모델의 모델 등의 데이터 셋에서 훈련 데이터와 테스트 데이터를 나눌 수 있.. 2021. 5. 9. 이전 1 다음 반응형