본문 바로가기

모델2

[모델 선택하기] 머신러닝(지도학습,비지도학습,강화학습)/딥러닝 데이터 분석을 할 때, 가장 먼저 생각해야 하는 것이 분석의 목적과 목표, 그리고 그를 위한 변수와 모델을 설정하는 것이다. 여기서 모델을 정한다는 것은 목표를 도출하기 위해 머신러닝을 할지 딥러닝을 적용할지 그리고 머신러닝을 한다면 지도학습/비지도학습/강화학습 중 어떤 방식 선택할 것인지를 고민해 봐야 한다. 목표가 같다고 해도 적용하는 방법에 따라 결과들이 다르게 나올 수 있기 때문이다. 1. 머신러닝 데이터의 양이 적고 주로 정형데이터이며, 분석 목적과 목표 도출을 위해 파생변수를 도출해야 하며다양한 파라미터를 조정하여 성능평가를 할 수 있다. 1) 지도학습 조건) 지도학습은 입력데이터(이하 'x'데이터)와 출력데이터(y, 이하 라벨)가 있다. 목표) 라벨이 없는 신규 'x'데이터에 대하여 라벨값을.. 2018. 7. 19.
[데이터 분석] 의미있는 피처(컬럼) 선택 데이터의 피처(컬럼)이 많다고 해서 예측이 잘 되는 것은 아니다. y = ax + b 일 때, x값으로 y를 예측한다고 가정하면 a라는 가중치를 찾아내어 향후 X의 값이 들어오면 y를 예측할 수 있다. 하지만 y = aX1 + bX2 + cX3 + dX4 ..... + z 라고 할 때, x변수가 많다고 해서 y를 잘 예측하는 것도 아니다. 따라서 y를 예측하는데 필요한 x를 뽑는 것도 중요하다. 예를 들면 여름에 아이스크림 판매량(y)를 예측하는데 여름의 기온(x1), 아이스크림의 가격(x2), 겨울의 기온(x3)이 있다면, x3이 y를 예측하는데 영향력이 적을 것이다. 하지만 X3를 y값을 예측하기 위한 데이터에 포함하거나 비포함할 때의 차이는 클 수 있다. * 과대적합(overfitting)을 줄이고.. 2018. 5. 17.
반응형