본문 바로가기
데이터분석/머신러닝

[데이터 분석] 의미있는 피처(컬럼) 선택

by code cleaner 2018. 5. 17.
반응형

데이터의 피처(컬럼)이 많다고 해서 예측이 잘 되는 것은 아니다.


y = ax + b 일 때, 


x값으로 y를 예측한다고 가정하면 a라는 가중치를 찾아내어 향후 X의 값이 들어오면 y를 예측할 수 있다.


하지만 y = aX1 + bX2 + cX3 + dX4 ..... + z 라고 할 때, 


x변수가 많다고 해서 y를 잘 예측하는 것도 아니다. 


따라서 y를 예측하는데 필요한 x를 뽑는 것도 중요하다.


예를 들면 여름에 아이스크림 판매량(y)를 예측하는데 여름의 기온(x1), 아이스크림의 가격(x2), 겨울의 기온(x3)이 있다면, x3이 y를 예측하는데 영향력이 적을 것이다. 

하지만 X3를 y값을 예측하기 위한 데이터에 포함하거나 비포함할 때의 차이는 클 수 있다.



* 과대적합(overfitting)을 줄이고 일반화 error를 줄일 수 있는 방법

1) 더 많은 훈련 데이터를 수집한다.


2) 정규화에 의한 복잡도에 벌점을 부과한다.


L1, L2 정규화함


3) 더 적은 파라미터를 갖는 단순한 모델을 선택한다.


4) 데이터 차원을 축소한다. 예) PCA



반응형