[데이터 분석] 의미있는 피처(컬럼) 선택

데이터의 피처(컬럼)이 많다고 해서 예측이 잘 되는 것은 아니다.

y = ax + b 일 때,

x값으로 y를 예측한다고 가정하면 a라는 가중치를 찾아내어 향후 X의 값이 들어오면 y를 예측할 수 있다.

하지만 y = aX1 + bX2 + cX3 + dX4 ..... + z 라고 할 때,

x변수가 많다고 해서 y를 잘 예측하는 것도 아니다.

따라서 y를 예측하는데 필요한 x를 뽑는 것도 중요하다.

예를 들면 여름에 아이스크림 판매량(y)를 예측하는데 여름의 기온(x1), 아이스크림의 가격(x2), 겨울의 기온(x3)이 있다면, x3이 y를 예측하는데 영향력이 적을 것이다.

하지만 X3를 y값을 예측하기 위한 데이터에 포함하거나 비포함할 때의 차이는 클 수 있다.

* 과대적합(overfitting)을 줄이고 일반화 error를 줄일 수 있는 방법

1) 더 많은 훈련 데이터를 수집한다.

2) 정규화에 의한 복잡도에 벌점을 부과한다.

L1, L2 정규화함

3) 더 적은 파라미터를 갖는 단순한 모델을 선택한다.

4) 데이터 차원을 축소한다. 예) PCA

[모델 선택하기] 머신러닝(지도학습,비지도학습,강화학습)/딥러닝 (0)	2018.07.19
[기초개념] 데이터 분석 관점에서 한줄로 정리한 '머신러닝 딥러닝 데이터 분석을 하기 위해 꼭 알아야할 기본 개념' (0)	2018.05.28
[데이터 분석-전처리] 범주형 데이터_원핫인코딩 쉽게하기 (0)	2018.05.17
[데이터 분석-전처리] 범주형 데이터 (0)	2018.04.24
[데이터 분석-전처리] 결측치 처리하는 방법 (3)	2018.04.24

관련글