[데이터 분석-전처리] 범주형 데이터_원핫인코딩 쉽게하기
범주형 데이터는 숫자의 차이가 의미가 없기 때문에 원핫인코딩/더미화 하여 데이터 처리를 해줘야 한다. 즉, 색상이 1. 빨강2. 노랑3. 파랑 인 경우를 본다면, 1,2,3의 순서나 크기가 데이터 분석에 영향을 줄 수 있기 때문이다. 따라서 빨강인이 아닌지에 대한 여부로 변수를 변경해야 한다. 이렇게 되면 색상 컬럼/변수 하나가 3개의 컬럼으로 증가하여 빨강인지 아닌지, 노랑인지 아닌지, 파랑인지 아닌지로 변경하게 된다. 이런 데이터 변경을 쉽게 해주는 코드들은 아래와 같다. 1. 기본 데이터 셋 만들기 import pandas as pddf = pd.DataFrame([['green', 'M', '10.1', 'class1'], ['red', 'L', '13.5', 'class2'], ['blue', ..
2018. 5. 17.
단축키
내 블로그
내 블로그 - 관리자 홈 전환 |
Q
Q
|
새 글 쓰기 |
W
W
|
블로그 게시글
글 수정 (권한 있는 경우) |
E
E
|
댓글 영역으로 이동 |
C
C
|
모든 영역
이 페이지의 URL 복사 |
S
S
|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.