[pandas] groupby 집계 함수 활용법 모음
데이터 프레임에서 집계하여 활용하는 다양한 방법 모음 활용 예시 데이터셋 import pandas as pd import numpy as np raw_data = {'id':['id1', 'id2', 'id3','id2', 'id3'], 'data1':[34,12,5,45,67], 'data2':[1234,3255,3245,4356,7032]} df = pd.DataFrame(raw_data) print(df) >>> print(df) id data1 data2 0 id1 34 1234 1 id2 12 3255 2 id3 5 3245 3 id2 45 4356 4 id3 67 7032 1. 간단한 집계 sum(), count(), min(), max(), mean(), median() 둥.... # 특정 ..
2021. 8. 1.
[데이터 분석-전처리] 범주형 데이터_원핫인코딩 쉽게하기
범주형 데이터는 숫자의 차이가 의미가 없기 때문에 원핫인코딩/더미화 하여 데이터 처리를 해줘야 한다. 즉, 색상이 1. 빨강2. 노랑3. 파랑 인 경우를 본다면, 1,2,3의 순서나 크기가 데이터 분석에 영향을 줄 수 있기 때문이다. 따라서 빨강인이 아닌지에 대한 여부로 변수를 변경해야 한다. 이렇게 되면 색상 컬럼/변수 하나가 3개의 컬럼으로 증가하여 빨강인지 아닌지, 노랑인지 아닌지, 파랑인지 아닌지로 변경하게 된다. 이런 데이터 변경을 쉽게 해주는 코드들은 아래와 같다. 1. 기본 데이터 셋 만들기 import pandas as pddf = pd.DataFrame([['green', 'M', '10.1', 'class1'], ['red', 'L', '13.5', 'class2'], ['blue', ..
2018. 5. 17.
[데이터 분석-전처리] 결측치 처리하는 방법
데이터를 분석하면 가장 많은 시간을 데이터 전처리에 쏟게 된다 오늘은 결측치를 다루는 방법 예제:import pandas as pdfrom io import StringIO csv_data = '''A,B,C,D,1.,2.,3.,4.,5.,6.,,8.,0.0,11.0,12.0'''df = pd.read_csv(StringIO(csv_data), encoding='UTF-8') #StringIO 은 데이터 프레임에 넣어주기 위해 사용 print(df) # 데이터 넣을 떄 ' '공란 주의하고, Unnamed: 4가 생긴 이유는 '/n' 때문에 생김 A B C D Unnamed: 4 0 1.0 2.0 3.0 4.0 NaN1 5.0 6.0 NaN 8.0 NaN2 0.0 11.0 12.0 NaN NaN df = ..
2018. 4. 24.