본문 바로가기

pandas5

[pandas] groupby 집계 함수 활용법 모음 데이터 프레임에서 집계하여 활용하는 다양한 방법 모음 활용 예시 데이터셋 import pandas as pd import numpy as np raw_data = {'id':['id1', 'id2', 'id3','id2', 'id3'], 'data1':[34,12,5,45,67], 'data2':[1234,3255,3245,4356,7032]} df = pd.DataFrame(raw_data) print(df) >>> print(df) id data1 data2 0 id1 34 1234 1 id2 12 3255 2 id3 5 3245 3 id2 45 4356 4 id3 67 7032 1. 간단한 집계 sum(), count(), min(), max(), mean(), median() 둥.... # 특정 .. 2021. 8. 1.
[pandas] loc 와 iloc의 간단 명료한 차이 설명 .loc 명시적인 인덱스를 참조하여 데이터 프레임을 인덱싱/슬라이싱 .iloc 암묵적인 인덱스를 참조하여 데이터 프레임을 인덱싱/슬라이싱 예시 import pandas as pd raw_data = {'index':['id1', 'id2', 'id3'], 'age':[34,12,5], 'adress':[1234,3255,3245]} df = pd.DataFrame(raw_data) df = df.set_index('index') print(df) # indexing df.loc['id1'] # age 34 # adress 1234 # slicing df.loc['id1', 'adress'] # 1234 # indexing df.iloc[0] # age 34 # adress 1234 # slicing df.. 2021. 8. 1.
[데이터 분석-전처리] 범주형 데이터_원핫인코딩 쉽게하기 범주형 데이터는 숫자의 차이가 의미가 없기 때문에 원핫인코딩/더미화 하여 데이터 처리를 해줘야 한다. 즉, 색상이 1. 빨강2. 노랑3. 파랑 인 경우를 본다면, 1,2,3의 순서나 크기가 데이터 분석에 영향을 줄 수 있기 때문이다. 따라서 빨강인이 아닌지에 대한 여부로 변수를 변경해야 한다. 이렇게 되면 색상 컬럼/변수 하나가 3개의 컬럼으로 증가하여 빨강인지 아닌지, 노랑인지 아닌지, 파랑인지 아닌지로 변경하게 된다. 이런 데이터 변경을 쉽게 해주는 코드들은 아래와 같다. 1. 기본 데이터 셋 만들기 import pandas as pddf = pd.DataFrame([['green', 'M', '10.1', 'class1'], ['red', 'L', '13.5', 'class2'], ['blue', .. 2018. 5. 17.
[데이터 분석-전처리] 결측치 처리하는 방법 데이터를 분석하면 가장 많은 시간을 데이터 전처리에 쏟게 된다 오늘은 결측치를 다루는 방법 예제:import pandas as pdfrom io import StringIO csv_data = '''A,B,C,D,1.,2.,3.,4.,5.,6.,,8.,0.0,11.0,12.0'''df = pd.read_csv(StringIO(csv_data), encoding='UTF-8') #StringIO 은 데이터 프레임에 넣어주기 위해 사용 print(df) # 데이터 넣을 떄 ' '공란 주의하고, Unnamed: 4가 생긴 이유는 '/n' 때문에 생김 A B C D Unnamed: 4 0 1.0 2.0 3.0 4.0 NaN1 5.0 6.0 NaN 8.0 NaN2 0.0 11.0 12.0 NaN NaN df = .. 2018. 4. 24.
[파이썬] 간단 명료한 Numpy와 Pandas 차이 머신러닝과 딥러닝을 할때, 구분해서 사용하면 좋음. Numpy (핵심 기능: 다차원(n-차원) 배열인 ndarray 클래스, 배열의 모든 원소는 동일한 데이터 타입이여야 함) 1. 다차원 배열 객체 2. 유니버설 함수 3. 배열을 사용한 데이터 처리 4. 배열의 파일 입력, 출력 5. 선형대수 6. 난수 생성 7. 브로드캐스팅 8. 객체 생성이기 때문에 객체 주소지만 참조함 Pandas 1. 테이블을 수정하고 조작하는 다양한 기능 제공 2. SQL처럼 테이블에 쿼리나 조인을 수행할 수 있음 3. 각 열의 타입이 달라도 됨 4. SQL, 엑셀파일, CSV 파일과 데이터베이스의 데이터를 읽어들임. 정리 Numpy: 같은 데이터타입의 다차원 배열, 난수생성 가능, 연산가능 Pandas: 다른 데이터타입을 담을.. 2018. 4. 9.
반응형