본문 바로가기

처리2

빅데이터 처리기술 1) 빅데이터 처리과정과 요소기술 순서 처리 과정 요소기술 1 생성 * DB나 파일 관리 시스템과 같은 내부 데이터 * 인터넷으로 연결된 외부로부터 생성된 파일이나 데이터 2 수집 * 크롤링 : 데이터 원천으로부터 데이터를 검색하여 수집 / 무수히 많은 컴퓨터에 분산 저장된 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술 * ETL : 소스 데이터로부터 추출, 변환, 적재 / 다양한 원천 데이터를취합해 추출하고 공통된 형식으로 변환 * 로그 수집기 : 웹 서버나 시스템의 로그 수집 * 센서 네트워크 : 유비쿼터스 컴퓨팅 구형을 위한 초경량 저전력의 많은 센서들로 구성된 유무선 네트워크 * Open API 3 저장 * 병렬 DBMS * 하둡 * NoSQL(Not only SQL) - 모델을 단순화 -.. 2022. 9. 16.
[데이터 분석-전처리] 결측치 처리하는 방법 데이터를 분석하면 가장 많은 시간을 데이터 전처리에 쏟게 된다 오늘은 결측치를 다루는 방법 예제:import pandas as pdfrom io import StringIO csv_data = '''A,B,C,D,1.,2.,3.,4.,5.,6.,,8.,0.0,11.0,12.0'''df = pd.read_csv(StringIO(csv_data), encoding='UTF-8') #StringIO 은 데이터 프레임에 넣어주기 위해 사용 print(df) # 데이터 넣을 떄 ' '공란 주의하고, Unnamed: 4가 생긴 이유는 '/n' 때문에 생김 A B C D Unnamed: 4 0 1.0 2.0 3.0 4.0 NaN1 5.0 6.0 NaN 8.0 NaN2 0.0 11.0 12.0 NaN NaN df = .. 2018. 4. 24.
반응형