본문 바로가기

빅데이터8

빅데이터 처리기술 1) 빅데이터 처리과정과 요소기술 순서 처리 과정 요소기술 1 생성 * DB나 파일 관리 시스템과 같은 내부 데이터 * 인터넷으로 연결된 외부로부터 생성된 파일이나 데이터 2 수집 * 크롤링 : 데이터 원천으로부터 데이터를 검색하여 수집 / 무수히 많은 컴퓨터에 분산 저장된 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술 * ETL : 소스 데이터로부터 추출, 변환, 적재 / 다양한 원천 데이터를취합해 추출하고 공통된 형식으로 변환 * 로그 수집기 : 웹 서버나 시스템의 로그 수집 * 센서 네트워크 : 유비쿼터스 컴퓨팅 구형을 위한 초경량 저전력의 많은 센서들로 구성된 유무선 네트워크 * Open API 3 저장 * 병렬 DBMS * 하둡 * NoSQL(Not only SQL) - 모델을 단순화 -.. 2022. 9. 16.
빅데이터 플랫폼 개념 정리 빅데이터 플랫폼 등장 배경 * 정의 : 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공하여 그 기술들을 잘 사용할 수 있도록 준비된 환경을 의미함 * 등장배경 1) 비즈니스 요구사항 변화 - 빠른 의사결정보다 장기적이고 전략적인 접근 필요 - 초저가의 대규모 프로세싱과 클라우드 컴퓨팅 기반의 분석 환경 등장 2) 데이터 규모와 처리 복잡도 증가 - 분산 처리 필요 3) 데이터 구조의 변화와 신속성 요구 - 비정형 데이터의 비중과 실시간 처리에 대한 요구 높아짐 4) 데이터 분석 유연성 증대 - 통계 이외의 분석이 가능해졌으며, 기술 발전으로 비정형 데이터에 대한 분석 이 가능해짐 빅데이터 플랫폼의 기능 빅데이터를 처리하는 과정에서 발생하는 여러 부하를 해소함 1) 컴퓨팅 부하 발생 -.. 2022. 9. 13.
빅데이터의 가치 빅데이터의 활용 가치 4차 산업혁명시대의 원유이며 미래 경쟁 우위를 결정하는 것으로 데이터 분석을 잘 활용하는 조직일수록 차별적 경쟁력을 작추고 높은 성과를 창출함 빅데이터의 기능과 효과 1) 기존에 데이터를 갖고 있는 사업자에게는 고객 세분화, 맞춤형 개인화 서비스 등을 제공하여 경쟁 우위를 제공함 2) 의사결정을 지원하거나 이를 대신함 3) R&D 및 관리 효율성을 제고함 빅데이터의 가치 측정의 어려움 1) 데이터 활용 방식 : 누가 언제 어디서 데이터를 활용할지 알 수 없음 2) 가치 창출 방식 : 데이터는 어떤한 목적을 갖고서 가공하는가에 따라 가치가 결정됨 3) 분석 기술 발전 : 지금의 기술 상황에서는 가치가 없어 보일지라도 새로운 분석 기법이 등장할 경우 큰 가치를 찾아낼 수 있음 4) 데이.. 2022. 9. 13.
빅데이터 개요 자료 정리 빅데이터의 정의 1. 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미함 1) 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터임 2) 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처임 3) 빅데이터는 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내며, 나아가 이를 활용해 시장과 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 것임 빅데이터의 등장과 변화 (1) 빅데이터의 등장 - 디지털화, 저장 기술, 인터넷 보급, 모바일 .. 2022. 9. 10.
데이터 구분 - 정량적/정성적 데이터, 정형/반정형 데이터 1. 데이터의 유형별 구분하기 정량적(Quantitative) 데이터란? 주로 숫자로 이루어진 데이터 정성적(Qualitative) 데이터란? 문자와 같은 텍스트로 구성되어 함축적 의미를 갖고 있는 데이터 구분 정량적 데이터 정성적 데이터 유형 정형데이터, 반정형 데이터 비정형 데이터 특징 여러 요소의 결합으로 의미 부여 객체 하나가 함축된 의미 내포 관점 주로 객관적 내용 주로 주관적 내용 구성 수치나 기호 등 문자나 언어 등 형태 데이터베이스, 스프레드시트 등 웹로그, 텍스트 파일 등 위치 DBMS, 로컬 시스템 등 내부 웹사이트, 모바일 플랫폼 등 외부 분석 통계 분석 시 용이 통계 분석 시 어려움 * 정형(Structured) 데이터 : 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터, 연산이.. 2022. 9. 6.
[모델 선택하기] 머신러닝(지도학습,비지도학습,강화학습)/딥러닝 데이터 분석을 할 때, 가장 먼저 생각해야 하는 것이 분석의 목적과 목표, 그리고 그를 위한 변수와 모델을 설정하는 것이다. 여기서 모델을 정한다는 것은 목표를 도출하기 위해 머신러닝을 할지 딥러닝을 적용할지 그리고 머신러닝을 한다면 지도학습/비지도학습/강화학습 중 어떤 방식 선택할 것인지를 고민해 봐야 한다. 목표가 같다고 해도 적용하는 방법에 따라 결과들이 다르게 나올 수 있기 때문이다. 1. 머신러닝 데이터의 양이 적고 주로 정형데이터이며, 분석 목적과 목표 도출을 위해 파생변수를 도출해야 하며다양한 파라미터를 조정하여 성능평가를 할 수 있다. 1) 지도학습 조건) 지도학습은 입력데이터(이하 'x'데이터)와 출력데이터(y, 이하 라벨)가 있다. 목표) 라벨이 없는 신규 'x'데이터에 대하여 라벨값을.. 2018. 7. 19.
[데이터 분석] 의미있는 피처(컬럼) 선택 데이터의 피처(컬럼)이 많다고 해서 예측이 잘 되는 것은 아니다. y = ax + b 일 때, x값으로 y를 예측한다고 가정하면 a라는 가중치를 찾아내어 향후 X의 값이 들어오면 y를 예측할 수 있다. 하지만 y = aX1 + bX2 + cX3 + dX4 ..... + z 라고 할 때, x변수가 많다고 해서 y를 잘 예측하는 것도 아니다. 따라서 y를 예측하는데 필요한 x를 뽑는 것도 중요하다. 예를 들면 여름에 아이스크림 판매량(y)를 예측하는데 여름의 기온(x1), 아이스크림의 가격(x2), 겨울의 기온(x3)이 있다면, x3이 y를 예측하는데 영향력이 적을 것이다. 하지만 X3를 y값을 예측하기 위한 데이터에 포함하거나 비포함할 때의 차이는 클 수 있다. * 과대적합(overfitting)을 줄이고.. 2018. 5. 17.
[데이터 분석-전처리] 결측치 처리하는 방법 데이터를 분석하면 가장 많은 시간을 데이터 전처리에 쏟게 된다 오늘은 결측치를 다루는 방법 예제:import pandas as pdfrom io import StringIO csv_data = '''A,B,C,D,1.,2.,3.,4.,5.,6.,,8.,0.0,11.0,12.0'''df = pd.read_csv(StringIO(csv_data), encoding='UTF-8') #StringIO 은 데이터 프레임에 넣어주기 위해 사용 print(df) # 데이터 넣을 떄 ' '공란 주의하고, Unnamed: 4가 생긴 이유는 '/n' 때문에 생김 A B C D Unnamed: 4 0 1.0 2.0 3.0 4.0 NaN1 5.0 6.0 NaN 8.0 NaN2 0.0 11.0 12.0 NaN NaN df = .. 2018. 4. 24.
반응형