본문 바로가기
자격증 공부

빅데이터 개요 자료 정리

by code cleaner 2022. 9. 10.
반응형

빅데이터의 정의 

1. 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미함

1) 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터임

2) 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처임

3) 빅데이터는 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내며, 나아가 이를 활용해 시장과 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 것임


빅데이터의 등장과 변화

(1) 빅데이터의 등장

 - 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술이 빠르게 발전함

 ==> 기존 방식으로는 얻을 수 없었던 통찰 및 가치 창출

 ==> 시장, 사업방식, 사회, 정부 등에서 변화와 혁신 주도

(2) 빅데이터의 등장으로 인한 변화

- 데이터 처리 시점이 사전 처리에서 사후  처리로 이동함(많은 데이터 수집 후에 필요한 정보 추출)

- 데이터 처리 범주가 표본조사에서 전수조사로 확대됨

- 데이터 가치 판단 기준이 질 -> 양으로 중요도가 변화됨

- 데이터 분석하는 방향이 이론적 인과관계 중심에서 단순한 상관과계로 변화됨


빅데이터의 특징

가트너는 빅데이터의 특징을 3V(규모, 유형, 속도)로 설명했으나, 최근에는 2V(품질, 가치)가 추가되어 5V로 설명함

광의 협의 특징 내용
5V 3V 규모(Volume) - 데이터 양이 급격하게 증가(대용량화)
- 기존 데이터 관리 시스템의 성능적 한계 도닥
유형(Variety) - 데이터의 종류와 근원 확대(다양화)
- 정형 데이터 외 반정형 및 비정형 데이터로 확장
속도(Velocity) - 데이터 수집과 처리 속도의 변화(고속화)
- 대용량 데이터의 신속하고 즉각적인 분석 요구
2V 품질(Veracity) - 데이터의 신뢰성, 정확성, 타당성 보장이 필수
- 고품질의 데이터에서 고수준 인사이트 도출 가능
가치(Value) - 대용량의 데이터 안에 숨겨진 가치 발굴이 중요
- 다른 데이터들과 연계 시 가치가 배로 증대

전통적 데이터와 빅데이터 비교

비교 기준 전통적 데이터 빅데이터
규모 기가바이트(GB) 이하 테라바이트(TB) 이상
유형 정형 데이터 정형+반정형, 비정형 데이터
처리단위 시간 또는 일 단위 처리 실시간 처리
처리방식 중앙집중식 처리 분산 처리
시스템 Relarional DBMS Hadoop, HDFS, Hbase, NoSQL 등

빅데이터 활용 요소

구성요소 내용
자원(Resource)
[빅데이터]
- 정형, 반정형, 비정형 데이터를 실시간으로 수집함
- 수집된 데이터를 전처리 과정을 통해 품질을 향상시킴
기술(Technology)
[빅데이터플랫폼, AI]
- 분산 파일 시스템을 통해 대용량 데이터를 분산 처리함
- 데이터마이닝 등을 통해 데이털르 분석 및 시각화함
- 데이터를 스스로 학습, 처리할 수 있는 AI 기술을 활용함
인력(People)
[알고리즈미스트,
데이터사이언티스트]
- 통계학, 수학, 컴퓨터공학, 경영학 분야 전문지식을 갖춤
- 도메인 지식을 습득하여 데이터 분석 및 결과를 해석함

빅데이터 활용을 위한 기본 테크닉

테크닉 설명
연관규칙학습 변인들 간 주목할 만한 상관관계가 있는지 찾아내는 방법
유형분석 문서를 분류하거나 조직을 그룹화할 때 사용
유전 알고리즘 최적화가 필요한 문제를 생물 진화의 과정을 모방하여 점진적으로 해결책을 찾는 방법
기계학습 데이터로부터 학습한 알려진 특성을 활용하여 예측
회귀분석 독립변수가 종속변수에 미치는 영향을 분석할 때 사용
감정분석 특정 주제에 대해 말을 하거나 글을 쓴 사람의 감정을 분석
소셜네트워크분석 특정인과 다른 사람의 관계를 파악하고 영향력 있는 사람을 분석할 때 사용

 

 

 

반응형