반응형
빅데이터의 정의
1. 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미함
1) 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터임
2) 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처임
3) 빅데이터는 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내며, 나아가 이를 활용해 시장과 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 것임
빅데이터의 등장과 변화
(1) 빅데이터의 등장
- 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술이 빠르게 발전함
==> 기존 방식으로는 얻을 수 없었던 통찰 및 가치 창출
==> 시장, 사업방식, 사회, 정부 등에서 변화와 혁신 주도
(2) 빅데이터의 등장으로 인한 변화
- 데이터 처리 시점이 사전 처리에서 사후 처리로 이동함(많은 데이터 수집 후에 필요한 정보 추출)
- 데이터 처리 범주가 표본조사에서 전수조사로 확대됨
- 데이터 가치 판단 기준이 질 -> 양으로 중요도가 변화됨
- 데이터 분석하는 방향이 이론적 인과관계 중심에서 단순한 상관과계로 변화됨
빅데이터의 특징
가트너는 빅데이터의 특징을 3V(규모, 유형, 속도)로 설명했으나, 최근에는 2V(품질, 가치)가 추가되어 5V로 설명함
광의 | 협의 | 특징 | 내용 |
5V | 3V | 규모(Volume) | - 데이터 양이 급격하게 증가(대용량화) - 기존 데이터 관리 시스템의 성능적 한계 도닥 |
유형(Variety) | - 데이터의 종류와 근원 확대(다양화) - 정형 데이터 외 반정형 및 비정형 데이터로 확장 |
||
속도(Velocity) | - 데이터 수집과 처리 속도의 변화(고속화) - 대용량 데이터의 신속하고 즉각적인 분석 요구 |
||
2V | 품질(Veracity) | - 데이터의 신뢰성, 정확성, 타당성 보장이 필수 - 고품질의 데이터에서 고수준 인사이트 도출 가능 |
|
가치(Value) | - 대용량의 데이터 안에 숨겨진 가치 발굴이 중요 - 다른 데이터들과 연계 시 가치가 배로 증대 |
전통적 데이터와 빅데이터 비교
비교 기준 | 전통적 데이터 | 빅데이터 |
규모 | 기가바이트(GB) 이하 | 테라바이트(TB) 이상 |
유형 | 정형 데이터 | 정형+반정형, 비정형 데이터 |
처리단위 | 시간 또는 일 단위 처리 | 실시간 처리 |
처리방식 | 중앙집중식 처리 | 분산 처리 |
시스템 | Relarional DBMS | Hadoop, HDFS, Hbase, NoSQL 등 |
빅데이터 활용 요소
구성요소 | 내용 |
자원(Resource) [빅데이터] |
- 정형, 반정형, 비정형 데이터를 실시간으로 수집함 - 수집된 데이터를 전처리 과정을 통해 품질을 향상시킴 |
기술(Technology) [빅데이터플랫폼, AI] |
- 분산 파일 시스템을 통해 대용량 데이터를 분산 처리함 - 데이터마이닝 등을 통해 데이털르 분석 및 시각화함 - 데이터를 스스로 학습, 처리할 수 있는 AI 기술을 활용함 |
인력(People) [알고리즈미스트, 데이터사이언티스트] |
- 통계학, 수학, 컴퓨터공학, 경영학 분야 전문지식을 갖춤 - 도메인 지식을 습득하여 데이터 분석 및 결과를 해석함 |
빅데이터 활용을 위한 기본 테크닉
테크닉 | 설명 |
연관규칙학습 | 변인들 간 주목할 만한 상관관계가 있는지 찾아내는 방법 |
유형분석 | 문서를 분류하거나 조직을 그룹화할 때 사용 |
유전 알고리즘 | 최적화가 필요한 문제를 생물 진화의 과정을 모방하여 점진적으로 해결책을 찾는 방법 |
기계학습 | 데이터로부터 학습한 알려진 특성을 활용하여 예측 |
회귀분석 | 독립변수가 종속변수에 미치는 영향을 분석할 때 사용 |
감정분석 | 특정 주제에 대해 말을 하거나 글을 쓴 사람의 감정을 분석 |
소셜네트워크분석 | 특정인과 다른 사람의 관계를 파악하고 영향력 있는 사람을 분석할 때 사용 |
반응형
'자격증 공부' 카테고리의 다른 글
[이론 정리] 분산 시스템, 병렬 시스템, 하둡, 맵리듀스 (1) | 2022.09.18 |
---|---|
빅데이터 처리기술 (0) | 2022.09.16 |
빅데이터 플랫폼 개념 정리 (0) | 2022.09.13 |
빅데이터의 가치 (0) | 2022.09.13 |
데이터베이스란? 주요 개념 설명 (0) | 2022.09.07 |