반응형
분산 시스템과 병렬 시스템
분산 시스템 | * 네트워크상에 분산되어 있는 컴퓨터를 단일 시스템인 것처럼 구동하는 기술 * 분산 시스템에 속한 각 노드는 독립된 시스템임 * 독립 컴퓨터의 집합으로 만들었으나 마치 단일 시스템인 것처럼 수행되어야 함 |
병렬 시스템 | * 문제 해결을 위한 CPU 등의 자원을 데이터 버스나 지역 통신 시스템 등으로 연결하여 구동하는 기술 * 분할된 작업을 동시에 처리하여 계산 속도를 빠르게 함 |
분산 병렬 컴퓨팅
다수의 독립된 컴퓨팅 자원을 네트워크상에 연결하여 이를 제어하는 미들웨어(Middle ware)를 이용해 하나의 시스템으로 동작하게 하는 기술임
고려가 필요한 문제 | 설 명 |
전체 작업의 배분 문제 | * 전체 작업을 잘 쪼개어 여러 개의 작은 작업으로 나눠야 함 |
각 프로세서에서 계산된 중간 결과물을 프로세서 간 주고받는 문제 | * 효율적인 통신은 성능과 직결됨 * 보통 단일 시스템은 전체 작업을 노드의 수만큼 균등하게 나눔 * 이종 시스템은 컴퓨팅 능력에 따라 전체 작업을 배분함 * 노드 간의 통신을 최소화하는 기법 등이 반영되면 자원을 좀 더 효율적으로 사용할 수 있어 성능 향상에 도움이 됨 |
서로 다른 프로세서 간 동기화 문제 |
* 데이터 병렬 처리에서 동기적 방법을 사용할 경우 프로세서는 특정 계산이 끝나거나 특정 데이터를 넘겨받을 때까지 반드시 대기하여야 함 * 동기적 방법의 경우 송신자는 수신자에게서 데이터를 받았다는 응답이 올때까지 대기하여야 함 * 비동기적 방법에서는 결과 메시지를 보낸 즉시 다음 작업을 계속할 수 있음 * 비동기적 방법의 경우 프로세서는 기다릴 필요가 없지만, 계산 과정이 적합한지는 확인해야 함 |
하둡(Hadoop)
분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈 소스 소프트웨어 프레임 워크
* 야후에서 최초로 개발했으며, 지금은 아파치 소프트웨어 재단에서 프로젝트로 관리중
* 하둡 분산파일시스템인 HDFS와 분산칼럼기반 데이터베이스인 Hbase, 분산 컴퓨팅 지원 프레임워크인 맵리듀스(MapReduce)로 구성됨
- 맵리듀스 : 구글에서 대용량 데이터를 효과적으로 병렬 및 분산 처리를 지원하기 위해 개발함
* 분산파일시스템을 통해 수 천대의 장비에 대용량 파일을 나누어 저장할 수 있는 기능을 제공함
- 분산파일시스템에 저장된 대용량의 데이터들을 맵리듀스를 이용하여 실시간으로 처리 및 분석이 가능함
* 하둡의 부족한 기능을 보완하는 하둡 에코시스템이 등장하여 다양한 솔루션을 제공함
아파치 스파크(Apache Spark)
실시간 분산형 컴퓨팅 플랫폼으로 In-Memory 방식으로 처리하며 하둡보다 처리 속도가 빠름
스칼라 언어로 개발되었지만, Java, R, python도 지원함
반응형
'자격증 공부' 카테고리의 다른 글
빅데이터 처리기술 (0) | 2022.09.16 |
---|---|
빅데이터 플랫폼 개념 정리 (0) | 2022.09.13 |
빅데이터의 가치 (0) | 2022.09.13 |
빅데이터 개요 자료 정리 (1) | 2022.09.10 |
데이터베이스란? 주요 개념 설명 (0) | 2022.09.07 |