본문 바로가기
자격증 공부

[이론 정리] 분산 시스템, 병렬 시스템, 하둡, 맵리듀스

by code cleaner 2022. 9. 18.
반응형

분산 시스템과 병렬 시스템

분산 시스템 * 네트워크상에 분산되어 있는 컴퓨터를 단일 시스템인 것처럼 구동하는 기술
* 분산 시스템에 속한 각 노드는 독립된 시스템임
* 독립 컴퓨터의 집합으로 만들었으나 마치 단일 시스템인 것처럼 수행되어야 함
병렬 시스템 * 문제 해결을 위한 CPU 등의 자원을 데이터 버스나 지역 통신 시스템 등으로 연결하여 구동하는 기술
* 분할된 작업을 동시에 처리하여 계산 속도를 빠르게 함

분산 병렬 컴퓨팅

다수의 독립된 컴퓨팅 자원을 네트워크상에 연결하여 이를 제어하는 미들웨어(Middle ware)를 이용해 하나의 시스템으로 동작하게 하는 기술임

고려가 필요한 문제 설 명
전체 작업의 배분 문제 * 전체 작업을 잘 쪼개어 여러 개의 작은 작업으로 나눠야 함
각 프로세서에서 계산된 중간 결과물을 프로세서 간 주고받는 문제 * 효율적인 통신은 성능과 직결됨
* 보통 단일 시스템은 전체 작업을 노드의 수만큼 균등하게 나눔
* 이종 시스템은 컴퓨팅 능력에 따라 전체 작업을 배분함
* 노드 간의 통신을 최소화하는 기법 등이 반영되면 자원을 좀 더 효율적으로 사용할 수 있어 성능 향상에 도움이 됨
서로 다른 프로세서 간
동기화 문제
* 데이터 병렬 처리에서 동기적 방법을 사용할 경우 프로세서는 특정 계산이 끝나거나 특정 데이터를 넘겨받을 때까지 반드시 대기하여야 함
* 동기적 방법의 경우 송신자는 수신자에게서 데이터를 받았다는 응답이 올때까지 대기하여야 함
* 비동기적 방법에서는 결과 메시지를 보낸 즉시 다음 작업을 계속할 수 있음
* 비동기적 방법의 경우 프로세서는 기다릴 필요가 없지만, 계산 과정이 적합한지는 확인해야 함

하둡(Hadoop)

분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈 소스 소프트웨어 프레임 워크

* 야후에서 최초로 개발했으며, 지금은 아파치 소프트웨어 재단에서 프로젝트로 관리중

* 하둡 분산파일시스템인 HDFS와 분산칼럼기반 데이터베이스인 Hbase, 분산 컴퓨팅 지원 프레임워크인 맵리듀스(MapReduce)로 구성됨

 - 맵리듀스 : 구글에서 대용량 데이터를 효과적으로 병렬 및 분산 처리를 지원하기 위해 개발함

* 분산파일시스템을 통해 수 천대의 장비에 대용량 파일을 나누어 저장할 수 있는 기능을 제공함

 - 분산파일시스템에 저장된 대용량의 데이터들을 맵리듀스를 이용하여 실시간으로 처리 및 분석이 가능함

* 하둡의 부족한 기능을 보완하는 하둡 에코시스템이 등장하여 다양한 솔루션을 제공함

 

아파치 스파크(Apache Spark)

실시간 분산형 컴퓨팅 플랫폼으로 In-Memory 방식으로 처리하며 하둡보다 처리 속도가 빠름

스칼라 언어로 개발되었지만, Java, R, python도 지원함

 

 

 

반응형

'자격증 공부' 카테고리의 다른 글

빅데이터 처리기술  (0) 2022.09.16
빅데이터 플랫폼 개념 정리  (0) 2022.09.13
빅데이터의 가치  (0) 2022.09.13
빅데이터 개요 자료 정리  (1) 2022.09.10
데이터베이스란? 주요 개념 설명  (0) 2022.09.07