본문 바로가기
기타(🎸X)/빅데이터

[빅데이터] 빅데이터 플랫폼

by 푸_푸 2023. 2. 25.
728x90

1) 빅데이터 플랫폼(Bigdata Platform)의 개념

빅데이터에서 가치를 추출하기 위해 일련의 과정(수집→저장→분석→활용)을 규격화한 기술이다.
특화된 분석(의료, 환경, 범죄, 자동차 등)을 지원하는 빅데이터 플랫폼이 발전하는 추세이다.

 

빅데이터 플랫폼 개념도

 

2) 빅데이터 플랫폼 구성요소

구성요소 주요 기능
데이터 수집 원천 데이터의 정형/반정형/비정형 데이터 수집
데이터 저장 정형 데이터, 반정형 데이터, 비정형 데이터 저장
데이터 분석 텍스트 분석, 머신러닝, 통계, 데이터 마이닝
데이터 활용 데이터 가시화 및 BI, Open API 연계

 

3) 하둡 에코 시스템(Hadoop Ecosystem)

하둡 에코 시스템은 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임이다.
하둡 에코시스템은 수집, 저장, 처리 기술과 분석, 실시간 SQL 질의 기술로 구분할 수 있다.

 

하둡 에코시스템

 

구분 기술 설명
비정형
데이터 수집
척와
(Chukwa)
분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 받아 HDFS에 저장하는 기술
플럼
(Flume)
많은 양의 로그 데이터를 효울적으로 수집, 집계, 이동하기 위해 이벤트(Event)와 에이전트(Agent)를 활용하는 기술
스크라이브
(Scribe)
다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술
정형
데이터 수집
스쿱
(Sqoop;
SQL-to-
Hadoop)
대용량 데이터 전송 솔루션
커넥터를 사용하여 관계형 데이터베이스 시스템에서 하둡 파일 시스템으로 데이터를 수집하거나, 하둡 파일 시스템에서 관계형 데이터베이스로 데이터를 보내는 기술
히호
(Hiho)
스쿱과 같은 데용량 전송 솔루션, 현재 깃허브에서 공개되어 있음
분산
데이터 저장
HDFS
(Hadoop
Distributed
File System)
대용량 파일을 분산된 서버에 저장하고, 그 저장괸 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
다중 복제, 대량 파일 저장, 온라인 변경, 범용서버 기반, 자동복구의 특징이 있음
분산
데이터 베이스
HBase HDFS를 기반으로 구현된 컬럼 기반의 분산 데이터 베이스
분산
데이터 처리
맵리듀스
(Map Reduce)
대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크
리소스
관리

(YARN)
하둡의 맵리듀스 처리 부분을 새롭게 만든 자원관리 플랫폼
인메모리
처리
아파치 스파크
(Apache
Spark)
하둡 기반 대규모 분산처리시스템
데이터
가공
피그
(Pig)
대용량 데이터 집합을 분석하기 위한 플랫폼
하이브
(Hive)
하둡 기반의 DW(데이터 웨어하우스)솔루션
데이터
마이닝
머하웃
(Mahout)
하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스
실시간
SQL 질의
임팔라
(Impala)
하둡 기반의 실시간 SQL 질의 시스템
타조
(Tajo)
다양한 데이터 소스를 위한 하둡 기반의 ETL 기술을 이용해서 DW에 적재하는 시스템
워크플로우
관리
우지
(Oozie)
하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
분산
코디네이션
주키퍼
(Zookeeper)
분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공하는 기술

 

728x90

댓글