[빅데이터] 빅데이터 플랫폼

728x90

1) 빅데이터 플랫폼(Bigdata Platform)의 개념

빅데이터에서 가치를 추출하기 위해 일련의 과정(수집→저장→분석→활용)을 규격화한 기술이다.
특화된 분석(의료, 환경, 범죄, 자동차 등)을 지원하는 빅데이터 플랫폼이 발전하는 추세이다.

2) 빅데이터 플랫폼 구성요소

구성요소	주요 기능
데이터 수집	원천 데이터의 정형/반정형/비정형 데이터 수집
데이터 저장	정형 데이터, 반정형 데이터, 비정형 데이터 저장
데이터 분석	텍스트 분석, 머신러닝, 통계, 데이터 마이닝
데이터 활용	데이터 가시화 및 BI, Open API 연계

3) 하둡 에코 시스템(Hadoop Ecosystem)

하둡 에코 시스템은 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임이다.
하둡 에코시스템은 수집, 저장, 처리 기술과 분석, 실시간 SQL 질의 기술로 구분할 수 있다.

구분	기술	설명
비정형 데이터 수집	척와 (Chukwa)	분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 받아 HDFS에 저장하는 기술
	플럼 (Flume)	많은 양의 로그 데이터를 효울적으로 수집, 집계, 이동하기 위해 이벤트(Event)와 에이전트(Agent)를 활용하는 기술
	스크라이브 (Scribe)	다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술
정형 데이터 수집	스쿱 (Sqoop; SQL-to- Hadoop)	대용량 데이터 전송 솔루션 커넥터를 사용하여 관계형 데이터베이스 시스템에서 하둡 파일 시스템으로 데이터를 수집하거나, 하둡 파일 시스템에서 관계형 데이터베이스로 데이터를 보내는 기술
정형 데이터 수집	히호 (Hiho)	스쿱과 같은 데용량 전송 솔루션, 현재 깃허브에서 공개되어 있음
분산 데이터 저장	HDFS (Hadoop Distributed File System)	대용량 파일을 분산된 서버에 저장하고, 그 저장괸 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템 다중 복제, 대량 파일 저장, 온라인 변경, 범용서버 기반, 자동복구의 특징이 있음
분산 데이터 베이스	HBase	HDFS를 기반으로 구현된 컬럼 기반의 분산 데이터 베이스
분산 데이터 처리	맵리듀스 (Map Reduce)	대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크
리소스 관리	얀 (YARN)	하둡의 맵리듀스 처리 부분을 새롭게 만든 자원관리 플랫폼
인메모리 처리	아파치 스파크 (Apache Spark)	하둡 기반 대규모 분산처리시스템
데이터 가공	피그 (Pig)	대용량 데이터 집합을 분석하기 위한 플랫폼
데이터 가공	하이브 (Hive)	하둡 기반의 DW(데이터 웨어하우스)솔루션
데이터 마이닝	머하웃 (Mahout)	하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스
실시간 SQL 질의	임팔라 (Impala)	하둡 기반의 실시간 SQL 질의 시스템
실시간 SQL 질의	타조 (Tajo)	다양한 데이터 소스를 위한 하둡 기반의 ETL 기술을 이용해서 DW에 적재하는 시스템
워크플로우 관리	우지 (Oozie)	하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
분산 코디네이션	주키퍼 (Zookeeper)	분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공하는 기술

728x90

저작자표시 비영리 변경금지

'기타(🎸X) > 빅데이터' 카테고리의 다른 글

[빅데이터] 파이썬 빅데이터 분석 패키지 - numpy (0)	2023.05.28
[빅데이터] 데이터 비식별화 기법 (0)	2023.05.09
[빅데이터] 빅데이터 조직 및 인력 (0)	2023.02.24
[빅데이터] 빅데이터 산업의 이해 (0)	2023.02.15
[빅데이터] 빅데이터의 가치 (0)	2023.02.14

푸르르

[빅데이터] 빅데이터 플랫폼

'기타(🎸X) > 빅데이터' 카테고리의 다른 글

댓글

티스토리툴바

[빅데이터] 빅데이터 플랫폼

'기타(🎸X) > 빅데이터' 카테고리의 다른 글

관련글

댓글

티스토리툴바