728x90
1) 빅데이터 플랫폼(Bigdata Platform)의 개념
빅데이터에서 가치를 추출하기 위해 일련의 과정(수집→저장→분석→활용)을 규격화한 기술이다.
특화된 분석(의료, 환경, 범죄, 자동차 등)을 지원하는 빅데이터 플랫폼이 발전하는 추세이다.
2) 빅데이터 플랫폼 구성요소
구성요소 | 주요 기능 |
데이터 수집 | 원천 데이터의 정형/반정형/비정형 데이터 수집 |
데이터 저장 | 정형 데이터, 반정형 데이터, 비정형 데이터 저장 |
데이터 분석 | 텍스트 분석, 머신러닝, 통계, 데이터 마이닝 |
데이터 활용 | 데이터 가시화 및 BI, Open API 연계 |
3) 하둡 에코 시스템(Hadoop Ecosystem)
하둡 에코 시스템은 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임이다.
하둡 에코시스템은 수집, 저장, 처리 기술과 분석, 실시간 SQL 질의 기술로 구분할 수 있다.
구분 | 기술 | 설명 |
비정형 데이터 수집 |
척와 (Chukwa) |
분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 받아 HDFS에 저장하는 기술 |
플럼 (Flume) |
많은 양의 로그 데이터를 효울적으로 수집, 집계, 이동하기 위해 이벤트(Event)와 에이전트(Agent)를 활용하는 기술 | |
스크라이브 (Scribe) |
다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술 | |
정형 데이터 수집 |
스쿱 (Sqoop; SQL-to- Hadoop) |
대용량 데이터 전송 솔루션 커넥터를 사용하여 관계형 데이터베이스 시스템에서 하둡 파일 시스템으로 데이터를 수집하거나, 하둡 파일 시스템에서 관계형 데이터베이스로 데이터를 보내는 기술 |
히호 (Hiho) |
스쿱과 같은 데용량 전송 솔루션, 현재 깃허브에서 공개되어 있음 | |
분산 데이터 저장 |
HDFS (Hadoop Distributed File System) |
대용량 파일을 분산된 서버에 저장하고, 그 저장괸 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템 다중 복제, 대량 파일 저장, 온라인 변경, 범용서버 기반, 자동복구의 특징이 있음 |
분산 데이터 베이스 |
HBase | HDFS를 기반으로 구현된 컬럼 기반의 분산 데이터 베이스 |
분산 데이터 처리 |
맵리듀스 (Map Reduce) |
대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크 |
리소스 관리 |
얀 (YARN) |
하둡의 맵리듀스 처리 부분을 새롭게 만든 자원관리 플랫폼 |
인메모리 처리 |
아파치 스파크 (Apache Spark) |
하둡 기반 대규모 분산처리시스템 |
데이터 가공 |
피그 (Pig) |
대용량 데이터 집합을 분석하기 위한 플랫폼 |
하이브 (Hive) |
하둡 기반의 DW(데이터 웨어하우스)솔루션 | |
데이터 마이닝 |
머하웃 (Mahout) |
하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스 |
실시간 SQL 질의 |
임팔라 (Impala) |
하둡 기반의 실시간 SQL 질의 시스템 |
타조 (Tajo) |
다양한 데이터 소스를 위한 하둡 기반의 ETL 기술을 이용해서 DW에 적재하는 시스템 | |
워크플로우 관리 |
우지 (Oozie) |
하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템 |
분산 코디네이션 |
주키퍼 (Zookeeper) |
분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공하는 기술 |
728x90
'기타(🎸X) > 빅데이터' 카테고리의 다른 글
[빅데이터] 파이썬 빅데이터 분석 패키지 - numpy (0) | 2023.05.28 |
---|---|
[빅데이터] 데이터 비식별화 기법 (0) | 2023.05.09 |
[빅데이터] 빅데이터 조직 및 인력 (0) | 2023.02.24 |
[빅데이터] 빅데이터 산업의 이해 (0) | 2023.02.15 |
[빅데이터] 빅데이터의 가치 (0) | 2023.02.14 |
댓글