본문 바로가기
728x90

기타(🎸X)14

[빅데이터] 파이썬 빅데이터 분석 패키지 - scikit-learn 1. scikit-learn 개요 머신러닝 분석을 수행할 때 가장 유용하게 사용할 수 있는 파이썬 라이브러리 1) scikit-learn 임포트 import sklearn print(sklearn.__version__)#버전확인 2. scikit-learn 기반 프레임워크 머신러닝 모델 학습을 위한 fit 함수와 학습된 모델의 예측을 위한 predict 함수 제공 분류 알고리즘을 위한 클래스 Classifier, 회귀 알고리즘을 위한 클래스 Regressor 3. scikit-learn 주요 모듈 1) 예제 데이터 모듈 설명 sklearn.datasets scikit-learn에 내장되어 예제 데이터 세트를 제공 2) 변수 처리 모듈 설명 sklearn.preprocessing 데이터 전처리에 필요한 다.. 2023. 5. 30.
[빅데이터] 파이썬 빅데이터 분석 패키지 - pandas 1. pandas 개요 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있고 핵심적인 라이브러리 행과 열로 이루어진 2차원 데이터를 효율적으로 가공 및 처리 할 수 있는 다양한 기능 제공 numpy 기반, 훨씬 유연하고 편리하게 데이터 핸들링 가능 pandas의 핵심 객체는 여러개의 행과 열로 이루어진 2차원 데이터를 담는 데이터 구조체인 데이터 프레임 인덱스 : 관계형 데이터베이스 관리 시스템(RDBMS)의 기본키(PK)처럼 개별 데이터를 고유하게 식별하는 키 시리즈와 데이터 프레임은 모두 인덱스를 키로 가지고 있음 시리즈는 컬럼이 하나 뿐인 구조체, 데이터 프레임은 컬럼이 여러 개인 데이터 구조체 2. 시리즈(Series)와 데이터 프레임(DataFrame) 1) pandas 임포트 import p.. 2023. 5. 29.
[빅데이터] 파이썬 빅데이터 분석 패키지 - numpy 1. numpy 개요 Numerical Python을 의미 → 파이썬에서 선형 대수 기반의 프로그램을 쉽게 만들 수 있도록 지원 루프를 사용하지 않고 대량 데이터의 배열 연산을 가능하게 함 → 빠른 배열 연산 속도를 보장 2. numpy 배열 생성 1) numpy 임포트 import numpy as np #넘파이 임포트 2) numpy 생성 a1=np.array([1,2,3])#넘파이 생성 print(a1)#결과 : [1 2 3] 3) numpy 타입, 크기, 차원 print('array1 type : ',type(a1) )#결과 : array1 type : 배열의 타입 print('array1 shape : ', a1.shape)#결과 : array1 shape : (3,)배열의 크기 print('ar.. 2023. 5. 28.
[빅데이터] 데이터 비식별화 기법 ⌜데이터 비식별화 기법⌟ 가명처리 : 개인 식별이 가능한 데이터를 다른 값으로 대체 총계처리 : 통계값을 적용하여 비식별 처리 데이터 삭제 : 특정 데이터 값 삭제 범주화 : 식별 정보를 해당 그룹의 대푯값이나 구간 값으로 변환 마스킹 : 식별 값에 전체 또는 부분저긍로 대체 값으로 변환 1) 가명처리 휴리스틱가명화 : 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 대체하거나 가공하여 자세한 개인정보를 숨기는 방법 K-익명화 : K-익명성을 만족시키는 익명화 알고리즘 암호화 : 정보 가공 시 일정한 규칙의 알고리즘을 적용해 암호화 교환방법 : 기존 DB의 레코드를 사전 정해진 외부의 변수(항목) 값과 연계해 교환하는 방식 2) 총계처리 총합 데이터 : 전체를 집계하는 것 부분합 : 데이터셋 내 일정 .. 2023. 5. 9.
[취준일지] '공기업 전산직 준비 해야할까?' 공기업 2주 준비해본 후기 오늘은 사기업 입사지원서를 쓰다 지쳐 공기업도 해볼까? 라고 생각하는 과거의 나와 같은 고민을 하는 사람들을 위한 글을 써보고자 한다. ※ 글은 2주간의 얕은 공기업 지식으로 내용이 정확하지 않으며 어쩌구 저쩌구 저의 뇌피셜입니다. -서론- 나는 취업준비를 했나(?)하면서 사기업 5번 공기업 1번의 지원 경력이 있다. 더 있을 수도 있는데 지금 기억나는 건 6개다. 나에게 스펙이라고 할 건 정보처리기사, SQLD, ADsP와 조금 높은 학점이 다인데 이런 스펙으로는 웬만한 중견기업(?) 암튼 기업에 수시지원했을 때 불합격 연락조차 오지 않는다. 내가 서류 합격했던 기업들은 오히려 이름 있는 기업들이다. 서류합격 2회 그리고 각각 코딩테스트 합격 2회 그리고,, 면접 1회씩을 봤는데 한 번은 면접탈락 한 .. 2023. 4. 12.
[빅데이터] 빅데이터 플랫폼 1) 빅데이터 플랫폼(Bigdata Platform)의 개념 빅데이터에서 가치를 추출하기 위해 일련의 과정(수집→저장→분석→활용)을 규격화한 기술이다. 특화된 분석(의료, 환경, 범죄, 자동차 등)을 지원하는 빅데이터 플랫폼이 발전하는 추세이다. 2) 빅데이터 플랫폼 구성요소 구성요소 주요 기능 데이터 수집 원천 데이터의 정형/반정형/비정형 데이터 수집 데이터 저장 정형 데이터, 반정형 데이터, 비정형 데이터 저장 데이터 분석 텍스트 분석, 머신러닝, 통계, 데이터 마이닝 데이터 활용 데이터 가시화 및 BI, Open API 연계 3) 하둡 에코 시스템(Hadoop Ecosystem) 하둡 에코 시스템은 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임이다. 하둡 에코시스템은 수집, 저장, 처.. 2023. 2. 25.
[빅데이터] 빅데이터 조직 및 인력 1) 빅데이터 조직 설계 빅데이터 서비스 도입 및 운영조직을 구성하기 위해서는 빅데이터 업무 프로세스를 이해하고, 조직의 특성을 고려하여야 한다. ① 빅데이터 업무 프로세스 단계 설명 빅데이터 도입 단계 빅데이터 서비스를 제공하기 위해서는 빅데이터 시스템 구축을 위한 빅데이터 도입 기획, 기술 검토, 도입 조직 구성, 예산 확보 등을 수행 빅데이터 구축 단계 빅데이터 플랫폼을 구축하기 위해서는 요구사항 분석, 설계, 구현, 테스트 단계를 수행 빅데이터 운영 단계 빅데이터 시스템의 도입 및 구축이 끝나면, 이를 인수하여 운영 계획을 수립 빅데이터 플랫폼 운영, 데이터 및 빅데이터 분석 모델 운영, 빅데이터 운영 조직, 빅데이터 운영 예산 고려 ② 조직 구조 설계의 요소 ㉮ 조직 구조 설계 요소 설명 업무활.. 2023. 2. 24.
[빅데이터] 빅데이터 산업의 이해 1) 빅데이터 산업 개요 스마트폰, SNS, 사물인터넷(IoT) 확산 등에 따라 데이터 활용이 증가하여 빅데이터는 신성장동력으로 급부상하고 있다. 클라우드 컴퓨팅 기술의 발전으로 데이터 처리 비용이 급격하게 감소하여 빅데이터가 발전하고 있다. 주요국 및 글로벌 기업은 빅데이터 '산업 육성' 및 '활용'에 주력하고 있다. 우리나라는 데이터 생산량이 많은 산업(통신·제조업 등)이 발달해 잠재력이 크지만, 불확실성에 따른 투자 리스트 등으로 '활용'은 저조하다. 2) 산업별 빅데이터 활용 산업 활용 의료·건강 헬스케어 플랫폼 등을 통한 개인 건강정보의 축적 및 의료기관등과 공유·활용 과학기술 주요 분야의 연구·개발 성과물을 바탕으로 대규모 과학기술 빅데이터 공유·활동 플랫폼 구축 정보보안 빅데이터 분석을 통해.. 2023. 2. 15.
[빅데이터] 빅데이터의 가치 1) 빅데이터의 가치 가치 설명 경제적 자산 새로운 기회를 창출하고, 위험을 해결하여 사회 및 경제 발전의 엔진 역할을 수행 불확실성 제거 사회현상, 현실 세계의 데이터를 기반으로 한 패턴 분석과 미래 전망 여러가지 가능성에 대한 시나리오 시뮬레이션 리스크 감소 환경, 소셜 네트워크, 모니터링 정보의 패턴분석을 통해 위험 징후 및 이상 신호 포착 이슈를 사전에 인지 및 분석하고 빠른 의사결정과 실시간 대응 스마트한 경쟁력 대규모 데이터 분석을 통한 상황 인지, 인공지능 서비스 기능 개인화, 지능화 서비스 제공 확대 트렌드 변화 분석을 통한 제품 경쟁력 확보 타분야 융합 타 분야와의 융합을 통한 새로운 가치 창출 방대한 데이터 활용을 통한 새로운 융합시장 창출 2) 빅데이터 가치 산정이 어려운 이유 원인 .. 2023. 2. 14.
728x90