본문 바로가기
기타(🎸X)/빅데이터

[빅데이터] 데이터 비식별화 기법

by 푸_푸 2023. 5. 9.
728x90

⌜데이터 비식별화 기법

가명처리 : 개인 식별이 가능한 데이터를 다른 값으로 대체
총계처리 : 통계값을 적용하여 비식별 처리
데이터 삭제 : 특정 데이터 값 삭제
범주화 : 식별 정보를 해당 그룹의 대푯값이나 구간 값으로 변환
마스킹 : 식별 값에 전체 또는 부분저긍로 대체 값으로 변환

 

1) 가명처리

휴리스틱가명화 : 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 대체하거나 가공하여 자세한 개인정보를 숨기는 방법
K-익명화 : K-익명성을 만족시키는 익명화 알고리즘
암호화 : 정보 가공 시 일정한 규칙의 알고리즘을 적용해 암호화
교환방법 : 기존 DB의 레코드를 사전 정해진 외부의 변수(항목) 값과 연계해 교환하는 방식

 

2) 총계처리 

총합 데이터 : 전체를 집계하는 것
부분합 : 데이터셋 내 일정 부분 레코드만 총계처리하는 방법
라운딩 : 집계처리된 값에 대해 라운딩 기준을 적용해 최종 집계 처리하는 방법
재배열 : 기존 정보값을 유지하면서 개인이 식별되지 않도록 데이터를 재배열하는 방법

 

3) 데이터 삭제

식별자 삭제(속성화) : 원본 데이터에서 식별자를 단순 삭제하는 방법
부분삭제 : 식별자 일부를 삭제하는 방식
레코드 삭제 : 다른 정보와 뚜력하게 구별되는 레코드 전체를 삭제
전체 삭제 : 식별자뿐만 아니라 잠재적으로 개인을 식별할 수 있는 속성자까지 전부 삭제하는 방법

 

4) 데이터 범주화

범주화(감추기) : 명확한 값을 숨기기 위해 데이터의 평균 또는 범주값으로 변환하는 방법
랜덤 라운딩 : 수치 데이터를 임의의 수 기준으로 올림 또는 내림하는 방법
범위화 : 수치 데이터를 임의의 수 기준의 범위로 설정하는 방법
제어 라운딩(총합유지) : 랜덤 라운딩 방법에서 행과 열을 일치시키는 기법

 

5) 데이터 마스킹

임의 잡음 추가 : 개인정보에 임의의 숫자 등 잡음을 추가하는 방법
공백·대체 : 특정항목의 일부 또는 전부를 공백 또는 대체문자로 바꾸는 방법

728x90

댓글