DOI QR코드

DOI QR Code

Implementation of efficient L-diversity de-identification for large data

대용량 데이터에 대한 효율적인 L-diversity 비식별화 구현

  • Jeon, Min-Hyuk (Dept. of Computer Engineering, Ho-Seo University) ;
  • Temuujin, Odsuren (Dept. of Computer Engineering, Ho-Seo University) ;
  • Ahn, Jinhyun (Dept. of Management Information Systems, Jeju National University) ;
  • Im, Dong-Hyuk (Dept. of Computer Engineering, Ho-Seo University)
  • 전민혁 (호서대학교 컴퓨터공학과) ;
  • ;
  • 안진현 (제주대학교 경영정보학과) ;
  • 임동혁 (호서대학교 컴퓨터공학과)
  • Published : 2019.10.30

Abstract

최근 많은 단체나 기업에서 다양하고 방대한 데이터를 요구로 하고, 그에 따라서 국가 공공데이터나 데이터 브로커등 데이터를 통해 직접 수집 하거나 구매해야 하는 경우가 많아지고 있다. 하지만 개인정보의 경우 개인의 동의 없이는 타인에게 양도가 불가능하여 이러한 데이터에 대한 연구에 어려움이 있다. 그래서 특정 개인을 추론할 수 없도록 하는 비식별 처리 기술이 연구되고 있다. 이러한 비식별화의 정도는 모델로 나타낼 수가 있는데, 현재 k-anonymity 와 l-diversity 모델 등이 많이 사용된다. 이 중에서 l-diversity 는 k-anonymity 의 만족 조건을 포함하고 있어 비식별화의 정도가 더욱 강하다. 이러한 l-diversity 모델을 만족하는 알고리즘은 The Hardness and Approximation, Anatomy 등이 있는데 본 논문에서는 일반화 과정을 거치지 않아 유용성이 높은 Anatomy 의 구현에 대해 연구하였다. 또한 비식별화 과정은 전체 데이터에 대한 특성을 고려해야 하기 때문에 데이터의 크기가 커짐에 따라 실질적인 처리량이 방대해지는데, 이러한 문제를 Spark 를 통해 데이터가 커짐에 따라서 최대한 안정적으로 대응하여 처리할 수 있는 시스템을 구현하였다.

Keywords