Abstract
Large amounts of information on individuals is available to many organizations and data users and government agencies release microdata files from their survey data or administrative records data. However, if a microdata file is released without any limitation, an invasion of privacy is likely to occur. Therefore, in creating a microdata file, agencies attempt to eliminate disclosure risk of the file while maintaining maximum utility of the data. In this paper, we introduce the concept of disclosure risk, identification and uniqueness. Also, we show the method for creating a 2% microdata file using the 2005 Korean census microdata.
통계이용자들의 마이크로자료 제공요구가 갈수록 증가하고 있으며 통계작성기관도 마이크로자료의 제공을 위해 노력을 기울이고 있는 실정이다. 그러나 마이크로자료에는 응답자의 개인정보가 많이 담겨 있으므로 자료를 그대로 제공할 경우 개인정보가 노출 될 가능성이 높기 때문에 자료제공시 적절한 방법으로 노출을 제한시켜 주어야만 한다. 본 논문에서는 마이크로자료 제공시 발생하는 응답자의 정보노출에 대한 개념과 이를 제한하는 방법 등을 소개하고, 2005년에 통계청에서 실시한 인구주택총조사의 2% 마이크로자료 제공을 위해 다양한 노출제한방법을 적용하여 자료파일을 작성하는 과정을 설명하였다. 즉, 10% 표본조사결과를 모집단으로 하고 계통추출한 표본을 대상으로 외부인이 식별할 가능성이 높은 12개 항목을 key 변수로 선정한 후, 각 변수의 조합별 유일성을 파악하고 노출위험을 계산하였다. 그 결과 2% 표본을 통한 정보의 축소는 물론 그룹화, 코딩 등을 포함한 일련의 방법들을 적용함으로써 인구주택총조사 마이크로자료의 개인정보 노출을 제한하는데 상당한 효과가 있음을 알 수 있었다.