DOI QR코드

DOI QR Code

Pseudonymization's effect on data quality: A study under personal information protection act

개인정보보호법에 따른 가명처리로 인한 데이터 손실이 데이터 분석의 정확도에 미치는 영향

  • Minjeong Kim (Department of Statistics, Ewha Womans University) ;
  • Jae Keun Yoo (Department of Statistics, Ewha Womans University)
  • 김민정 (이화여자대학교 통계학과) ;
  • 유재근 (이화여자대학교 통계학과)
  • Received : 2023.09.04
  • Accepted : 2023.10.28
  • Published : 2024.06.30

Abstract

This study investigates the impact of pseudonymization of personal information and its effect on the accuracy of data analysis. We quantitatively evaluated the relationship between the degree of pseudonymization and the accuracy of data analysis using logistic regression models, decision trees, and random forests. Through this, we confirmed that pseudonymizing sensitive information can realize personal information protection without significantly damaging data quality. However, we recognized limitations such as single sample data and consistent application of pseudonymization ratios. To overcome these limitations, additional research on diverse datasets is necessary to strengthen the generalizability of results. Moreover, we propose developing and applying methodologies to find optimal pseudonymization ratios for individual variables. The results from this study provide new insights into maintaining usability of data while achieving regulatory compliance and personal information protection.

이 연구는 개인정보의 가명처리와 이것이 데이터 분석의 정확도에 미치는 영향을 조사하였다. 로지스틱 회귀 모델, 의사결정나무 및 랜덤 포레스트를 사용하여 가명처리의 적용 정도와 가명처리된 데이터 분석의 정확도 간의 관계를 정량적으로 평가하였으며, 이를 통해 민감한 정보의 가명처리가 데이터 분석의 정확도를 크게 손상시키지 않으면서도 개인정보보호를 실현할 수 있음을 확인하였다. 그러나, 단일한 샘플 데이터, 일관된 가명처리 비율의 적용 등의 한계가 있음을 인지하였다. 이러한 한계를 극복하기 위해, 다양한 데이터에 대한 추가적인 연구를 통하여 결과의 일반성을 강화하는 것이 필요하다. 또한, 개별 변수에 대해 최적의 가명처리 비율을 찾는 방법론을 개발하고 적용해 볼 것을 제안한다. 이 연구 결과는 규제 준수와 개인정보 보호를 달성하면서도 데이터의 활용성을 유지하는 방법에 대한 새로운 통찰을 제공한다.

Keywords

Acknowledgement

2023년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아수행된 기초연구사업임 (RS-2023-00240564), 2023년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아수행된 기초연구사업임 (RS-2023-00240564 and RS-2023-00217022).

References

  1. Eom C. S-H, Lee I-K, and Lee W (2018). BigData-based trend of personal information de-idendification, Korea Institute of Enterprise Architecture, 15, 545-552.
  2. Fefferman NH, O'Neil EA, and Naumova EN (2005). Confidentiality and confidence: Is data aggregation a means to achieve both?, Journal of Public Health Policy, 26, 430-449. https://doi.org/10.1057/palgrave.jphp.3200029
  3. Jiang X, Sarwate AD, and Ohno-Machado L (2013). Privacy technology to support data sharing for comparative effectiveness research: A systematic review, Medical Care, 51, S58-S65. https://doi.org/10.1097/MLR.0b013e31829b1d10
  4. Korea Disease Control and Prevention Agency (2023). Guidelines for the use of raw data from the 8th Korea national health and nutrition examination survey(2019-2021), Available from: https://www.data.go.kr/data/15076556/fileData.do
  5. Personal Information Protection Commission (2022). Guidelines for handling pseudonymised information, Available from: https://www.pipc.go.kr/np/cop/bbs/selectBoardArticle.do?bbsId=BS217&mCode=D010030000&nttId=9900