DOI QR코드

DOI QR Code

연관규칙 마이닝에서 랜덤화를 이용한 프라이버시 보호 기법에 관한 연구

On the Privacy Preserving Mining Association Rules by using Randomization

  • 발행 : 2007.08.31

초록

본 논문에서는 랜덤화 기법을 이용한 프라이버시 보존형 데이터 마이닝(PPDM) 기술에 대하여 논한다. 계산 효율성 때문에 실용화 되지 못하고 있는 안전한 다자간 계산(SMC) 기반 PPDM은 현재의 컴퓨팅 환경에서는 실용성 없는 다분히 이론적인 것이다. 그래서 우리는 실용적인 PPDM 기술에 집중하여 가장 널리 사용되고 있는 랜덤화 기법에 대한 연구 결과를 소개한다. 특히, 랜덤화를 이용한 실용적인 PPDM 분야에서 가장 중요한 프라이버시 측도 개념을 심도 있게 분석하였으며, 연관규칙 마이닝에서의 프라이버시 보호 기술에 초점을 맞춘다. Evfimievski 등이 제안한 select-a-size 범주에 속하는 새로운 랜덤화 작용소인 binomial-selector 개념을 제안하고, 적절한 파라미터를 찾기 위한 시뮬레이션 결과를 제시한다. 기존의 cut-and-paste 랜덤화 작용소는 아이템 집합이 큰 경우에는 매우 비효율적이며 복원된 지지도의 분산이 크다는 단점을 지니고 있다. 여기에서 제안하는 binomial-selector 랜덤화 작용소는 cut-and-paste 작용소가 갖는 단점들을 보완한다.

We study on the privacy preserving data mining, PPDM for short, by using randomization. The theoretical PPDM based on the secure multi-party computation techniques is not practical for its computational inefficiency. So we concentrate on a practical PPDM, especially randomization technique. We survey various privacy measures and study on the privacy preserving mining of association rules by using randomization. We propose a new randomization operator, binomial selector, for privacy preserving technique of association rule mining. A binomial selector is a special case of a select-a-size operator by Evfimievski et al.[3]. Moreover we present some simulation results of detecting an appropriate parameter for a binomial selector. The randomization by a so-called cut-and-paste method in [3] is not efficient and has high variances on recovered support values for large item-sets. Our randomization by a binomial selector make up for this defects of cut-and-paste method.

키워드

참고문헌

  1. J. Vaidya, C. Clifton, 'Privacy-Preserving Data Mining: Why, How, and When', IEEE Security & Privacy, November/December 2004, www.computer.org/security/ https://doi.org/10.1109/MSP.2004.108
  2. A. Evfimievski, R. Srikant, R. Agrawal, and J. Gehrke, 'Privacy preserving mining of association rules', Proc. ACMSIGKDD IntI. Conf. on Knowledge Discovery and Data Mining, 2002, pp. 217-228 https://doi.org/10.1145/775047.775080
  3. A. Evfimievski, R. Srikant, R. Agrawal, and J. Gehrke, 'Privacy preserving mining of association rules', Information Systems, Vol. 29, 2004, pp. 343-364 https://doi.org/10.1016/j.is.2003.09.001
  4. O. Goldreich, 'Secure Multi-Party Computation (Final Draft, Version 1.4)', http://www.wisdom.weizmann.ac.il /home/oded/public_html/foc.html, 2002
  5. R. Agrawal, R. Srikant, 'Privacy preserving data mining', ACM SIGMOD Conference on Management of Data, Dallas, TX, 2000, pp. 439-450 https://doi.org/10.1145/342009.335438
  6. Y. Lindell, B. Pinkas, 'Privacy preserving data mining', CRYPTO 2000, pp. 36-54
  7. J. R. Quinlan. 'Discovering rules by induction from large collection of examples', Expert Systems in the Micro Electronic Age, Edinburgh University Press, pp. 168-201
  8. J. R. Quinlan, 'Induction of decision trees', Machine learning, Vol. 1, No.1, 1986, pp. 81-106 https://doi.org/10.1023/A:1022643204877
  9. K. Muralidhar, R. Sarathy, 'A theoretical basis for perturbation methods', Statistics and Computing, Vol. 13, 2003, pp. 329-335 https://doi.org/10.1023/A:1025610705286
  10. T. Dalenius, 'Towards a methodology for statistical disclosure control', Statistisktidskrift , Vol. 5, 1977, pp. 429-444
  11. G. T. Duncan, D. Lambert, 'Disclosure limited data dissemination', Journal of the Americal Statistical Association, Vol. 81, 1986, pp. 10-18 https://doi.org/10.2307/2287959
  12. D. Agrawal, C. C. Agrawal, 'On the design and quantification of privacy preserving data mining algorithms', Proceedings of the 20th Symposium on Principles of Database Systems, May 2001 https://doi.org/10.1145/375551.375602
  13. R. Agrawal, T. Imielinski, A. Swami, 'Mining association rules between sets of items in large databases', Proceedings of the ACM SIGMOD Conference on Management of Data, 1993, pp. 207-216 https://doi.org/10.1145/170035.170072
  14. N. Zhang, S. Wang, W. Zhao, 'A new scheme on privacy preserving association rule mining', PKDD 2004, LNAI 3202, 2004, PP. 484-495

피인용 문헌

  1. A DDMPF(Distributed Data Management Protocol using FAT) Design of Self-organized Storage for Negotiation among a Client and Servers based on Clouding vol.15, pp.8, 2012, https://doi.org/10.9717/kmms.2012.15.8.1048