DOI QR코드

DOI QR Code

lustering of Categorical Data using Rough Entropy

러프 엔트로피를 이용한 범주형 데이터의 클러스터링

  • 박인규 (중부대학교, 컴퓨터학과)
  • Received : 2013.09.04
  • Accepted : 2013.10.11
  • Published : 2013.10.31

Abstract

A variety of cluster analysis techniques prerequisite to cluster objects having similar characteristics in data mining. But the clustering of those algorithms have lots of difficulties in dealing with categorical data within the databases. The imprecise handling of uncertainty within categorical data in the clustering process stems from the only algebraic logic of rough set, resulting in the degradation of stability and effectiveness. This paper proposes a information-theoretic rough entropy(RE) by taking into account the dependency of attributes and proposes a technique called min-mean-mean roughness(MMMR) for selecting clustering attribute. We analyze and compare the performance of the proposed technique with K-means, fuzzy techniques and other standard deviation roughness methods based on ZOO dataset. The results verify the better performance of the proposed approach.

객체를 분류하기 위하여 유사한 특징을 기반으로 하는 다양한 클러스터해석은 데이터 마이닝에서 필수적이다. 그러나 많은 데이터베이스에 포함되어 있는 범주형 데이터의 경우에 기존의 분할접근방법은 객체간의 불확실성을 처리하는데 한계가 있다. 범주형 데이터의 분할과정에서 식별불가능에 의한 동치류의 불확실성에 대한 접근논리가 러프집합의 대수학적인 논리에만 국한되어서 알고리즘의 안정성과 효율성이 떨어지는 요인으로 작용하고 있다. 본 논문에서는 범주형 데이터에 존재하는 속성의 의존도를 고려하기 위하여 정보이론적인 척도를 기반으로 러프엔트로피를 정의하고 MMMR이라는 알고리즘을 제안하여 분할속성을 추출한다. 제안된 방법의 성능을 분석하고 비교하기 위하여 K-means, 퍼지에 의한 방법과 표준편차를 이용한 기존의 방법과 비교우위를 ZOO데이터에 국한하여 알아본다. ZOO데이터를 이용하여 기존의 범주형 알고리즘과의 비교우위를 살펴보고 제안된 알고리즘의 효율성을 검증한다.

Keywords

References

  1. Pawlak, Z. "Rough sets", International Journal of Information and Computer Sciences, Vol.11,No. 5, pp. 341-356, 1982 https://doi.org/10.1007/BF01001956
  2. Beaubouef, T., Petry, F. E. and Arora, G.,, "Information-theoretic measurtes of uncertainty for rough sets and rough relational databases", Information Science, Vol. 109, No. 1-4, pp. 185-195, 1998. https://doi.org/10.1016/S0020-0255(98)00019-X
  3. Wojciech Ziarko, "Variable Precision Rough Set Model", June 1, 1990 August 1, 1991
  4. A. Dempster, N. Laird, D. Rubin, "Maximum likelihood form incomplete data via the EM algorithm", Journal of the Royal Statistical Society Vol. 39(1), pp. 1-38, 1997
  5. H. Ralambondrainy, "A Conceptual Version of the K-means Algorithm, Pattern Recognition Letters, Vol. 16, No. 11, pp. 1147-1157, 1995 https://doi.org/10.1016/0167-8655(95)00075-R
  6. H.T. Lee et al., "AED System using Fuzzy Rules", The Institute of Internet, Broading and Communication, Vol 13, No. 4, Aug. 2013
  7. Z. Huang, "Extensions to the k-means algorithm for clustering large data sets with categorical values", Data Mining and Knowledge Discovery, Vol. 2, pp. 283-304, 1998 https://doi.org/10.1023/A:1009769707641
  8. S. Guha, R. Rastogi, K. Shim, Information Systems, Vol. 25, pp. 345-366, 2000 https://doi.org/10.1016/S0306-4379(00)00022-3
  9. R. Krishnapuram, J. Keller, IEEE Transactions on Fuzzy Systems, Vol. 1, pp. 98-110, 1993 https://doi.org/10.1109/91.227387
  10. J. Y. Kim, S S. Jo , K.K. Kim , S. H. Choi, Development of Localization and Threedimensional hull map creation S/W for Underwater robot, Journal of Korean Institute of Information Technology, Vol.8 No.6 ,35-40, June 2010
  11. J. E. Chung, J. K. Ahn, A Study of Robust Design of FCM Gasket Using Taguchi Method, Journal of the Korea Academia-Industrial cooperation Society, v.14, no.7, 3177-3183, July 2013 https://doi.org/10.5762/KAIS.2013.14.7.3177