Feature Weighting in Projected Clustering for High Dimensional Data

고차원 데이타에 대한 투영 클러스터링에서 특성 가중치 부여

  • 박종수 (성신여자대학고 컴퓨터정보학부)
  • Published : 2005.06.01

Abstract

The projected clustering seeks to find clusters in different subspaces within a high dimensional dataset. We propose an algorithm to discover near optimal projected clusters without user specified parameters such as the number of output clusters and the average cardinality of subspaces of projected clusters. The objective function of the algorithm computes projected energy, quality, and the number of outliers in each process of clustering. In order to minimize the projected energy and to maximize the quality in clustering, we start to find best subspace of each cluster on the density of input points by comparing standard deviations of the full dimension. The weighting factor for each dimension of the subspace is used to get id of probable error in measuring projected distances. Our extensive experiments show that our algorithm discovers projected clusters accurately and it is scalable to large volume of data sets.

투영 클러스터링은 고 차원 데이타집합에서 서로 다른 부분공간들에서 클러스터들을 찾으려고 모색한다. 사용자가 출력 클러스터들의 개수와 투영 클러스터들의 부분공간의 평균 차원수를 지정하지 않아도, 거의 최적인 투영 클러스터들을 탐사해내는 알고리즘을 제안한다. 클러스터링의 각 단계에서 알고리즘의 목적 함수는 투영 에너지, 품질, 그리고 이상치들의 개수를 계산한다. 클러스터링에서 투영 에너지를 최소화하고 품질을 최대화하기 위하여, 전체 차원의 표준 편차들을 비교함으로 입력 점들의 밀도 상에서 각 클러스터의 최선의 부분영역을 찾기 시작한다. 부분공간의 각 차원에 대한 가중치 요소가 투영 거리 측정에서 확률 오차를 없애기 위하여 사용된다. 제안된 알고리즘이 투영 클러스터들을 정확하게 발견해내고 대 용량의 데이타 집합에서 비례확장성을 갖는다는 것을 여러 가지 실험으로 보여준다.

Keywords

References

  1. J. Han and M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, San Francisco, CA, 2001
  2. A. K. Jain, M. N. Murty and P. J. Flynn, 'Data clustering: a review', ACM Computing Surveys, 31(3):264-323, 1999 https://doi.org/10.1145/331499.331504
  3. L. Parsons, E. Haque, and H. Liu, 'Subspace Clustering for High Dimensional Data: A Review,' ACM SIGKDD Explorations, Vol. 6, Issue 1, pp. 90-105, June 2004 https://doi.org/10.1145/1007730.1007731
  4. C. C. Aggarwal, C. M. Procopiuc, J. L. Wolf, P. S. Yu, and J. S. Park, 'Fast Algorithms for Projected Clustering,' In Proceedings of the ACM SIGMOD International Conference on Management of Data, pp. 61-72, Philadelphia, PA, June 1-3, 1999 https://doi.org/10.1145/304182.304188
  5. 박종수, 김도형, '고 차원 데이터를 부분차원 클러스터링하는 효과적인 알고리즘', 정보처리학회 논문지 D, 10-D권, 3호, pp.417-426, June 2003 https://doi.org/10.3745/KIPSTD.2003.10D.3.417
  6. C. C. Aggarwal and P. S. Yu, 'Finding generalized projected clusters in high dimensional spaces,' In Proceedings of the ACM SIGMOD International Conference on Management of Data, pp. 70-81, 2000 https://doi.org/10.1145/342009.335383
  7. C. M. Procopiuc, M. Jones, P. K. Agarwal, and T. M. Murali, 'A monte carlo algorithm for fast projective clustering,' In Proceedings of the ACM SIGMOD International Conference on Management of Data, 2002 https://doi.org/10.1145/564691.564739
  8. M. L. Yiu and N. Mamoulis, 'Frequent-Pattern based Iterative Projected Clustering,' In Proceedings of the 3rd IEEE International Conference on Data Mining (ICDM), Melbourn, Florida, USA, November 2003
  9. R. Agrawal, J. Gehrke, D. Gunopulos, and P. Raghavan, 'Automatic subspace clustering of high dimensional data for data mining applications,' In Proceedings of the ACM SIGMOD International Conference on Management of Data, pp. 94-105, 1998 https://doi.org/10.1145/276304.276314
  10. 심정욱, 손영숙, 백장선 역, 수리통계학, 제4판, 자유아카데미, 1999년
  11. T. Zhang, R. Ramakrishnan, and M. Linvy, 'BIRCH: An Efficient Data Clustering Method for Large Databases,' In Proceedings of the ACM SIGMOD International Conference on Management of Data, pp. 103-114, 1996 https://doi.org/10.1145/233269.233324
  12. W. H. Beyer, CRC Standard Mathematical Tables, 28th Edition, CRC Press, 1987