상대인력 모델에 기반한 자연적 개체 군집화 알고리즘

A Natural Clustering Algorithm based on the Relative Gravitation Model

  • 김은주 (연세대학교 컴퓨터과학과) ;
  • 고재필 (연세대학교 컴퓨터과학과) ;
  • 변혜란 (연세대학교 컴퓨터과학과) ;
  • 이일병 (연세대학교 컴퓨터과학과)
  • Kim, Eunju (Dept.of Computer Science, Yonsei University) ;
  • Ko, Jaepil (Dept.of Computer Science, Yonsei University) ;
  • Byun, Hyeran (Dept.of Computer Science, Yonsei University) ;
  • Lee, Yillbyung (Dept.of Computer Science, Yonsei University)
  • 발행 : 2001.10.01

초록

본 논문에서는 상대인력 모델에 기반한 새로운 군집화 알고리즘, G-CLUS를 제안한다. 제한한 방법에서 모든 개체들은 초기에 동일한 질량을 가지고, 개체간의 인력에 의해 인력이 작용하는 방향으로 점진적으로 이동하게 되어, 초기 시작점 선택이나 군집의 개수를 미리 지정하지 않은 상태에서 자연스럽게 군집을 형성한다. 제안한 방법을 인력작용과정에서 군집의 수가 자연스럽게 결정되며, 한 개체가 받는 힘은 개체간의 인력을 합한 합력을 사용하기 때문에 이상치에 대한 민감성을 완화하였다. 본 알고리즘은 계산복잡도를 낮추기 위하여 큐브개념을 적용하여 O(nk)의 계산 복잡도를 유지하도록 하였다. 실험에서는 개체들의 움직임 특성, 군집화 모델에 따른 군집화 과정, 임의의 데이타 집합에 대한 군집화 결과를 보이고, 또한 타 군집화 알고리즘과 제안한 알고리즘 군집화 결화를 비교한다.

This paper propose a new clustering algorithm called G-CLUS based on the relative gravitation. In this method every instance has the same mass at first. the gravitations among instances make each instance move to the attractive direction gradually and eventually natural clusters are formed without the initial seed and the number of clusters. Our proposed method can determine the number of clusters via a process of gravitational agglomeration and it can reduce the sensitivity to outliers by using the resultant of gravitation. We also improved the computational complexity by applying the concept of a cube to the proposed algorithm. In our experiments, we show the behavior of instance movement clustering process for each model, clustering process and the results for an example data set, and the results of comparison between the other clustering algorithm and our proposed. method.

키워드

참고문헌

  1. A.K. Jain and R.C. Dubes, Algorithms for Clustering Data. Englewood Cliffs, N.J.: Prentice Hall, 1988
  2. B.D. Ripley, Pattern Recognition and Neural Networks, Cambridge, 1996
  3. R. O. Duda and P. E. Hart, Pattern Classification and Scene Analysis, New York: Wiley, 1973
  4. H. H. Rock, Automatic Classification, Vandenhoeck and Ruprecht, Gottingen, 1974
  5. K. Fukunga, Introduction to Statistical Pattern Recognition, San Diego, CA, Academic Press, 1990
  6. S.L. Lauritzen, 'The EM algorithm for graphical association models with missing data, Computational Statistics and Data Analysis,' pp.191-201, 1995
  7. R.T. Ng, J. Han, 'Efficient and Effective Clustering Methods for Spatial Data Mining,' Proc. 20th lnt. Conf. on Very Large Data Bases, pp. 144-155, 1994
  8. T. Kohonen, K. Makisara, O.Simula and J. Kangas, Artificial Networks, Amsterdam, 1991
  9. S. Haykin, Ne-ural Networks - A Comprehensive Foundation, Prentice Hall, 1999
  10. W. E. Wright, 'Gravitational Clustering,' Pattern Recognition vol, 9, no. 3, pp. 151-166, 1977 https://doi.org/10.1016/0031-3203(77)90013-9
  11. P.H.A. Sneath, 'A method for curve seeking from scattered points,' Computer. J., Vol. 8, pp. 383-391, 1966
  12. E. W. Forgy, 'Evaluation of several methods of detection sample mixtures from different N-dimensional populations,' American. Psych. Assoc., Los Angeles, CA, 1965
  13. T.V. Ravi and K. Chidananda Gowda, 'Clustering of Symbolic Objects Using Gravitational Approach,' IEEE Transactions On Systems, Man, And Cybernetics-Part B: Cybernetics, Vol. 29, No. 6, December 1999 https://doi.org/10.1109/3477.809041
  14. A. P. Tipler, Physics, Worth Publishers, 1976
  15. F. J. Hawley & K.A. Holcomb, Foundations of Modem Cosmology, Oxford University Press, 1998
  16. B. Everitt, Cluster Analysis, 2nd ed., Halsted Press, 1981