DOI QR코드

DOI QR Code

Selection of Cluster Hierarchy Depth and Initial Centroids in Hierarchical Clustering using K-Means Algorithm

K-Means 알고리즘을 이용한 계층적 클러스터링에서 클러스터 계층 깊이와 초기값 선정

  • 이신원 (전북대학교 전자정보공학부) ;
  • 안동언 (전북대학교 전자정보공학부) ;
  • 정성종 (전북대학교 전자정보공학부)
  • Published : 2004.12.01

Abstract

Fast and high-quality document clustering algorithms play an important role in providing data exploration by organizing large amounts of information into a small number of meaningful clusters. Many papers have shown that the hierarchical clustering method takes good-performance, but is limited because of its quadratic time complexity. In contrast, with a large number of variables, K-means has a time complexity that is linear in the number of documents, but is thought to produce inferior clusters. In this paper, Condor system using K-Means algorithm Compares with regular method that the initial centroids have been established in advance, our method performance has been improved a lot.

정보통신의 기술이 발달하면서 정보의 양이 많아지고 사용자의 질의에 대한 검색 결과 리스트도 많이 추출되므로 빠르고 고품질의 문서 클러스터링 알고리즘이 중요한 역할을 하고 있다. 많은 논문들이 계층적 클러스터링 방법을 이용하여 좋은 성능을 보이지만 시간이 많이 소요된다. 반면 K-means 알고리즘은 시간 복잡도를 줄일 수 있는 방법이다. 본 논문에서는 계층적 클러스터링 시스템인 콘도르(Condor) 시스템에서 간단하고 고품질이며 효율적으로 정보 검색 할 수 있도록 구현하였다. 이 시스템은 K-Means Algorithm을 이용하였으며 클러스터 계층 깊이와 초기값을 조절하여 $88\%$의 정확율을 보였다.

Keywords

References

  1. 김해남, 이신원, 안동언, 정성종. 2004. 계층적 클러스터링에서 분류 계층 깊이에 관한 연구. '한국정보처리학회 춘계학술발표 대회 논문집'. 2004년 5월 14-15일[서울: 중앙대학교]
  2. 박순철, 안동언 2003. 콘도르 정보 검색 시스템. '한국산업정보학회지'. 8(4): 31-37
  3. 오형진. 2002. '클러스터 중심 결정 방법을 개선한 K-Means Algorithm의 구현'. 석사학위논문, 전북대학교 대학원, 컴퓨터공학과
  4. 오형진, 고지현, 안동언, 박순철. 2003. 색인어 기중치 부여 방법에 따른 K-Means 문서 클러스터링의 LSI 분석. '한국정보처리학회지'. 10-B(7): 735-742
  5. 이경순. 2001. '정보검색에서 벡터공간 검색과 클러스터 분석을 통한 문서 순위 결정 모델' 박사학위논문, 한국과학기술원
  6. 이상선, 이신원, 안동언, 정성종. 2004. 계층적 클러스터링에서 분류 대표어 선정에 관한 연구. '한국정보처리학회 춘계학술발표대회 논문집'. 2004년 5월 14-15일 [서울: 중앙대학교]
  7. Baeza-Yates, Rebeiro-Neto. 1999. 'Modern Information Retrieval'. Addison-Wesley
  8. Khaled Alsabti, Sanjay Ranka, Vineet Singh. 1998. 'An Efficient K-Means Clustering Algorithm'. IPPS/SPDP Workshop on High Performance Data Mining.
  9. Michael Steinbach, George Karypis. Vipin Kumar. 2000. 'A Comparison of Document Clustering Techniques'. Technical Report #00_034, Department of Computer Science and Engineering, University of Minnesota
  10. Patrice Bellot, Marc E1-Beze. 1999. 'A Clustering Method for Information Retrieval'. Technical Report IR-0199
  11. Qin He. 'A Review of Clustering Algorithms as Applied in IR'. UIUCLIS1999/6+IRG
  12. Ramon A., Mollineda. Enrique Vidal. 2000. 'A relative approach to hierarchical clustering'. in Proceeding of ACM symposium of Computational geometry, Hongkong. June 12-14
  13. Tapas Kanung. 2000. 'The Analysis of a Simple k-Means Clustering Algorithms'. in Proceedings of ACM symposium on Computational geometry. Hongkong, June 12-14