DOI QR코드

DOI QR Code

Genetic Clustering with Semantic Vector Expansion

의미 벡터 확장을 통한 유전자 클러스터링

  • 쏭웨이 (전북대학교 컴퓨터공학과) ;
  • 박순철 (전북대학교 컴퓨터공학과)
  • Published : 2009.03.28

Abstract

This paper proposes a new document clustering system using fuzzy logic-based genetic algorithm (GA) and semantic vector expansion technology. It has been known in many GA papers that the success depends on two factors, the diversity of the population and the capability to convergence. We use the fuzzy logic-based operators to adaptively adjust the influence between these two factors. In traditional document clustering, the most popular and straightforward approach to represent the document is vector space model (VSM). However, this approach not only leads to a high dimensional feature space, but also ignores the semantic relationships between some important words, which would affect the accuracy of clustering. In this paper we use latent semantic analysis (LSA)to expand the documents to corresponding semantic vectors conceptually, rather than the individual terms. Meanwhile, the sizes of the vectors can be reduced drastically. We test our clustering algorithm on 20 news groups and Reuter collection data sets. The results show that our method outperforms the conventional GA in various document representation environments.

본 논문에서는 퍼지 논리 기반의 유전자 알고리즘(GA)과 의미 벡터 확장 기술을 이용한 문서 클러스터링 시스템을 제안한다. GA에 관련된 여러 논문에서 이미 알려졌듯이 GA알고리즘의 성공 여부는 군체의 다양성과 수렴하는 능력에 따라 결정된다. 이러한 두 인자 사이의 영향력을 조절하기 위하여 우리는 퍼지 논리 기반의 연산자를 사용한다. 전통적인 문서 클러스터링 알고리즘에서 문서를 나타내기 위한 가장 일반적이고 직선적인 방법은 벡터 공간 모델이다. 그러나 이 방법은 다차원 특징 공간의 원인이 될 뿐만 아니라, 클러스터링의 정확성에 영향을 미칠 수 있는, 단어 간의 의미상 관계성을 무시한다. 본 논문에서는 LSA를 사용하여 문서를 관련되는 의미상의 벡터 개념으로 확장시킨다. 또한 이것은 벡터의 크기를 크게 줄일 수 있다. 본 논문에서 제안한 클러스터링 알고리즘을 테스트하기 위하여 20개의 뉴스 그룹과 로이터 데이터를 사용했다. 제안된 방법은 문서를 표현하는 다양한 환경에서 일반적인 GA보다 더 나은 결과를 보여준다.

Keywords

References

  1. S. Selim and M. Ismail, "K-means-type algorithm: generalized convergence theorem and characterization of local optimality," IEEE Trans. Pattern Anal. Mach Intell. 6, pp.81-87, 1994. https://doi.org/10.1109/TPAMI.1984.4767478
  2. M. Ankerst, M. Breuing, and H. P. Kriegel, "OPTICS: Ordeing points to identify the clustering structure," In Proceedings of SIGMOD"99, pp.49-60, 1999.
  3. R. Sibson, "SLINK: An optimally efficient algorithm for the single-link cluster method," The Computer Journal, Vol.16, No.1, pp.30-34, 1973. https://doi.org/10.1093/comjnl/16.1.30
  4. W. Koontz, P. Narendra, and K. Fucunaga, "A graph theoretic approach to nonparametric cluster analysis," IEEE Trans. Comput, C-25, pp.936-944, 1975. https://doi.org/10.1109/TC.1976.1674719
  5. S. Bandyopadhyay and S. K. Pal, "Multi-objective GAs, quantitative indices and pattern classification," IEEE Trans. Systems, Man and Cybernetics-B, Vol.34, No.5, pp.2088-2099, 2004. https://doi.org/10.1109/TSMCB.2004.834438
  6. M. W. Berry, S. T. Dumais, and G. W. Brien, "Using linear algebra for intelligent information retrieval," SIAM Rev, Vol.37, No.4, pp.573-595, 1995. https://doi.org/10.1137/1037127
  7. J. T. Sun, Z. Chen, and H. J. Zeng, "Supervised latent semantic indexing for document categorization," In Proceedings of ICDM'04, pp.535-538, 2004. https://doi.org/10.1109/ICDM.2004.10004
  8. M. G. Vozalis and K. G. Margaritis, "Using SVD and demographic data for the enhancement of generalized collaborative filtering," Information Sciences, 177, pp.3017-3037, 2007. https://doi.org/10.1016/j.ins.2007.02.036