LSI를 이용한 문서 클러스터링

The Document Clustering using LSI of IR

  • 고지현 (전북대학교 정보통신공학과) ;
  • 최영란 (전북대학교 정보통신공학과) ;
  • 유준현 (전북대학교 정보통신공학과) ;
  • 박순철 (전북대학교 정보통신공학과)
  • 발행 : 2002.06.01

초록

정보검색시스템에서 가장 중요한 것은 사용자의 요구에 부합하는 결과를 도출하는 것이다. 이를 위하여 사용자의 질의와 연관된 모든 문서들을 추출하게 되는데, 이 많은 결과 문서들 중에서 사용자가 원하는 문서는 소수이고, 원하는 문서를 찾는 것도 쉽지 않다. 따라서 적절한 결과 문서를 도출하기 위하여 연관된 문서들끼리 그룹화 시키는 클러스터링 방법이 많이 이용된다. 본 논문에서는 기존의 문서내의 색인어 보다는 그 의미에 기반하여 클러스터링 하였다. 이를 위하여 LSI 모델을 적용하였고, 문서 클러스터링 방법으로 많이 사용하고 있는 K-Means 알고리즘을 이용한 클러스터링과의 차이점을 비교, 분석하였다.

The most critical issue in information retrieval system is to have adequate results corresponding to user requests. When all documents related with user inquiry retrieve, it is not easy not only to find correct document what user wants but is limited. Therefore, clustering method that grouped by corresponding documents has widely used so far. In this paper, we cluster on the basis of the meaning rather than the index term in the existing document and a LSI method is applied by this reason. Furthermore, we distinguish and analyze differences from the clustering using widely-used K-Means algorithm for the document clustering.

키워드