An Automatic Classification System of Korean Documents Using Weight for Keywords of Document and Word Cluster

문서의 주제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템

  • 허준희 (아이티나라(주) 기술연구소) ;
  • 최준혁 (김포대학 컴퓨터계열) ;
  • 이정현 (인하대학교 전자계산공학과) ;
  • 김중배 (한국전자통신연구원 컴퓨터소프트웨어기술연구소) ;
  • 임기욱 (선문대학교 산업공학과)
  • Published : 2001.10.01

Abstract

The automatic document classification is a method that assigns unlabeled documents to the existing classes. The automatic document classification can be applied to a classification of news group articles, a classification of web documents, showing more precise results of Information Retrieval using a learning of users. In this paper, we use the weighted Bayesian classifier that weights with keywords of a document to improve the classification accuracy. If the system cant classify a document properly because of the lack of the number of words as the feature of a document, it uses relevance word cluster to supplement the feature of a document. The clusters are made by the automatic word clustering from the corpus. As the result, the proposed system outperformed existing classification system in the classification accuracy on Korean documents.

새로운 문서를 기존에 존재하는 클래스들에 할당하는 방법을 문서의 자동 분류라고 한다. 문서의 자동 분류는 뉴스 그룹의 기사분류, 웹 문서의 범주화, 전자 메일의 순서화, 사용자의 관심을 학습하여 보다 정확한 정보 검색을 제시하는데 사용될수 있다. 본 논문에서는 한국어 문서분류의 정확도를 높이기 위하여 문서내의 모든 단어들에 대한 확률값을 사용하여, 문서를 분류하는 기존의 방법과 달리 문서의 주제어를 선정하여 주제어로 선정된 단어들에 가중치를 부여하고 그렇지 않은 단어들에 대해서는 제거하너가 낮은 가중치를 부여하는 베이지안 분류자를 사용한다. 문서에는 특징으로 추출된 단어가 적어 문서를 분류하기 위한 만족할 만한 정보를 제공하지 못할 경우에 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 자동 단어 군집화를 통해 형성된 연관 단어 군집을 사용한다. 이러한 방법을 한국어 문서에 적용한 결과 기존의 베이지안 확률을 사용한 분류법보다 향상된 분류 정확도를 얻을 수 있었다.

Keywords

References

  1. L. Douglas Baker and Andrew Kachites McCallum, 'Distributional Clustering of Words for Text Classification,' Proceedings of SIGIR'98, pp.96-103, 1998 https://doi.org/10.1145/290941.290970
  2. 정영미, 정보검색론, 구미무역 출판부, 1993
  3. Andrew McCallum and Karnal Nigram, 'A Comparison of Event Models for Navie Bayes Text Classification,' AAAI-98 Workshop on Learning for Text Categorization, 1998
  4. David D. Lewis, 'Naive (Bayes) at forty : The Independence Assumption in Information Retrieval,' In European Conference on Machine Learning, 1998
  5. Mehran Sahami, 'Learning limited dependence Bayesian classifier,' KDD-96 : Proceedings of the Second International Conference on Knowledge Discover and Data Mining, pp.335-338, AAAI Press, 1996
  6. W. Frakes and R. Baeza-Yates, Information Retrieval, Prentice Hall, 1992
  7. 박영자, 사전을 이용한 단어 의미 자동 클러스터링 : 유전자 알고리즘 접근법, 연세대학교 대학원 컴퓨터과학과 박사학위 논문, 1998
  8. Hang Li and Naoki Abe, 'Clustering Words with the MDL Principle,' Proceedings of COLING-96, pp.4-9, 1996 https://doi.org/10.3115/992628.992633
  9. David D. Lewis, Representation and Learning in information retrieval, ph.D.thesis, Dept. of Computer and Information Science, University of Massachusetts, 1992
  10. 전미선, 박세영, '상호 정보를 이용한 어의 모호성 해소에 관한 연구', 제6회 한글 및 한국어 정보처리학술발표논문집, pp.369-373, 1994
  11. G. Salton, 'Experiments in Automatic Thesaurus Construction for Information Retrieval,' Proceedings of IFIP Congress, pp.43-49, 1971
  12. A. P. Dempster, N. M. Laird and D. B. Rubin, 'Maximum Likelihood from Incomplete data via EM Algorithm,' Journal of the Royal Ststistical Society, Series B, Vol.39, pp.1-38, 1977
  13. Tom M. Mitchell, Machine Learning, McGraw-Hill, 1997