DOI QR코드

DOI QR Code

Improving the Performance of a Fast Text Classifier with Document-side Feature Selection

문서측 자질선정을 이용한 고속 문서분류기의 성능향상에 관한 연구

  • Lee, Jae-Yun (Library & Information Science Dept., Kyonggi Univ.)
  • Published : 2005.12.31

Abstract

High-speed classification method becomes an important research issue in text categorization systems. A fast text categorization technique, named feature value voting, is introduced recently on the text categorization problems. But the classification accuracy of this technique is not good as its classification speed. We present a novel approach for feature selection, named document-side feature selection, and apply it to feature value voting method. In this approach, there is no feature selection process in learning phase; but realtime feature selection is executed in classification phase. Our results show that feature value voting with document-side feature selection can allow fast and accurate text classification system, which seems to be competitive in classification performance with Support Vector Machines, the state-of-the-art text categorization algorithms.

문서분류에 있어서 분류속도의 향상이 중요한 연구과제가 되고 있다. 최근 개발된 자질값투표 기법은 문서자동분류 문제에 대해서 매우 빠른 속도를 가졌지만, 분류정확도는 만족스럽지 못하다. 이 논문에서는 새로운 자질선정 기법인 문서측 자질선정 기법을 제안하고, 이를 자질값투표 기법에 적용해 보았다. 문서측 자질선정은 일반적인 분류자질선정과 달리 학습집단이 아닌 분류대상 문서의 자질 중 일부만을 선택하여 분류에 이용하는 방식이다. 문서측 자질선정을 적용한 실험에서는, 간단하고 빠른 자질값투표 분류기로 SVM 분류기만큼 좋은 성능을 얻을 수 있었다.

Keywords

References

  1. 김지영, 장동현, 맹성현, 이석훈, 서정현, 김현. 2000. 한국어 테스트 컬렉션 HANTEC의 확장 및 보완. 제 12회 한글 및 한국어 정보처리 학술대회 논문집, 210-215.
  2. 이재윤. 2004. 연관성척도의 빈도수준 선호경향에 관한 연구. 정보관리학회지, 17(4): 281-294.
  3. 이재윤. 2005. 자질선정 기준과 가중치 할당 방식간의 관계를 고려한 문서자동분류의 개선에 대한 연구. 한국문헌정보학회지, 39(2): 123-146.
  4. 정영미, 이재윤. 2001. 지식 분류의 자동화를 위한 클러스터링 모형 연구. 정보관리학회지, 18(2): 203-230.
  5. Bellman, R. E. 1961. Adaptive Control Processes: A Guided Tour. Princeton, NJ: Princeton University Press.
  6. Deng, Zhi-Hong, Shi-Wei Tang, Dong-Qing Yang, Ming Zhang, Xiao-Bin Wu, and Meng Yang. 2002. "Two odds-radio-based text classification algorithms." Proceedings of the Third International Conference on Web Information Systems Engineering (Workshops), 223-231.
  7. Joachims, T. 1998. "Text categorization with support vector machines: learning with many relevant features." Proceedings of 10th European Conference on Machine Learning (ECML-98), 137-142.
  8. Lewis, D. D., and M. Ringuette. 1994. "A comparison of two learning algorithms for text categorization." Proceedings of Third Annual Symposium on Document Analysis and Information Retrieval, 81-93.
  9. Masand, G., G. Linoff, and D. Waltz. 1992. "Classifying news stories using memory based reasoning." Proceedings of the 15th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 59-65.
  10. McCallum, A., and K. Nigam. 1998. "A comparison of event models for Naive Bayes text classification." Proceedings of AAAI-98 Workshop on Learning for Text Categorization, 41-48.
  11. Wiener, E., J. O. Pedersen, and A. S. Weigend. 1995. "A neural network approach to topic spotting." Proceedings of Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR'95), 317-332.
  12. Witten, Ian H., and Eibe Frank. 2005. Data Mining: Practical Machine Learning Tools and Techniques. (2nd ed.). San Francisco: Morgan Kaufmann.