A Study on Feature Selection for kNN Classifier using Document Frequency and Collection Frequency

문헌빈도와 장서빈도를 이용한 kNN 분류기의 자질선정에 관한 연구

  • 이용구 (계명대학교 문헌정보학과)
  • Received : 2013.03.05
  • Accepted : 2013.03.26
  • Published : 2013.03.30

Abstract

This study investigated the classification performance of a kNN classifier using the feature selection methods based on document frequency(DF) and collection frequency(CF). The results of the experiments, which used HKIB-20000 data, were as follows. First, the feature selection methods that used high-frequency terms and removed low-frequency terms by the CF criterion achieved better classification performance than those using the DF criterion. Second, neither DF nor CF methods performed well when low-frequency terms were selected first in the feature selection process. Last, combining CF and DF criteria did not result in better classification performance than using the single feature selection criterion of DF or CF.

이 연구에서는 자동 색인을 통해 쉽게 얻을 수 있는 자질의 문헌빈도와 장서빈도를 이용하여 자동분류에서 자질 선정 기법을 kNN 분류기에 적용하였을 때, 어떠한 분류성능을 보이는지 알아보고자 하였다. 실험집단으로 한국일보-20000(HKIB-20000)의 일부를 이용하였다. 실험 결과 첫째, 장서빈도를 이용하여 고빈도 자질을 선정하고 저빈도 자질을 제거한 자질선정 방법이 문헌빈도보다 더 좋은 성능을 가져오는 것으로 나타났다. 둘째, 문헌빈도와 장서빈도 모두 저빈도 자질을 우선으로 선정하는 방법은 좋은 분류성능을 가져오지 못했다. 셋째, 장서빈도와 같은 단순빈도에서 자질 선정 구간을 조정하는 것이 문헌빈도와 장서빈도의 조합보다 더 좋은 성능을 가져오는 것으로 나타났다.

Keywords

References

  1. 심경. "문헌범주화에서 학습문헌수 최적화에 관한 연구." 정보관리학회지, 제23권, 제4호(2006. 12), pp.277-294.(Kyung, Shim. "Optimization of Number of Training Documents in Text Categorization." Journal of the Korean Society for information Management, Vol.23, No.4(Dec. 2006), pp.277-294.)
  2. 이용구. "단어 중의성 해소를 위한 지도학습 방법의 통계적 자질선정에 관한 연구." 한국비블리아학회지, 제22권, 제2호(2011. 6), pp.5-25.(Yong-Gu, Lee. A Study on Statistical Feature Selection with Supervised Learning for Word Sense Disambiguation. Journal of the Korean BIBLIA Society for library and Information Science, Vol.22, No.2(Jun. 2011), pp.5-25.)
  3. 이재윤. "자질 선정 기준과 가중치 할당 방식간의 관계를 고려한 문서 자동분류의 개선에 대한 연구." 한국문헌정보학회지, 제39권, 제2호(2005. 6), pp.123-146.(Jae-Yun, Lee. "An Empirical Study on Improving the Performance of Text Categorization Considering the Relationships between Feature Selection Criteria and Weighting Methods." Journal of the Korean Society for Library and Information Science, Vol.39, No.2(Jun. 2005), pp.123-146.)
  4. 정영미. 정보검색연구. 서울 : 구미무역 출판부, 2005.(Young-Mee, Chung. Research in Information Retrieval. Seoul : Gumi Trading, 2005.)
  5. 정은경. "문서범주화 성능 향상을 위한 의미기반 자질확장에 관한 연구." 정보관리학회지, 제26권, 제3호(2009. 9), pp.261-278.(Eun-Kyung, Chung. "A Semantic-Based Feature Expansion Approach for Improving the Effectiveness of Text Categorization by Using WordNet." Journal of the Korean Society for information Management, Vol.26, No.3(Sep. 2009), pp.261-278.)
  6. Azam, N. and J. Yao. "Comparison of term frequency and document frequency based feature selection metrics in text categorization." Expert Systems with Applications, Vol.39, No.5(2012), pp.4760-4768. https://doi.org/10.1016/j.eswa.2011.09.160
  7. Guyon, I. and A. Elisseeff. "An Introduction to Variable and Feature Selection." Journal of Machine Learning Research, 3(2002), pp.1157-1182.
  8. Jackson, P. and I. Moulinier. Natural Language Processing for Online Applications - Text Retrieval, Extraction and Categorization. Amsterdam : Benjamins Publishing Co., 2002.
  9. Kim, J. et al. "HKIB-2000 & HKIB-40075: Hangul Benchmark Collections for Text Categorization Research." Journal of Computing Science and Engineering, Vol.3, No.3(Sep. 2009), pp.165-180. https://doi.org/10.5626/JCSE.2009.3.3.165
  10. Sebastiani, F. "Machine Learning in Automated Text Categorization." ACM Computing Surveys, Vol.34, No.1(2002), pp.1-47. https://doi.org/10.1145/505282.505283
  11. Shang, W. et al. "A novel feature selection algorithm for text categorization." Expert Systems with Applications, Vol.33, No.1(July. 2007), pp.1-5. https://doi.org/10.1016/j.eswa.2006.04.001
  12. Tan, S. "Neighbor-weighted K-nearest Neighbor for Unbalanced Text Corpus." Expert Systems with Applications, Vol.28, No.4(2005), pp.667-671. https://doi.org/10.1016/j.eswa.2004.12.023
  13. Yang, Y. and J.O. Pedersen. "A comparative study on feature selection in text categorization." In: Proceedings of the 14th International Conference on Machine Learning(1997), pp.412-420.
  14. Yang, Y. and X. Lin. "A re-examination of text categorization methods." In: Proceedings of the 22nd annual international ACM SIGIR conference on research and development in the information retrieval(1999), pp.42-49.
  15. HKIB 실험집단. [cited 2012. 7. 10].
  16. HAM 형태소 분석기. [cited 2012. 7. 15].