DOI QR코드

DOI QR Code

Design and Implementation of Text Classification System based on ETOM+RPost

ETOM+RPost기반의 문서분류시스템의 설계 및 구현

  • Choi, Yun-Jeong (Department of Information Communication, Seoil University)
  • Published : 2010.02.28

Abstract

Recently, the size of online texts and textual information is increasing explosively, and the automated classification has a great potential for handling data such as news materials and images. Text classification system is based on supervised learning which needs laborous work by human expert. The main goal of this paper is to reduce the manual intervention, required for the task. The other goal is to increase accuracy to be high. Most of the documents have high complexity in contents and the high similarities in their described style. So, the classification results are not satisfactory. This paper shows the implementation of classification system based on ETOM+RPost algorithm and classification progress using SPAM data. In experiments, we verified our system with right-training documents and wrong-training documents. The experimental results show that our system has high accuracy and stability in all situation as 16% improvement in accuracy.

최근의 컴퓨터 기술과 인터넷 기술의 발달로 인해 분석 데이터가 급속도로 증가함에 따라 이들을 다루기 위한 자동분류시스템에 대한 요구가 높다. 문서분류시스템은 감독학습이 필수적이기 때문에 최소한의 전문가의 개입만으로도 높은 정확도가 보장되는 자동화 시스템에 대한 요구가 크다. 반면, 분류할 데이터들은 형식이나 내용상으로 그 복잡도가 높아지고 있어서, 일반적인 분류방법으로는 좋은 분석결과를 얻기 어려운 양상을 보인다. 특히 스팸성 데이터와 같이 어떠한 의도가 반영되어 가공되거나 변형되는 데이터는 분석의 어려움을 가중시킨다. 본 논문에서는 분류알고리즘의 성능향상을 위해 제안한 ETOM과 RPost방법을 구현하였다. 분류의 경계선 상에 있는 스팸문서들에 구현시스템을 적용하여 그 과정을 분석하였다. 실험결과 제안방법에 의한 정확도가 0.795에서 0.93으로 약 16%의 증가하였음을 확인하였다.

Keywords

References

  1. O.Dekel,J.Keshet, "Large Margin Hierarchical Classification.", In Proc. of the ICML'04, pp.209-216, 2004
  2. M.Ruiz and P.Srinivasan, "Hierarchical Text Categorization Using Neural Networks", Information Retrieval, Vol.5, No.1, pp.87-118, 2002. https://doi.org/10.1023/A:1012782908347
  3. 최윤정, 지정규, 박승수, "경계범주 자동탐색에 의한 확장된 학습체계 구성방법", 한국정보처리학회 논문 지B , 제16-B권, 제6호, pp.0479-0488, 2009.12. https://doi.org/10.3745/KIPSTB.2009.16B.6.479
  4. 김재준, 김한구, "베이지언 문서분류시스템을 위한 능동적 학습기반의 학습문서집합 구성방법", 한국정보 과학회 논문지, 제29권, 제12호,2002.12
  5. 윤성희, "자연어 질의유형 판별과 응답 추출을 위한 어휘 의미 체계에 관한 연구", 한국산학기술학회 논문지, 제5권,제6호,pp.539-545, 2004.12
  6. 김수희, "XML 문서의 구조기반 검색성능 평가", 한국산학기술학회 논문지, 제10권, 제2호, pp.396-406, 2009.2 https://doi.org/10.5762/KAIS.2009.10.2.396
  7. M.Lan, C.Tan, H.-B. Low, and S.Y. Sung, "A Comprehensive Comparative Study On Term Weighting Schemes For Text Categorization With Support Vector Machines", In Proc. of 14th International World Wide Web Conference, pp.1032-1033, 2005.
  8. Y.Zhao and G.Karypis, "Hierarchical Clustering Algorithms for Document Datasets", Data Mining and Knowledge Discovery, Vol.10,No.2,pp. 141-168, 2005. https://doi.org/10.1007/s10618-005-0361-3
  9. Rainbow(BOW),http://www.cs.cmu.edu/-mccallum/bow
  10. Bayesian Classifier,http://www.bayesia.com/GB/home/
  11. SVM-light, http://www.cs.cornell.edu/People/tj/svm_light/
  12. CLUTO-Clustering Algorithms, http://glaros.dtc.umn.edu/gkhome/views/cluto
  13. Apache Assassin Project, http://spamassassin.apache.org/