Empirical Analysis & Comparisons of Web Document Classification Methods

문서분류 기법을 이용한 웹 문서 분류의 실험적 비교

  • Lee, Sang-Soon (Dept. of Computer Engineering, University of Incheon) ;
  • Choi, Jung-Min (Dept. of Computer Engineering, University of Incheon) ;
  • Jang, Geun (Dept. of Computer Engineering, University of Incheon) ;
  • Lee, Byung-Soo (Dept. of Computer Engineering, University of Incheon)
  • 이상순 (인천대학교 컴퓨터공학과) ;
  • 최정민 (인천대학교 컴퓨터공학과) ;
  • 장근 (인천대학교 컴퓨터공학과) ;
  • 이병수 (인천대학교 컴퓨터공학과)
  • Published : 2002.10.01

Abstract

인터넷의 발전으로 우리는 많은 정보와 지식을 인터넷에서 제공받을 수 있으며 HTML, 뉴스그룹 문서, 전자메일 등의 웹 문서로 존재한다. 이러한 웹 문서들은 여러가지 목적으로 분류해야 할 필요가 있으며 이를 적용한 시스템으로는 Personal WebWatcher, InfoFinder, Webby, NewT 등이 있다. 웹 문서 분류 시스템에서는 문서분류 기법을 사용하여 웹 문서의 소속 클래스를 결정하는데 문서분류를 위한 기법 중 대표적인 알고리즘으로 나이브 베이지안(Naive Baysian), k-NN(k-Nearest Neighbor), TFIDF(Term Frequency Inverse Document Frequency)방법을 이용한다. 본 논문에서는 웹 문서를 대상으로 이러한 문서분류 알고리즘 각각의 성능을 비교 및 평가하고자 한다.

Keywords