Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)
- 2002.10d
- /
- Pages.154-156
- /
- 2002
- /
- 1598-5164(pISSN)
Empirical Analysis & Comparisons of Web Document Classification Methods
문서분류 기법을 이용한 웹 문서 분류의 실험적 비교
- Lee, Sang-Soon (Dept. of Computer Engineering, University of Incheon) ;
- Choi, Jung-Min (Dept. of Computer Engineering, University of Incheon) ;
- Jang, Geun (Dept. of Computer Engineering, University of Incheon) ;
- Lee, Byung-Soo (Dept. of Computer Engineering, University of Incheon)
- Published : 2002.10.01
Abstract
인터넷의 발전으로 우리는 많은 정보와 지식을 인터넷에서 제공받을 수 있으며 HTML, 뉴스그룹 문서, 전자메일 등의 웹 문서로 존재한다. 이러한 웹 문서들은 여러가지 목적으로 분류해야 할 필요가 있으며 이를 적용한 시스템으로는 Personal WebWatcher, InfoFinder, Webby, NewT 등이 있다. 웹 문서 분류 시스템에서는 문서분류 기법을 사용하여 웹 문서의 소속 클래스를 결정하는데 문서분류를 위한 기법 중 대표적인 알고리즘으로 나이브 베이지안(Naive Baysian), k-NN(k-Nearest Neighbor), TFIDF(Term Frequency Inverse Document Frequency)방법을 이용한다. 본 논문에서는 웹 문서를 대상으로 이러한 문서분류 알고리즘 각각의 성능을 비교 및 평가하고자 한다.
Keywords