A Hyperlink-based Feature Weighting Technique for Web Document Classification

웹문서 자동 분류를 위한 하이퍼링크 기반 특징 가중치 부여 기법

  • Lee, A-Ram (School of Electrical and Computer Engineering, University of Seoul) ;
  • Kim, Han-Joon (School of Electrical and Computer Engineering, University of Seoul)
  • 이아람 (서울시립대학교 전자전기컴퓨터공학부) ;
  • 김한준 (서울시립대학교 전자전기컴퓨터공학부)
  • Published : 2012.11.22

Abstract

기계학습을 이용하는 문서 자동분류 시스템은 분류모델의 구성을 위해서 단어를 특징으로 사용한다. 자동분류 시스템의 성능을 높이기 위해 보다 의미있는 특징을 선택하여 분류모델을 구성하기 위한 여러 연구가 진행되고 있다. 특히 인터넷상에서 사용되는 웹문서는 단어 외에도 태그정보, 링크정보를 가지고 있다. 본 논문에서는 이 두 가지 정보를 이용하여 웹문서 자동분류 시스템의 성능을 향상 시키는 방법 제안 한다. 태그 정보와 링크 정보를 이용하여 적절한 특징을 선택하고, 각 특징의 중요도를 계산하여 가중치를 구한다. 계산된 가중치를 각 특징에 부여하여 분류 모델을 구성하고 나이브 베이지안 분류기를 통하여 성능을 평가하였다

Keywords

Acknowledgement

Supported by : 한국연구재단