A Rule-based Method for Cleaning Noisy Areas from Web Documents

웹 문서로부터 잡음 영역의 클리닝을 위한 규칙기반 방법

  • 이민형 (연세대학교 컴퓨터과학과) ;
  • 김연석 (연세대학교 컴퓨터과학과) ;
  • 이경호 (연세대학교 컴퓨터과학과)
  • Published : 2005.07.01

Abstract

본 논문에서는 웹 문서의 논리적 구조분석을 위한 전처리 과정으로서 웹 문서에 포함된 잡음 영역을 제거하는 클리닝 방법을 제안한다. 제안된 방법은 잡음 영역을 내비게이션 영역, 광고 영역, 상호작용 영역, 특수정보 영역, 그리고 스크립트/스타일 영역의 5종류로 구분한 후, 이를 제거할 수 있는 규칙을 제안한다. 제안된 방법의 성능을 평가하기 위하여 웹으로부터 추출된 726개의 다양한 문서를 대상으로 실험한 결과 $91.16\%$ 확률을 보였다.

Keywords