Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)
- 2005.07b
- /
- Pages.784-786
- /
- 2005
- /
- 1598-5164(pISSN)
A Rule-based Method for Cleaning Noisy Areas from Web Documents
웹 문서로부터 잡음 영역의 클리닝을 위한 규칙기반 방법
- Lee Min-Hyeong (Dept. of Computer Science, Yonsei University) ;
- Kim Yeon-Seok (Dept. of Computer Science, Yonsei University) ;
- Lee Kyong-Ho (Dept. of Computer Science, Yonsei University)
- Published : 2005.07.01
Abstract
본 논문에서는 웹 문서의 논리적 구조분석을 위한 전처리 과정으로서 웹 문서에 포함된 잡음 영역을 제거하는 클리닝 방법을 제안한다. 제안된 방법은 잡음 영역을 내비게이션 영역, 광고 영역, 상호작용 영역, 특수정보 영역, 그리고 스크립트/스타일 영역의 5종류로 구분한 후, 이를 제거할 수 있는 규칙을 제안한다. 제안된 방법의 성능을 평가하기 위하여 웹으로부터 추출된 726개의 다양한 문서를 대상으로 실험한 결과
Keywords