Noise Removal and Pattern Matching for Efficient Meta-Search of Web Documents

Web 문서의 효율적인 실시간 검색을 위한 잡음 제거와 패턴 정합 기법

  • 강대기 (전자 통신 연구원 컴퓨터◆소프트웨어 연구소 시스템 통합 연구부 전자 거래 연구팀) ;
  • 이제선 (전자 통신 연구원 컴퓨터◆소프트웨어 연구소 시스템 통합 연구부 전자 거래 연구팀) ;
  • 함호상 (전자 통신 연구원 컴퓨터◆소프트웨어 연구소 시스템 통합 연구부 전자 거래 연구팀)
  • Published : 1998.10.01

Abstract

웹 상의 메타 검색 엔진, Push 프로그램 그리고 에이전트와 같은 웹 기반 응용 프로그램들은 웹 문서의 취득과 자동 필터링에 대한 능력을 필요로 한다. 이를 위한 인터페이스의 지식들은 대부분 코드 내에서 ad-hoc으로 구현되어 왔다. 본 논문에서는 취득된 웹 문서를 전처리하고 원하는 정보를 추출하기 위한 방법을 제시하고, 웹 상위 신문 기사에 대한 검색으로 실험해 보았다. 검색 시스템은 웹 문서의 전처리 과정을 통해 필요한 정보에만 집중할 수 있고, 아주 적은 양의 일반화된 지식을 토대로 원하는 정보를 용이하게 찾을 수 있었으며, 또한 웹 문서의 형식이 바뀌더라도 크게 영향을 받지 않으며, 새로운 웹사이트의 추가도 용이하였다. 본 논문의 방법으로 구현된 신문 기사 검색 시스템은, URL과 아주 적은 양의 지식만으로도, 10 개의 신문 웹사이트에서 문서를 가져와 효과적으로 해석할 수 있었다. 본 논문의 방법은 메타 검색 엔진이나, 잡지나 신문 기사 정보의 푸쉬(Push) 솔루션, 또는 상품 정보 검색 시스템 등의 설계에 활용될 수 있다.

Keywords