Dynamic Wrapper Composition for Integrative Extraction of Distributed Web Information

분산된 웹 정보의 효과적 통합$\cdot$추출을 위한 동적 Wrapper 조합

  • Baek Joo Huem (Graduate Program in Cognitive Science, Yonsei University) ;
  • Hong Jin-Hyuk (Dept. of Computer Science, Yonsei University) ;
  • Cho Sung-Bae (Dept. of Computer Science, Yonsei University)
  • 백주흠 (연세대학교 대학원 인지과학 협동과정) ;
  • 홍진혁 (연세대학교 컴퓨터과학과) ;
  • 조성배 (연세대학교 컴퓨터과학과)
  • Published : 2005.11.01

Abstract

웹 정보 통합은 사용자 질의에 적합한 정보를 분산된 웹에서 추출하여 제공하는 방법으로 질의응답 속도의 향상을 위해 질의처리 방식을 주로 사용한다. 질의 처리는 Wrapper를 이용해 웹으로부터 제약조건을 만족하는 정보를 추출하고 사용자가 원하는 형태로 결합하는 방식인데, 통합과정에서 제거될 정보까지 미리 추출하는 문제가 있다. 본 논문에서는 이를 해결하기 위해 튜플 단위 웹 정보 추출 방법을 제안한다. 제안하는 방법은 F-Logic으로 표현된 도메인 모델과 CHR(Constraint Handling Rule)로 정의한 규칙을 이 용해 질의를 확장하고 적절한 Wrapper들을 선택한 뒤 추출에 필요한 Wrapper를 동적으로 조합한다. 쇼핑몰 사이트에 분산된 웹 정보 획득에 제안하는 방법을 적용하여 유용성을 확인하였다.

Keywords