블록 단위 그래프 모델을 통한 효율적인 정보 추출 Wrapper 생성과 유지 관리

Effective Information Extraction Wrapper Generation and Maintenance by Using a Block-Based Graph Model

  • 박주영 (한양대학교 컴퓨터공학과) ;
  • 양재영 (한양대학교 컴퓨터공학과) ;
  • 최중민 (한양대학교 컴퓨터공학과)
  • Park, Ju-Young (Department of Computer Science and Engineering, Hanyang University in Ansan) ;
  • Yang, Jae-Young (Department of Computer Science and Engineering, Hanyang University in Ansan) ;
  • Choi, Joong-Min (Department of Computer Science and Engineering, Hanyang University in Ansan)
  • 발행 : 2007.10.26

초록

기존의 정보 추출에서는 웹 문서의 구조가 변경되었을 때 Wrapper가 원하는 정보를 추출할 수 없었다. 또한 웹 문서의 구조가 바뀌는 경우 동일한 정보를 Wrapping함에도 불구하고 사용자는 정보를 추출 할 수 없었던 이유를 찾지 못하는 경우가 대부분이었다. 이 문제를 해결하기 위해 본 논문에서는 Web 페이지를 시각적 블록 단위로 잘라 인접한 블록들을 통해 그래프를 형성하여 웹 문서의 구조가 일부 변경되어도 기존의 Wrapper를 통해 정보를 추출할 수 있도록 보다 효율적으로 Wrapper를 생성하고 유지관리 하는 방법을 제안한다. 또한 웹 문서를 블록 단위로 분할하여 그래프를 생성함으로써 블록 내부에 추출하고자 하는 정보에 대한 규칙이 좀 더 유연하게 표현 될 수 있으며 문서의 구조가 아닌 추출하고자 하는 정보를 중심으로 규칙을 생성함으로써 그래프의 구조뿐 아니라 그래프를 구성하고 있는 블록 내부의 구조가 일부 변하더라도 기존의 규칙을 이용하여 정보를 추출할 수 있도록 하였다.

키워드