Extracting Web-Table Information Using Decision Tree and Rule Based Approach

기계학습과 규칙 기반 접근 방법을 결합한 의미 있는 표 구분과 헤드 영역 추출

  • Jung, Sung-Won (Dept. of Computer Science, Pusan National University) ;
  • Park, Dae-Won (Dept. of Computer Science, Pusan National University) ;
  • Kwon, Hyuk-Chul (Dept. of Computer Science, Pusan National University)
  • 정성원 (부산대학교 컴퓨터공학과) ;
  • 박대원 (부산대학교 컴퓨터공학과) ;
  • 권혁철 (부산대학교 컴퓨터공학과)
  • Published : 2004.10.08

Abstract

일반적으로 HTML문서는 크게 내용과 구조로 이루어져 있다. HTML은 일반 문서와 달리 태그라는 것으로 문서에 추가 정보를 주며, 문서의 내용을 더욱 명확하게 한다. 따라서 태그를 이용하면 일반 문서보다 정보를 쉽게 구별하고 추출할 수 있다. 이러한 여러 가지 태그들 중에서 본 연구는 표를 중점적으로 연구한다. 표는 행과 열을 이용하여 어떤 사실을 조직하여 전달하는 것으로, 다른 구조적 특성들 보다 정보를 조직하는데 매우 유용하며, 글로 기술할 많은 분량을 간단히 줄이는 역할을 한다. 이와 같은 표의 특성에 주목하여 표에서 정보를 추출하는 분야를 기존 연구자들은 Web Table Mining 명명하였다. 본 연구는 기존 연구자들이 간과한 표의 구조적인 특성을 이용하여 전체 인터넷 문서에 적용할 수 있는 방법과 함께, 표에서 의미 있는 정보 추출을 위한 단계적인 모형을 제시한다.

Keywords