Automatic Generation of Structured Hyperdocuments from Multi-Column Document Images

복잡환 다단 문서 영상으로부터 구조화된 하이퍼문서의 자동 생성

  • 이지연 (고려대학교 컴퓨터학과/인공시각연구센터) ;
  • 강희중 (고려대학교 컴퓨터학과/인공시각연구센터) ;
  • 이성환 (고려대학교 컴퓨터학과/인공시각연구센터)
  • Published : 1999.10.01

Abstract

본 논문에서는 다양한 객체를 포함한 다단 문서 영상을 원본 문서와 거의 유사한 형태의 HTML 문서로 변환할 수 있는 방법을 제안한다. 또한 논문이나 매뉴얼, 책의 한 단원 등 여러장의 입력 문서의 경우, 문서의 논리적인 구조 분석을 수행하고 장이나 절 등의 섹션 제목들을 계층화하여 다단 문서의 변환과 동시에 구조화된 목차 페이지도 함께 자동 생성하는 방법을 제안한다. 제안된 다단 문서 변환 알고리즘을 잡지, 신문, 광고지, 매뉴얼 등, 비정형화된 문서에 적용한 결과, 원본 문서의 형태와 구조에 큰 변함없이 유사하게 변환되었고, 논리적인 구조 분석 및 섹션 제목들의 계층화 작업 또한 정확히 수행되어 구조화된 목차 페이지의 자동 생성이 가능하였다.

Keywords