A New Method for Nonparametric Document Layout Analysis

매개변수에 무관한 새로운 문서 구조 분석 방법

  • 류대석 (고려대학교 컴퓨터학과) ;
  • 강선미 (서경대학교 컴퓨터과학과) ;
  • 이성환 (고려대학교 컴퓨터과학과)
  • Published : 1999.10.01

Abstract

본 논문에서는 매개변수 없이 입력 문서 영상을 최대 동질 영역들로 분할한 다음, 각 동질 영역을 텍스트, 그림, 표 그리고 선으로 자동 분류하는 새로운 방법을 제안한다. 다단계 분석과 하향식 접근 방법을 사용하기 위하여 문서 영상을 피라미드 구조로 계층화하였으며, 어떤 영역을 분할할 지의 여부를 결정하기 위하여 그 영역의 주기성을 이용하여 판단하였다. 이러한 주기성 정보를 이용함으로써, 어떠한 매개변수 없이도 활자체 크기와 행간에 무관하게 텍스트 영역을 정확히 분석할 수 있었으며, 피라미드 구조를 만드는데 걸리는 시간이 질감 분석 접근방법보다 빠른 방법으로 설계되었다. Washington 대학의 문서 영상 데이터베이스를 이용한 실험 결과, 제안된 방법이 기존의 방법들보다 더 정확하게 문서 영상을 분할 및 분류할 수 있음을 확인할 수 있었다.

Keywords