문서 영상에서의 테이블 벡터화에 관한 연구

  • 심진보 (호서대학교 컴퓨터 공학과) ;
  • 김우성 (호서대학교 컴퓨터 공학) ;
  • 박용범 (단국대학교 전자계산학) ;
  • 오원근 (한국과학기술연구원 시스템공학연구소 인공지능 연구부)
  • Published : 1995.12.01

Abstract

본 논문에서는 문서 인식 시스템에서 정확한 문서 인식의 기본이 되고 인식 결과에 중요한 영향을 미치는 전처리 알고리즘 중 테이블 입력의 효율적인 처리 방법을 연구한다. 테이블 내의 문자를 인식하기 위해서는 테두리선과 문자부분을 먼저 분리하는 작업이 필요하다. 왜냐하면, 테이블을 인식하기 위해서는 테두리선에 의해 블록화된 테두리선 안의 문자를 인식해야 하며 또한 테두리선을 효율적으로 벡터화하는 방법이 필요하다. 따라서 테이블을 벡터화하는 방법으로 8방향 체인 코드를 이용하여 테이블 선 성분을 추출하는 방법과 히스토그램을 이용하여 테이블의 수평, 수직 성분을 추출하여 얻어진 교차점을 이용하여 대각선 성분을 찾아내는 방법 및 화소의 run-length를 이용하여 수평, 수직 성분을 추출하여 얻어진 교차점을 이용해 대각선 성분을 찾아내는 방법 등이 있다. 본 논문에서는 문서 영상 내의 테이블을 효율적으로 벡터화하기 위한 방법을 연구한다.

Keywords