Automatic Evaluation of Document Image for OCR

OCR을 위한 문서 영상의 자동평가

  • Yoon, Byoung-Hoon (Department of Computer and Information Communications Engineering, Kangwon National University) ;
  • Ha, Jin-Young (Department of Computer and Information Communications Engineering, Kangwon National University)
  • 윤병훈 (강원대학교 컴퓨터정보통신공학과) ;
  • 하진영 (강원대학교 컴퓨터정보통신공학과)
  • Published : 2007.06.25

Abstract

본 논문에서는 OCR(Optical Character Recognition)의 정확도를 위해 인쇄체 한글 문서 영상에 대한 자동 평가방법을 제안한다. 자동 평가방법은 문서가 스캔된 상태에 따라 낮은 해상도, 영상 자체의 기울어짐, 많은 잡음 등을 판단하여 인식하지 않고도 인식률을 추측할 수 있다. 평가방법은 영상 자체의 밝기, 기울기, 영역의 특징, 문자의 상태 등을 특징 항목으로 만들어 점수를 산출한다. 각 항목의 점수는 가장 높은 인식률을 가지는 영상의 특징 값을 기준으로 삼는다. 각각의 특징에 대해 점수가 산출되면 인식률에 높은 비중을 차지하는 특징에 높은 가중치를 적용하여 최종 점수를 산출한다. 영상 평가방법을 통해 높은 점수를 얻은 영상은 상용 인식기를 통해 인식한 결과 높은 인식률을 나타냈고, 평가방법에서 낮은 점수를 받은 영상은 상대적으로 낮은 인식률을 나타냈다. 본 논문에서 제안하는 문서영상을 위한 자동 평가방법은 인식기를 사용하지 않고 영상의 품질을 측정하기 때문에 빠른 시간에 인식률을 추측할 수 있고, 낮은 인식률을 보일 수 있는 영상에 대해서는 항목별 점수를 피드백으로 사용할 수 있어 인식하기전 문서 영상의 전처리에 과정에 도움을 줄 수 있다.

Keywords