A Two-Layer Classifier for Recognition of Multi-font and Multi-size Characters in Multi-lingual Documents

다중 언어에서 다중 활자체 및 다중 크기의 문자 인식을 위한 2계층 분류기

  • Chi, Su-Young (Systems Engineering Research Institute / ETRI) ;
  • Moon, Kyung-Ae (Systems Engineering Research Institute / ETRI) ;
  • Oh, Weon-Geun (Systems Engineering Research Institute / ETRI) ;
  • Kim, Tai-Yun (Department of Computer Science & Engineering, Korea University)
  • 지수영 (전자통신연구소 부설 시스템공학연구소) ;
  • 문경애 (전자통신연구소 부설 시스템공학연구소) ;
  • 오원근 (전자통신연구소 부설 시스템공학연구소) ;
  • 김태윤 (고려대학교 전산과학과)
  • Published : 1996.10.11

Abstract

본 논문에서는 2 계층 분류기를 이용하여 일반적인 문서(보고서, 책, 잡지, 워드프로세서에서 출력 된 양식) 내의 다중 크기 및 다중 활자체의 인식을 위한 효과적인 방법을 제안하고 구현하였다. 다중언어 문자를 효과적으로 인식하기 위한 2 계층 분류기를 제안하였는데 이는 폰트 독립적 분류기와 폰트 의존적 분류기로 구성되어 있다. 제안된 방법의 성능 평가를 위하여 사무실에서 많이 사용하는 59 종류의 폰트와 각 폰트 당 3가지 크기의 글꼴과, 스캐너에서 지원되는 3가지 농도의 총 489개의 서로 다른 부류를 갖는 3,593,172 자를 대상으로 학습시킨 뒤에 일반 문서를 가지고 펜티엄 PC 상에서 인식 실험을 수행하였다. 실험 결과, 2계층 분류기를 갖는 시스템에서 96-98%의 인식률과 초당40자 이상의 인식 속도를 보여줌으로써 일반적인 문서에서 다중 크기 및 다중 활자체의 문자 인식에 매우 실용적인 가치가 있음을 확인했다.

Keywords