CombNET 신경망을 이용한 혼용 문서 인식 시스템의 구현

An implementation of the mixed type character recognition system using combNET

  • 최재혁 (광운대학교 대학원 컴퓨터공학과) ;
  • 손영우 (광운대학교 대학원 컴퓨터공학과) ;
  • 남궁재찬 (광운대학교 컴퓨터공학과, 신기술연구소)
  • 발행 : 1996.12.01

초록

문자인식에 대한 연구는 주로 한글인식에 대해서만 이루어져 왔는데, 대부분의 문서는 한글 뿐만 아니라 여러 종류의 문자가 포함되어 있다. 따라서, 본 논문에서는 다중 크기, 다중 활자체, 다자종 문자가 포함되어 있는 한글문서를 인식할 수 있는 문자인식 시스템을 구현하였다. CombNET 구조를 갖는 신경회로망을 자종별로 구성하여, 문자인식시에 문자를 구별하지 않고 인식하는 방법을 제안하였다. CombNET 구조의 상단부를 차지하는 Kohonen의 SOFM 신경망을 이용하여 한글과 한자는 36개, 영숫자는 16개의 유형으로 분류하고 각 유형에 대해서 CombNET 구조의 하단부에 있는 BP 네트워크를 이용하여 문자인식을 수행하였다. 실험결과 학습 데이타에 대해서는 95.6%의 인식율을 나타내었고, 실제문서에 대해서도 92.6%의 인식율과 초당 10.3자의 인식속도를 보임으로써 제안된 인식 시스템의 유효성을 입증하였다.

The studies of document recongnition have been focused mainly on Korean documents. But most of documents composed of Korean and other characters. So, in this paper, we propose the document recognition system that can recognize the multi-size, multi font and mixed type characters. We have utilized a large scale network model, "CombNET" which consists of a 4 layered network with combstructure. And we propose recognition method that can recognize characters without discrimination of character type. The first layer constitutes a Kohonen's SOFM network which quantizes an input feature vector space into several sub-spaces and the following 2-4 layers constitutes BP network modules which classify input data in each sub-space into specified catagories. An experimental result demonstrated the usefulness of this approach with the recognition rates of 95.6% for the training data. For the mixed type character documents we obtained the recognition rates of 92.6% and recognition speed of 10.3 characters per second.

키워드