A Study on Machine Printed Character Recognition Based on Character Type Classification

문자형식 분류 기반의 인쇄체 문자인식에 관한 연구

  • 임길택 (한국전자통신연구원 우정기술연구센터 자동구분처리연구팀) ;
  • 김호연 (한국전자통신연구원 우정기술연구센터 자동구분처리연구팀)
  • Published : 2003.09.01

Abstract

In this paper, we propose machine printed character recognition methods which utilize the character type information and divide the character clusters. The characters are subdivided into a total of seven types, of which six types are for Hangul according to the grapheme combination fashions and one type for English characters, numerals, and symbols. According to the character type, we separate input character image into several recognition units and recognize them by using the direction angle feature. The recognition for each character type is completed by combining recognition units which are recognized by neural networks respectively For combining a total of seven character recognizers, we implemented seven methods such as switching method, integrating method, and their several variants. As experimental results, we obtained 98.2% recognition rate of simple switching method, 90.54% of integrating one, and between 97.35% and 98.65% of five variants.

본 논문에서는 문자의 형식정보를 이용하여 인식대상 문자군을 분할하여 인쇄체 문자를 인식하는 방법을 제안한다. 인식대상 문자를 전체 7개의 형식으로 나누는데, 한글 문자의 경우 자소 조합 방식에 따라 6개의 형식으로 분류하며, 영·숫자 및 기호 문자의 경우 1개의 형식으로 분류한다. 각 문자형식에 따라 입력 문자 영상을 몇 개의 인식단위로 나누고, 이에 대한 방향각도 특징을 추출하여 신경망 인식기에 입력하여 인식한 후 인식된 각 인식단위를 조합하여 문자인식을 한다. 각각 구현된 7가지 형식별 문자인식기를 단순 스위칭 및 통합 방법과 두 방법의 변형 방법 등 7가지의 방법으로 결합하여 최종 문자인식을 하였다. 실험 결과, 단순 스위칭 방법은 98.62%, 단순 통합 방법은 90.54%, 나머지 5가지의 변형 방법들이 97.35%에서 98.65%의 인식 성능을 보였다.

Keywords

References

  1. 권재욱, 조성배, 김진형, '계층적 신경망을 이용한 다중 크기의 다중활자체 한글문서 인식,' 한국정보과학회 논문지, 제19권 제1호, pp. 69-79, 1992
  2. S. B. Cho and J. H. Kim, 'Hierarchically structured neural networks for printed Hangul character recognition,' International Joint Conference on Neural Networks, Vol. 1, pp. 265-270, 1990 https://doi.org/10.1109/IJCNN.1990.137580
  3. 이진수, 권오준, 방승양, '개선된 자소 인식 방법을 통한 고인식률 인쇄체 한글 인식,' 한국정보과학회 논문지, 제23권 제8호, pp. 841-851, 1996
  4. 이판호, 장희돈, 남궁재찬, '동적자소분할과 신경망을 이용한 인쇄체 한글 문자인식에 관한 연구,' 한국통신학회논문지, 제19권 제1호, pp. 2133-2145, 1994
  5. 최동혁, 류성원, 강현철, 박규태, '계층구조 신경망을 이용한 한글 인식,' 대한전자공학회 논문지, 제28권 B편 제11호, pp. 1-7, 1991
  6. 김우태, 윤병식, 박인규, 진성일, '인쇄체 한글 문자인식을 위한 특징성능의 비교,' 한국정보과학회 논문지, 제20권 제8호, pp. 1103-1110, 1993
  7. S. I. Chien, 'Hangul(Korean) and English OCR system using multiple hypothesis driven neural nets,' Korean-French Character Recognition Workshop, pp. 37-52, 1994
  8. 장명욱, 천대녕, 양현승, '연결화소를 이용한 문서 영상의 분할 및 인식,' 한국정보과학회 논문지, 제20권 제12호, pp. 1741-1751, 1993
  9. 김정우, 이행세, '인쇄체 한글 및 한자의 인식에 관한 연구,' 한국통신학회논문지, Vol. 17, No. 11, pp. 1175-1184, 1992
  10. 이성환, '다양한 활자체 및 크기를 갖는 대용량 한글의 고속 인식을 위한 최적 트리 분류기,' 한국정보과학회 논문지, 제20권 제8호, pp. 1083-1092, 1991
  11. B. S. Kang, K. T. Lim, and S. I. Chien, 'SOMMLP multi-layered neural network with false-alarming nodes for large scale pattern recognition,' Journal of Electrical Engineering and Information Science, Vol. 4, No. 2, pp. 232-238, 1999
  12. H. Kim and J. Kim, 'Hierarchical random graph representation of hanwritten characters and its application to Hangul recognition,' Pattern Recognition, Vol. 34, pp. 187-201, 2001 https://doi.org/10.1016/S0031-3203(99)00222-8
  13. S. H. Jeong, K. T. Lim, and Y. S. Nam, 'A combination method of two classifiers based on the information of confusion matrix,' International Workshop on Frontiers in Handwriting Recognition, pp. 519-523, 2002 https://doi.org/10.1109/IWFHR.2002.1030963
  14. H. Y. Kim, K. T. Lim, and Y. S. Nam, 'Handwritten numeral recognition using neural network classifier trained with negative data,' International Workshop on Frontiers in Handwriting Recognition, pp. 395-400, 2002 https://doi.org/10.1109/IWFHR.2002.1030942
  15. K. Kim, J. Kim, and C. Suen, 'Segmentation-based recognition of handwritten touching pairs of digits using structural features,' Pattern Recognition Letters, Vol. 23, pp. 13-24, 2002 https://doi.org/10.1016/S0167-8655(01)00114-3
  16. G. Kim and V. Govindaraju, 'A Lexicon driven approach to handwritten word recognition for real-time applications,' IEEE Tran. on Pattern Analysis and Machine Intelligence, Vol. 19, No. 4, pp. 366-379, 1997 https://doi.org/10.1109/34.588017
  17. 임길택, 남윤석, 진성일, '회전 및 이동 영상을 이용하는 모듈 구조 신경망 기반 필기체 숫자 인식,' 한국정보처리학회 논문지, 제7권, 제6호, pp. 1834-1843, 2000
  18. F. Togawa, T. Ueda, T. Aramaki, and A. Tanaka, 'Receptive field neural network with shift tolerant capability for Kanji character recognition,' International Joint Conference of Neural Networks, Vol. 2, pp. 1490-1498, 1988 https://doi.org/10.1109/IJCNN.1991.170611
  19. A. Iwata, H. Kawajiri, and N. Suzumura, 'Classification of hand-written digits by a large scale neural network 'CombNET-II,' International Joint Conference on Neural Networks, Vol. 2, pp. 1021-1062, 1991 https://doi.org/10.1109/IJCNN.1991.170531
  20. D. E. Rumelhart, G. E. Hinton, and R. J. Williams, 'Learning internal representations by error propagation,' Parrallel Distributed Processing, Vol. 1, pp. 319-362, 1986