Handwritten Korean Amounts Recognition in Bank Slips using Rule Information

규칙 정보를 이용한 은행 전표 상의 필기 한글 금액 인식

  • 지태창 (LG-EDS 시스템 기술연구부문) ;
  • 이현진 (연세대학교 대학원 컴퓨터과학과) ;
  • 김은진 (버추얼텍 품질관리팀) ;
  • 이일병 (연세대학교 컴퓨터과학교)
  • Published : 2000.08.01

Abstract

Many researches on recognition of Korean characters have been undertaken. But while the majority are done on Korean character recognition, tasks for developing document recognition system have seldom been challenged. In this paper, I designed a recognizer of Korean courtesy amounts to improve error correction in recognized character string. From the very first step of Korean character recognition, we face the enormous scale of data. We have 2350 characters in Korean. Almost the previous researches tried to recognize about 1000 frequently-used characters, but the recognition rates show under 80%. Therefore using these kinds of recognizers is not efficient, so we designed a statistical multiple recognizer which recognize 16 Korean characters used in courtesy amounts. By using multiple recognizer, we can prevent an increase of errors. For the Postprocessor of Korean courtesy amounts, we use the properties of Korean character strings. There are syntactic rules in character strings of Korean courtesy amounts. By using this property, we can correct errors in Korean courtesy amounts. This kind of error correction is restricted only to the Korean characters representing the unit of the amounts. The first candidate of Korean character recognizer show !!i.49% of recognition rate and up to the fourth candidate show 99.72%. For Korean character string which is postprocessed, recognizer of Korean courtesy amounts show 96.42% of reliability. In this paper, we suggest a method to improve the reliability of Korean courtesy amounts recognition by using the Korean character recognizer which recognize limited numbers of characters and the postprocessor which correct the errors in Korean character strings.

한글 인식에 관한 기존의 연구는 한글 낱자 인식에 치우쳐 왔고, 실제 문서 인식 시스템 개발을 위한 연구는 거의 이루어지지 않았다. 그래서, 본 논문에서는 인식된 문자열의 오류 교정에 관한 연구로서 한글 금액열 인식기를 개발하였다. 한글 낱자 인식에서 문제가 되는 부분은 데이터의 방대함 때문에 발생한다. 컴퓨터상에서 표현될 수 있는 한글 낱자의 개수는 2000여 자 이상이다. 따라서, 기존의 연구들은 이러한 문제점을 해결하기 위해서 실생활에서 많이 쓰이는 낱자에 대해서만 실험을 했다. 하지만, 실험 대상 낱자의 개수를 1000여 자 정도로 줄였어도, 여전히 80%대 이하의 저조한 인식률을 보이고 있다. 이렇게 인식률이 저조한 범용 한글 낱자 인식기를 한글 금액 인식이라는 제한된 상황에서 사용하는 것은 적합하지 않다. 따라서, 본 연구에서는 한글 금액에 사용되는 16자의 한글 낱자만 인식할 수 있는 인식기를 제안하였다. 제안한 한글 낱자 인식기는 통계적 인식기를 사용한 다중 인식기 형태로 만들었고, 이를 통해 개별적인 특징으로 인한 인식률의 저하를 방지할 수 있다. 금액의 후처리는 한글 금액열 내에 내재되어 있는 금액에 대한 구조적인 규칙 정보를 이용하였다. 이 규칙을 이용하여 한글 금액의 후처리는 한글 금액열 내에 내재되어 있는 금액애 대한 구조적인 규칙 정보를 이용하였다. 이규칙을 이용하여 한글 금액의 인식 단위에 대한 인식 결과의 오류 보정을 할 수 있다. 실험 결과 제안한 한글 낱자 인식기의 1후보까지 인식률은 95.49%였고, 4후보까지 인식률은 99.72%였다. 그리고, 후처리기의 처리를 거친 금액열에 대해서는 신뢰도가 96.42%였다. 본 논문에서는 사용된 낱자의 개수가 적고, 구조안에 규칙 정보가 존재하는 한글 문자열의 경우에 제한된 글자를 인식하는 낱자 인식기와 오류를 교정할 수 있는 후처리기로 문자열 인식의 신뢰도를 향상시킬수 있는 방법을 제안하였다.

Keywords

References

  1. 고태석, 김종렬, 정규식, '오프라인 필기체 한글 자소 인식에 있어서 특징성능의 비교', 인지과학, 제7권 제1호, pp.57-74, 1996
  2. 권진욱, 이관용, 변혜란, 이일병, '한글 주소 인식 시스템', 한국정보과학회 '97 봄 학술발표논문집, 제24권 제1호, pp.529-532, 1997
  3. 권혁철, 이영식, 황호정, '한글 철자 검사기/교정기 이식 및 글자 인식을 위한 후처리 기술에 관한 최종 연구 보고서', 삼성전자, 1993
  4. 김대인, 이성환, '오프라인 한글 글씨 데이터베이스 KU-1의 글씨 품질 자동 평가', 한국정보과학회 '98 봄 학술발표논문집, 제25권 제1호, pp.707-709, 1998
  5. 김수형, 도정인, 김준호, 이상규, '통계적 군집화 및 신경망 기법을 이용한 필기체 문자의 오프라인 인식', 제2회 문자 인식 워크샵 논문집, pp.133-142, 1994
  6. 김은진, '인간의 한글 지각 처리에 근거한 한글 인식 방법에 관한 연구', 박사학위 논문, 연세대학교, 1997
  7. 백종현, 조성배, 이관용, 이일병, '이중 결합 구조를 갖는 다중 인식기 시스템', 한국정보과학회 '96 봄 학술발표논문지, 제23권 제1호, pp.281-284, 1996
  8. 윤성수, 변혜란, 이일병, '인간의 정보처리 방법에 기반한 특징추출 및 필기체 문자인식에의 용용', 인지과학, 제9권 제1호, pp.1-11, 1998
  9. 중앙대학교, 기아정보시스템, '필기체 문자인식 기술개발', 정보 통신부 제조업 경쟁력 강화사업 연구보고서, Sep., 1995
  10. 홍남희, 이원일, 이종혁, 이근배, '어절 정보와 문자열 정보를 이용한 문자 인식에서의 오인식 수정 기법에 관한 연구', 제1회 문자 인식 워크? 발표 논문집, pp.100-113, 1993
  11. 황영섭, 방승양, '제약 조건 만족 그래프를 이용한 필기 한글 인식', 한국정보과학회 1997년 봄 학술발표 논문집, Vol.24(1), pp.521-524, 1997
  12. Y.-M. Baek, K.-T. Lim, S.-I. Chien and J.-S. Park, 'Off-line Handwritten Hangul Recognition Based on Multiple Features and Modular Partially Connected Multi-layer Perceptron,' Proceedings of 6th IWFHR, pp.269-278, 1998
  13. H. Y. Kim and J. H. Kim 'Handwritten Korean Character Recognition Based on Hierarchical Random Graph Modeling,' Proceedings of 6th IWFHR, pp.577-586, 1998
  14. S. H. Kim 'Handwritten Korean Address Recognition by Combining Minimum Distance Classification and Dictionary Look-up,' Proceedings of 6th IWFHR, pp.439-448, 1998
  15. T. Kohonen, et al., 'LVQ_PAK-the learning vector quantization program package Version 3.1,' April, 1995
  16. D-S. Lee., S. N. Srihari, 'Handprinted Digit Recognition : A Comparison of Algorithms,' Proceedings of 3rd IWFHR, pp.153-162, 1993
  17. A. S. Pandya, R. B. Macy, 'Pattern Recognition with Neural Networks in C++,' CRC Press, pp.214-230, 1996
  18. H. S. Park, S. W. Lee, 'Off-line Recognition of Large-set Handwritten Characters with Multiple Hidden Markov Models,' Pattern Recognition, 29-2, pp.231-244, 1996 https://doi.org/10.1016/0031-3203(95)00081-X