DOI QR코드

DOI QR Code

체인 정합과 확장된 그룹핑 방법을 사용한 곡선형 텍스트 라인 추출

Extracting curved text lines using the chain composition and the expanded grouping method

  • ;
  • 윤진선 (충북대학교 BK21충북정보기술사업단) ;
  • 송영준 (충북대학교 충북 BIT연구중심대학육성사업단) ;
  • 김남 (충북대학교 전기전자컴퓨터공학부) ;
  • 김용기 (충북대학교 천문우주학과)
  • 발행 : 2007.10.31

초록

본 논문은 정형화되지 않은 텍스트 라인들을 추출하기 위한 방법을 보여주고 있다. 텍스트 라인들은 각기 다른 각도로 구성되고, 심하게 굴곡이 있는 모양, 그리고 텍스트 라인내의 약간의 단어 사이의 공간이 생기게 된다. 그러한 텍스트 라인들은 포스터, 주소, 그리고 예술 문서 등에서 발견된다. 제안하는 방법은 기존의 직관적인 그룹핑 방법에 기반을 두고 있지만, 하나의 라인에서 발생하는 불충분한 특징점들과 모호한 회전 등을 극복하기 위한 방법을 개발하였다. 본 논문에서 텍스트 라인들은 몇 개의 연결된 성분들로 구성되고, 이 성분들은 하나의 문자 또는 연결된 문자들의 검은색 화소들의 집합이라고 가정하였다. 제안하는 방법은 반복적으로 증가되는 임계값과 가까운 성분들은 하나의 체인으로 병합하게 되고 확장되어 길어진 체인들은 라인의 원시 체인으로서 인지된다. 그때 원시 체인들은 텍스트 라인의 부분적 회전에 따라 좌우로 확장되어 진다. 텍스트 라인의 부분적인 회전은 원시 체인이 확장될 때, 체인들의 각 면에서 재구성될 것이다. 이러한 과정을 통해서 모든 텍스트 라인들이 구성되어 진다. 제안 방법은 로고와 슬로건에서 사용된 곡면으로 쓰여진 텍스트 라인들에 대해서 실험한 결과 직선 텍스트 라인은 98%, 곡선 텍스트 라인은 94%로서 높은 추출율을 보여주고 있다.

In this paper, we present a method to extract the text lines in poorly structured documents. The text lines may have different orientations, considerably curved shapes, and there are possibly a few wide inter-word gaps in a text line. Those text lines can be found in posters, blocks of addresses, artistic documents. Our method based on the traditional perceptual grouping but we develop novel solutions to overcome the problems of insufficient seed points and vaned orientations un a single line. In this paper, we assume that text lines contained tone connected components, in which each connected components is a set of black pixels within a letter, or some touched letters. In our scheme, the connected components closer than an iteratively incremented threshold will make together a chain. Elongate chains are identified as the seed chains of lines. Then the seed chains are extended to the left and the right regarding the local orientations. The local orientations will be reevaluated at each side of the chains when it is extended. By this process, all text lines are finally constructed. The proposed method is good for extraction of the considerably curved text lines from logos and slogans in our experiment; 98% and 94% for the straight-line extraction and the curved-line extraction, respectively.

키워드

참고문헌

  1. Shapiro V., Gluhchev G., Sgurev V., 'Handwritten document image segmentation and analysis', Pattern Recognition Letters, Vol.14, No.1, pp. 71-78, 1993 https://doi.org/10.1016/0167-8655(93)90134-Y
  2. Pu Y, Shi Z., 'A natural learning algorithm based on Hough transform for text lines extraction in handwritten documents', In Proceedings of the 6 IntI. Workshop on Frontiers in Handwriting Recognition, Taejon, Korea, pp. 637- 646, 1998
  3. Zahour, A, Taconet, B., Mercy, P., Ramdane, S., 'Arabic hand-written text-line extraction', Proceedings of the 6th ICDAR, Seattle, pp. 281 - 285, 2001 https://doi.org/10.1109/ICDAR.2001.953799
  4. Wong K., R. Casey, F. Wahl, 'Document analysis systems', IBM Journal of Research and Development, Vol. 26, No.6, 1982
  5. Douglas J. Kennard, William A Barrett, 'Separating lines of text in free-form handwritten historical documents', Second International Conference on Document Image Analysis for Libraries (DIAL'06), pp. 12-23, 2006 https://doi.org/10.1109/DIAL.2006.40
  6. Feldbach M., Tiinnies K.D., 'Line detection and segmentation in historical church registers', Proc. of ICDAR'01, Seattle, pp. 743-747, 2001 https://doi.org/10.1109/ICDAR.2001.953888
  7. H. Yan, 'Detection of curved text path based on the Fuzzy Curve-Tracing (FCT) algorithm', in Proc. 6th Int. Conf. Document Analysis Recognition, pp. 266-269, 2001 https://doi.org/10.1109/ICDAR.2001.953796
  8. U. Pal and Partha Pratim Roy, 'Multioriented and curved text lines extraction from Indian documents', IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, Vol. 34, No.4, August 2004 https://doi.org/10.1109/TSMCB.2004.827613
  9. H.Goto and H. Aso, 'Extracting curved lines using local linearity of the text line', Int. J. Doc. Anal. Recognit., Vol. 2, pp. 111 - 118, 1999 https://doi.org/10.1007/s100320050041
  10. Likforman-Sulem L., Faure c., 'Extracting lines on handwritten documents by perceptual grouping', Advances in Handwiting and drawing: a Multidisciplinary Approach, C. Faure, P. Keuss, G. Lorette, A Winter (Eds), pp. 21-38, Europia, Paris, 1994
  11. Laurence Likforman-Sulem, Abderrazak Zahour, Bruno Taconet, 'Text line segmentation of historical documents: a survey', Special Issue on Analysis of Historical Documents, International Journal of Document Analysis and Recognition, Springer, Vol. 9, No. 2-4, pp. 123-138, 2007 https://doi.org/10.1007/s10032-006-0023-z

피인용 문헌

  1. Title Extraction from Book Cover Images Using Histogram of Oriented Gradients and Color Information vol.8, pp.4, 2012, https://doi.org/10.5392/IJoC.2012.8.4.095