• Title/Summary/Keyword: 문자 분할

Search Result 218, Processing Time 0.034 seconds

Character Segmentation Using Side Profile Pattern (측면 윤곽 패턴을 이용한 접합 문자 분할법)

  • 정민철
    • Proceedings of the KAIS Fall Conference
    • /
    • 2003.06a
    • /
    • pp.260-263
    • /
    • 2003
  • 본 연구에서는 접합 문자를 분할하는 알고리듬을 소개한다. 문자 인식기는 문자를 인식하기 위해 문자 분할을 전 처리 단계에 필요로 하는데, 문자 분할은 높은 수행력을 위해 문자 인식 결과를 필요로 한다. 이 딜레마를 해결하기 위해서는 문자 분할과 문자 인식, 이 두 문제를 동시에 해결하는 방법이 필요하다. 이를 위해 본 논문에서는 문자 분할 전에 접합 문자 내에 있는 소속 문자를 인식하고 문자를 분할하는 새로운 문자 분할 방법을 제시한다. 본 연구에서 제시한 문자 분할 알고리즘은 접합 문자 내에 있는 소속 문자를 문자 분할 전에 인식하기 위해 측면 윤곽을 정의하고, 그 히스토그램을 구해 프로토타입에 있는 단일 문자의 측면 윤곽 히스토그램과 비교 계산하여 가장 적은 거리차를 가지는 단일 문자를 분할 문자의 일차 후보로 내정하여, 분할 비용을 가지고 접합문자를 분할한다.

  • PDF

Nonlinear Character Segmentation and Recognition Using Topographic Features in Hangul String Images (한글 문자열 영상의 지형적 특징을 이용한 비선형 문자 분할 및 인식)

  • Lee, Dong-June;Lee, Seong-Whan
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.201-206
    • /
    • 1994
  • 문서 인식 시스템의 성능을 저하시키는 가장 큰 원인 중의 하나로 문자 분할 오류를 들 수 있는데 보다 우수한 성능의 문서 인식 시스템 개발을 위해서는 정확한 문자 분할 방법이 절실히 요구된다. 기존의 문자 분할에 관한 연구들은 이진 영상을 대상으로 함으로써 접촉되거나 겹치는 문자의 경계 부분에서 문자 분할에 유용한 정보들을 잃어 문자 분할 오류를 초래할 수 있다. 하지만 명도 영상을 분석해 보면 문자의 접촉 부분에서 주로 나타나는 지형적 특징이 있으며, 문자 경계에서 명도값이 변하는 것을 관찰할 수 있는데 이와같은 명도 영상의 정보를 사용하면 보다 효과적으로 문자를 분할할 수 있을 것으로 판단된다. 본 연구에서는 이러한 점에 착안하여 명도 영상으로부터 지형적 특징을 추출하고 다단계 그래프 탐색 방법을 이용하여 명도값을 추적함으로써 비선형 문자 경계를 찾는 새로운 문자 분할 방법을 제안한다. 제안된 방법은 명도 문자열 영상을 입력으로 받아 명도 영상의 투영값과 명도 영상으로부터 추출된 지형적 특성을 이용하여 문자 분할 영역을 결정하고 문자 분할 영역내에서 다단계 그래프 탐색에 의한 비선형 문자 분할 경로를 찾는다. 그리고 문자 인식기와 결항하여 최종 문자 분할 위치를 확정하는 인식 결과를 이용한 문자 분할을 수행함으로써 문자 분할 위치 및 문자 인식 결과를 확정한다. 다양한 문서에 대한 실험 결과 제안된 방법이 이진 정보만을 사용하는 방법보다 접촉 혹은 겹친 문자 분할에 매우 효과적임을 알 수 있었다.

  • PDF

Character Segmentation Using Side Profile Pattern (측면 윤곽 패턴을 이용한 접합 문자 분할법)

  • 정민철
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.4 no.3
    • /
    • pp.248-251
    • /
    • 2003
  • In this paper, a new segmentation method of machine printed character string with arbitrary length is proposed. Character recognition requires character segmentation as a previous step. However character segmentation itself requires a character recognition capability for less error segmentation. It is necessary to attack both these problem simultaneously. It is proposed that a new recognition-based segmentation method, which recognizes a character in touching characters with help of defined side-profiles. The match of ‘side-profiles of touching characters' with ‘side-profiles of prototypes' gives single character candidates in touching characters. It segments touching characters according to cutting costs.

  • PDF

Character Segmentation with Segmentation Cost in Optical Character Recognition (문자 인식에서 분할 비용에 따른 문자 분할 연구)

  • Jung Minchul
    • Proceedings of the KAIS Fall Conference
    • /
    • 2004.06a
    • /
    • pp.179-181
    • /
    • 2004
  • 인쇄체 문자 인식에서 접합 문자는 주요한 에러 발생의 원인이다. 본 논문에서는 접합 문자를 분할하기 위해 두 개의 분할 비용을 정의한다. 첫째, 절단 비용은 한 패턴을 분할하는 데 얼마나 많은 블랙픽셀이 분리되어야 하는가이다. 둘째, 접선 비용은 분할선이 얼마나 많은 블랙 픽셀과 화이트 픽셀사이를 지나가는가이다. 폰트 분류기는 접합 문자의 후보 문자를 제공한다. 후보 문자의 문자 폭은 접합 문자를 분리하기 위한 기준선을 제공하며, 그 기준선 부근의 픽셀들이 분할 가능 영역을 나타낸다. 절단 비용의 최소값과 접선 비용의 최대값이 되는 지점이 최종적으로 접합 문자를 분할하는 위치이다. 이렇게 정의된 절단 비용과 접선 비용을 가지고 접합 문자를 분할하면 보다 정확한 문자 분할을 하여 문자 인식에서 에러 발생을 줄일 수 있다.

  • PDF

Virtual Segmentation Path Construction for Unconstrained Handwritten Hangul Segmentation (무제약 필기체 한글분할을 위한 가상 분할경로 생성)

  • 박성호;조범준
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2004.05a
    • /
    • pp.827-830
    • /
    • 2004
  • 현재까지도 대부분의 필기체 한글 인식은 완벽한 분할을 가정하여 개발되고 있으며 한글 분할 그 자체에 대한 관심은 매우 낮은 편이다. 또한 한글은 자소의 모아쓰기 형태를 갖고 있어 문자내에 여백이 존재할 뿐만 아니라 문자와 문자 사이의 접촉되는 특징이 흔히 발생되기 때문에 기존의 영문자에 사용된 방법을 그대로 직접 적용하기에는 많은 어려움이 있다. 본 논문에서는 무제약 필기체 한글을 분할하기 위하여 가상 분할경로를 이용하는 방법을 제안한다. 제안된 방법은 기존의 분할 방법들이 갖는 직선화된 분할경로 뿐만 아니라 문자내에 존재하는 여백의 정보를 활용하여 꺽은선 분할경로를 주로 이용하는데 특징이 있다. 분할과정은 크게 2단계로 구성되는데 첫 번째 단계는 입력받은 한글 문자열에 대한 전처리 과정과 수직투영을 통해 직선화된 분할경로를 찾고 이에 따라 쉽게 분할 가능한 문자와 중첩되거나 접촉된 문자를 구분하여 다음 단계의 분할대상으로 결정한다. 두 번째 단계에서는 다양한 가상의 꺽은선 분할경로를 생성하기 위하여 각 문자에서 특징점을 추출하고, 인접한 특징점들 간의 무게 중심점을 찾아서 더 세밀한 경로 생성을 함으로서 가장 최상의 분할경로를 결정한다.

  • PDF

Language Recognition for Effective Character Segmentation in the mixed Korean-English Documents (한영 혼용 문서에서의 효과적인 문자 분할을 위한 언어 인식에 관한 연구)

  • Choi, Won-Hyo;Yang, Byoung-Seok;Sung, Ki-Joon;Kang, Jae-Woo;Ha, Jin-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.439-444
    • /
    • 2008
  • 본 논문은 한영 혼용 문서에서의 문자 분할을 위한 효율적인 언어 인식기를 고안하였다. 한영 혼용 문서를 스캔한 후, OCR(광학 문자 판독, Optical Character Recognition)을 할 때, 문자 분할의 중요성은 상당히 크다. 인식 없이 문자를 분할하는 external segmentation 방법에서는, 인식할 언어가 한글 혹은 영어인가에 따라 문자 분할 방법이 달라진다. 그러므로, 한영 혼용 이미지를 인식하기 위해서 문자 분할을 하기 전에 언어를 미리 결정해야 한다. 본 논문에서는 문자 분할 방법을 효율적으로 하기 위한 언어 인식기를 제안하고 그 방법을 적용하였다. 그 결과 한영 혼용된 책 이미지에서 94.09%의 문자 분할 성공률을 보였다.

  • PDF

Character Segmentation on Printed Korean Document Images Using a Simplification of Projection Profiles (투영 프로파일의 간략화 방법을 이용한 인쇄체 한글 문서 영상에서의 문자 분할)

  • Park Sang-Cheol;Kim Soo-Hyung
    • The KIPS Transactions:PartB
    • /
    • v.13B no.2 s.105
    • /
    • pp.89-96
    • /
    • 2006
  • In this paper, we propose two approaches for the character segmentation on Korean document images. One is an improved version of a projection profile-based algorithm. It involves estimating the number of characters, obtaining the split points and then searching for each character's boundary, and selecting the best segmentation result. The other is developed for low quality document images where adjacent characters are connected. In this case, parts of the projection profile are cut to resolve the connection between the characters. This is called ${\alpha}$-cut. Afterwards, the revised former segmentation procedure is conducted. The two approaches have been tested with 43,572 low-quality Korean word images punted in various font styles. The segmentation accuracies of the former and the latter are 91.81% and 99.57%, respectively. This result shows that the proposed algorithm using a ${\alpha}$-cut is effective for low-quality Korean document images.

Page Layout Analysis and Text Segmentation in Document Image (문서영상의 레이아웃 분석과 문자 분할)

  • Choi, Jae-Hyung;Cho, Nam-Ik
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.07a
    • /
    • pp.71-74
    • /
    • 2012
  • 본 논문에서는 새로운 문자 분할 알고리즘을 제안한다. 고전적인 문자 분할 알고리즘은 학술적인 문서영상과 같이 단순한 구조를 가진 문서영상을 대상으로 하여 좋은 성능을 보였지만 다양한 문자 크기와 색상, 그림, 복잡한 배경 등으로 구성된 문서영상에서는 좋지 못한 성능을 보인다. 최근에 제안고 있는 방법들은 복잡한 문서영상에서도 좋은 성능을 보이도록 다양한 기법들을 적용하여 우수한 성능을 보이고 있지만, 대부분의 방법들이 영상을 일정한 크기의 블록으로 나누어 문자분할을 하기 때문에 세밀한 부분에서는 성능이 어느 정도 한계를 보인다. 따라서 본 논문에서는 블록의 크기에 제한을 갖지 않는 새로운 방법으로서, watershed 알고리즘을 이용한 문자분할 방법을 제시한다. 구체적으로, watershed 알고리즘을 이용하여 문서영상의 구조(docstrum)를 파악하고 이를 기반으로 문자를 분할한다. 제안하는 방법은 크게 엣지 검출, distance transform, watershed 알고리즘을 이용한 docstrum 분석, 문자 분할의 네 단계를 거친다. 실험 결과 블록에 기반한 기존의 방법들이 놓치는 세밀한 부분에서도 제안된 알고리즘은 올바른 분할결과를 얻을 수 있음을 확인하였다.

  • PDF

Character Segmentation using Side Profile Pattern (측면윤곽 패턴을 이용한 접합 문자 분할 연구)

  • Jung Minchul
    • Journal of Intelligence and Information Systems
    • /
    • v.10 no.3
    • /
    • pp.1-10
    • /
    • 2004
  • In this paper, a new character segmentation algorithm of machine printed character recognition is proposed. The new approach of the proposed character segmentation algorithm overcomes the weak points of both feature-based approaches and recognition-based approaches in character segmentation. This paper defines side profiles of touching characters. The character segmentation algorithm gives a candidate single character in touching characters by side profiles, without any help of character recognizer. It segments touching characters and decides the candidate single character by side profiles. This paper also defines cutting cost, which makes the proposed character segmentation find an optimal segmenting path. The performance of the proposed character segmentation algorithm in this paper has been obtained using a real envelope reader system, which can recognize addresses in U.S. mail pieces and sort the mail pieces. 3359 mail pieces were tested. The improvement was from $68.92\%\;to\;80.08\%$ by the proposed character segmentation.

  • PDF

A Method of Character String Segmentation using Histogram Analysis (히스토그램 분석 기반의 인쇄체 문자열 분할 방법)

  • 장승익;임길택;남윤석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.532-534
    • /
    • 2003
  • 본 논문에서는 인쇄체 우편주소 영상에서 smearing과 히스토그램 분석을 이용한 고속의 문자열 기울기 보정 및 분할 방법을 제안하였다. 제안한 방법에서는 입력 영상을 가분할 하고, 각각의 가분할 영상에 대한 수평 히스토그램을 분석하여 기울기 측정 및 보정을 수행하였다. 문자열 분할 단계에서는, 기울기가 보정된 영상에 smearing을 수행하고, 영상에 존재하는 잡영 및 각종 바코드를 제거하고, 수평 히스토그램 분석을 통해 최종 문자열 분할 결과를 도출하였다. 제안한 방법을 사용한 실험에서 2,000 장의 테스트 영상 중 1,989장의 영상에서 정확한 문자분할 결과를 얻을 수 있었으며, 제안한 방법이 유효함을 보였다.

  • PDF