• Title/Summary/Keyword: 문자 분할

Search Result 218, Processing Time 0.025 seconds

Post-processing of Hangul Recognition for Discriminating Pairs of Characters (유사 문자쌍을 구분하기 위한 한글 인식의 후처리)

  • Jang, Seung-Ick;Kim, Jin-Hyung
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.388-393
    • /
    • 2001
  • 유사한 형태의 필기 한글 문자쌍은 한글 인식 시 발생하는 오류의 많은 부분을 차지한다. 이는 유사한 문자들의 작은 차이를 인식기가 충분히 반영하기 어렵기 때문이다. 본 논문에서는 최근 주목 받고 있는 Support Vector Machine을 이용해 유사한 문자쌍을 검증하는 한글 인식 후처리 방법을 제안한다. 제안하는 방법은, 대부분의 문자 유사쌍이 한 두개의 자모만이 상이한 점에 착안하여 자모 단위로 문자 유사쌍을 구분한다. 기존 랜덤그래프를 이용한 한글 인식기를 이용하여 자모 분할을 수행하고, Support Vector Machine을 이용하여 분할된 결과를 검증한다. 제안한 방법은 유사쌍 구분에 중요한 자모만을 선택적으로 고려하여, 기존 한글 인식기의 부족한 점을 보완한다. 실험 결과, 자주 혼동되는 문자쌍들의 인식 오류가 정정되는 것을 볼 수 있었으며 그에 따라 한글 인식의 전체 성능이 향상되었다.

  • PDF

Multi Characters Detection Using Color Segmentation and LoG operator characteristics in Natural Scene (자연영상에서 컬러분할과 LoG연산특성을 이용한 다중 문자 검출에 관한 연구)

  • Shin, Seong;Baek, Young-Hyun;Moon, Sung-Ryong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.2
    • /
    • pp.216-222
    • /
    • 2008
  • This paper proposed the multi characters detection algorithm using Color segmentation and the closing curve feature of LoG Operator in order to complement the demerit of the existing research which is weak in complexity of background, variety of light and disordered line and similarity of left and background color, etc. The proposed multi characters detection algorithm divided into three parts : The feature detection, characters format and characters detection Parts in order to be possible to apply to image of various feature. After preprocess that the new multi characters detection algorithm that proposed in this paper used wavelet, morphology, hough transform which is the synthesis logical model in order to raise detection rate by acquiring the non-perfection characters as well as the perfection characters with processing OR operation after processing each color area by AND operation sequentially. And the proposal algorithm is simulated with natural images which include natural character area regardless of size, resolution and slant and so on of image. And the proposal algorithm in this paper is confirmed to an excellent detection rate by compared with the conventional detection algorithm in same image.

Pattern Segmentation of Low-quality Images using Active Multiple Template (능동 다중 템플레이트에 의한 저화질 패턴 분할)

  • Ahn, In-Mo;Lee, Kee-Sang;Hur, Hak-Bom
    • Proceedings of the KIEE Conference
    • /
    • 2003.07d
    • /
    • pp.2555-2557
    • /
    • 2003
  • 본 논문에서는 열화된 이미지상에서의 자동 패턴 분할을 위해 농담 정규화 정합(NGC)법과 다중 템플레이트를 이용하여 검사 이미지내의 각 문자의 정합 계수치 합을 이용한 문자나 패턴을 자동으로 분할(segmentation)하는 알고리즘을 제안한다. 전통적인 NGC를 사용하는 검사 알고리즘은 기준 패턴의 기하학적인 level 값에 의해 계산되어 지기 때문에 검사 이미지의 획득이 불완전하다면 정합의 부독율(reject rate)은 높아진다. 제안한 알고리즘은 가시화가 좋지 않은 영상 회득 시 문자부와 배경부를 효과적으로 자동으로 분류하며 이미지 영역내의 정보와 정규화 된 상관관계를 이용하여 실제 영상에 적용시켜 제안된 알고리즘의 검증을 목표로 한다.

  • PDF

A Study on Documentization of Printed Hangul Image with Multi-size and Multi-style (다양한 크기 및 활자체를 갖는 인쇄체 한글 영상의 문서화에 관한 연구)

  • 김장욱;김경숙;손영선
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2001.12a
    • /
    • pp.295-298
    • /
    • 2001
  • 본 논문에서는 CCD카메라로 입력 받은 다중 크기 및 활자체로 구성된 한글문서의 화상 데이터를 편집기에서 수정 가능한 문자로 변환시키는 시스템을 구현하였다. 먼저 Dynamic 이 진화 처리 과정을 거친 화상을 흑백 화소의 누적분포에 따라 문자단위로 분할한 후, 다양한 크기로 분할된 문자를 표준패턴 크기로 표준화 시켰다. 한글을 자소 간 공백 위치의 특징에 따라서 6가지 유형으로 분류한 후, 퍼지 이론을 접목시킨 원형 패턴 벡터 알고리즘을 사용해서 표준벡터와 입력된 글자의 특징벡터를 비교하여 문자로 인식하게 하였다. 각 6가지 유형에서 서로 다른 자소로 결합된 문자들을 30개 선정하여 여러 가지 활자체 및 크기에 적용해 본 결과, 모두 문서화가 가능함을 알 수 있었다.

  • PDF

Vehicle License Plate Extraction using Multi-level Image Processing Methods (다단계 영상처리 기법을 이용한 차량번호판 추출방법)

  • Ahn, Woon-Ki;Chang, Jae-Khun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11a
    • /
    • pp.275-278
    • /
    • 2003
  • 자동차 번호판 인식 시스템은 영상획득, 번호판추출, 전처리(이진화), 문자영역 분할, 문자인식 등의 5가지 핵심 부분으로 구성된다. 따라서 자동차 번호판 인식 시스템의 최종 인식율은 각 단계의 성능에 따라 직접적인 영향을 받는다. 본 논문은 영상처리 기법을 이용하여 영상에서 번호판 영역을 추출을 위한 연구로 문자인식 단계에서 높은 인식율을 확보할 수 있도록 빠른 연산속도와 추출 정확성을 높일 수 있는 알고리즘을 제안한다.

  • PDF

An Approach to Segmentation of Address Strings of unconstrained handwritten Hangul using Run-Length Code (Rum-Length code를 이용한 제약없이 쓰여진 한글 필기체 주소열 분할)

  • Kim, Gyeonghwan;Yoon, Jason-J
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.11
    • /
    • pp.813-821
    • /
    • 2001
  • While recognition of isolated units of writing, such as a character or a word, has been extensively studied, emphasis on the segmentation itself has been lacking. In this paper we propose an active segmentation method for handwritten Hangul address strings based on the Run-length code. A slant correction algorithm, which is considered as an important preprocessing step for the segmentation, is presented. Three fundamental candidate estimation functions are introduced to detect the clues on touching points, and the classification of touching types is attempted depending on the structural peculiarity of Hangul. Our experiments show segmentation performance of 88.2% on touching characters with minimal over-segmentation.

  • PDF

Practical Page Segmentation using Connected Components and Color Information (연결요소와 색상정보를 이용한 실제적 문서영상 분할)

  • Kim, Pyeoung-Kee
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.1
    • /
    • pp.273-285
    • /
    • 2000
  • While page segmentation is an important step in document recognition, there haven's been many researches on it. More improvement is still needed on the segmentation of document elements in complicated or color documents. In this paper, I present a new page segmentation method which can segment pages with multiple columns, dotted lines, graphics, and photographs. I extract all connected components using contour following and combine them depending on the size and positional information of them. Separate text location is done for non-text color regions to extract possible text lines. To see the performance of the proposed method, experiments are done for 180 documents. Four commercial OCR programs are also tested and the proposed method showed the best result.

  • PDF

Shape Decomposition of Handwritten Hangul Characters (필기 한글 문자의 모양 분해)

  • Park, Jeong-Seon;Hong, Gi-Cheon;O, Il-Seok
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.7
    • /
    • pp.511-523
    • /
    • 2001
  • 필기 한글의 문자나 단어 인식에 있어 패턴을 구성하는 획 성분을 추출하는 작업은 매우 중요하다. 세선화와 직선근사에 기반한 고전적인 방법은 원래 패턴을 크게 왜곡한다는 단점을 가지고 있다. 우리는 이러한 문제점을 해결하기 위하여 한글 패턴에 적합한 모양 분해 알고리즘을 제안한다. 한글 패턴은 T-접점과 B-접점이라는 두가지 모양 특징을 중심으로 분할할 수 있다고 관찰에 근거하여 알고리즘을 설계하였다. 또한 세 개 이상의 획이 복잡한 형태로 만나는 결합 지점을 강전하게 처리하는 방법도 제시한다. 제안한 알고리즘을 PE92 데이터베이스에 적용한 결과를 제시한다.

  • PDF

Development of a Multiple Templates Method segmenting object ID number far visual inspection in FA process (FA 공정에서의 제품 ID 마크 자동분할을 위한 다중 템플릿 알고리즘 개발)

  • 강동중;유동훈;김문조
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.05b
    • /
    • pp.579-582
    • /
    • 2003
  • 본 논문은 열화된 영상에서 문자 패턴의 자동 분할을 위해 농담정규화상관(NGC)법과 다중 템플릿을 이용하는 알고리즘을 제안한다. 기존의 NGC를 사용하는 검사 알고리즘은 환경조건의 영향으로 검사 영상의 획득이 불완전하다면 정합의 부독율(rejection rate)이 높아진다. 다중 템플릿의 상관관계를 이용하는 제안된 방법은 가시화가 졸지 않은 경우에도 문자부와 배경부를 효과적으로 분할하며, 이러한 방법을 실제 자동화 공정에서 획득된 영상을 이용하여 제안된 알고리즘을 적용하는 것을 목표로 한다.

  • PDF

Weighted Disassemble-based Correction Method to Improve Recognition Rates of Korean Text in Signboard Images (간판영상에서 한글 인식 성능향상을 위한 가중치 기반 음소 단위 분할 교정)

  • Lee, Myung-Hun;Yang, Hyung-Jeong;Kim, Soo-Hyung;Lee, Guee-Sang;Kim, Sun-Hee
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.2
    • /
    • pp.105-115
    • /
    • 2012
  • In this paper, we propose a correction method using phoneme unit segmentation to solve misrecognition of Korean Texts in signboard images using weighted Disassemble Levenshtein Distance. The proposed method calculates distances of recognized texts which are segmented into phoneme units and detects the best matched texts from signboard text database. For verifying the efficiency of the proposed method, a database dictionary is built using 1.3 million words of nationwide signboard through removing duplicated words. We compared the proposed method to Levenshtein Distance and Disassemble Levenshtein Distance which are common representative text string comparison algorithms. As a result, the proposed method based on weighted Disassemble Levenshtein Distance represents an improvement in recognition rates 29.85% and 6% on average compared to that of conventional methods, respectively.