• 제목/요약/키워드: Character segmentation

검색결과 172건 처리시간 0.028초

A Methodology for Urdu Word Segmentation using Ligature and Word Probabilities

  • Khan, Yunus;Nagar, Chetan;Kaushal, Devendra S.
    • International Journal of Ocean System Engineering
    • /
    • 제2권1호
    • /
    • pp.24-31
    • /
    • 2012
  • This paper introduce a technique for Word segmentation for the handwritten recognition of Urdu script. Word segmentation or word tokenization is a primary technique for understanding the sentences written in Urdu language. Several techniques are available for word segmentation in other languages but not much work has been done for word segmentation of Urdu Optical Character Recognition (OCR) System. A method is proposed for word segmentation in this paper. It finds the boundaries of words in a sequence of ligatures using probabilistic formulas, by utilizing the knowledge of collocation of ligatures and words in the corpus. The word identification rate using this technique is 97.10% with 66.63% unknown words identification rate.

한국어 문서로부터 문자분리 및 도형추출에 관한 연구 (A Study on the Korean Character Segmentation and Picture Extraction from a Document)

  • ;류황빈
    • 대한전자공학회논문지
    • /
    • 제25권9호
    • /
    • pp.1091-1101
    • /
    • 1988
  • In this paper, a method to segment each character and extract figure from Korean documents is proposed. At first, each character string is extracted by means of iterative horizontal propagation, shrink algorithm and run-length algorithm. Individual character region is extracted by iterative horizontal and vertical manipulation. Next, characters of right pitch are searched. Each character is segmented by the position information. Overlapped character is segmented on the ground of the width of already extracted character. The rest are extracted as special characters of half pitch. Using 9 data input in the form of 840 X 600 from Korean monthly magazine, experiment was simulated. Extraction rate of character is 100%, and that of individual character is 98%. Judging from these results, efficiency on extracting character region and segmenting individual character is proved.

  • PDF

증강현실을 이용한 한글의 색상 인식과 자소 패턴 분리 (Color Recognition and Phoneme Pattern Segmentation of Hangeul Using Augmented Reality)

  • 신성윤;최병석;이양원
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권6호
    • /
    • pp.29-35
    • /
    • 2010
  • 증강현실은 저렴한 장비의 보급으로 영상의 사용이 다양화 되면서, 실세계의 영상에 추가적인 이미지 및 영상을 출력할 수 있다. 최근 많은 증강현실 기법이 등장해 있으나 아직까지 정확한 문자 인식을 수행하지는 않고 있다. 본 논문에서는 시각적으로 글자로 표시된 마커를 인식하고, 마커의 글자의 색상과 일치하는 색을 찾아낸다. 그리고 그 글자를 인식하여 화면에 나타내 주는데, 본 논문에서는 수평 프로젝션에 의한 자소 패턴 분리 알고리즘을 적용하여 한글 표현의 6형식에 맞도록 자소를 분리하는 방법을 제시한다. 또한 증강 현실을 이용한 자소 패턴 분리를 실험 예제를 통하여 각 단계별로 진행되는 결과를 보여주었고, 실험 결과 검출률이 90% 이상임을 알 수 있었다.

SSD-Mobilenet과 ResNet을 이용한 모바일 기기용 자동차 번호판 인식시스템 (Vehicle License Plate Recognition System using SSD-Mobilenet and ResNet for Mobile Device)

  • 김운기;;조성원
    • 스마트미디어저널
    • /
    • 제9권2호
    • /
    • pp.92-98
    • /
    • 2020
  • 본 논문은 고성능의 서버 없이 안드로이드 스마트폰 단독으로 동작할 수 있도록 경량화 딥러닝 모델을 사용하여 구현한 자동차 번호판 인식 시스템을 제안한다. 자동차 번호판 인식시스템은 [번호판검출]-[문자영역 분할]-[문자인식]으로 3단계의 과정으로 구성되며, 번호판검출은 SSD-Mobilenet, 문자영역 분할은 ResNet에 localization을 추가하여 사용하였고 문자인식은 ResNet을 이용하여 구현하였다. 테스트한 기기는 삼성 갤럭시 S7, LG Q9이며 정확도는 약 85.3%, 실행속도는 약 1.1초가 소요된다.

Multi-Style License Plate Recognition System using K-Nearest Neighbors

  • Park, Soungsill;Yoon, Hyoseok;Park, Seho
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권5호
    • /
    • pp.2509-2528
    • /
    • 2019
  • There are various styles of license plates for different countries and use cases that require style-specific methods. In this paper, we propose and illustrate a multi-style license plate recognition system. The proposed system performs a series of processes for license plate candidates detection, structure classification, character segmentation and character recognition, respectively. Specifically, we introduce a license plate structure classification process to identify its style that precedes character segmentation and recognition processes. We use a K-Nearest Neighbors algorithm with pre-training steps to recognize numbers and characters on multi-style license plates. To show feasibility of our multi-style license plate recognition system, we evaluate our system for multi-style license plates covering single line, double line, different backgrounds and character colors on Korean and the U.S. license plates. For the evaluation of Korean license plate recognition, we used a 50 minutes long input video that contains 138 vehicles of 6 different license plate styles, where each frame of the video is processed through a series of license plate recognition processes. From two experiments results, we show that various LP styles can be recognized under 50 ms processing time and with over 99% accuracy, and can be extended through additional learning and training steps.

문자열을 포함하는 자연 영상에서의 효과적인 문자 추출 기법 (Efficient Character Segmentation Technique in the Natuaral Images Containing Character Sequences)

  • 김종호;박상현;강의성
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 추계학술대회
    • /
    • pp.907-910
    • /
    • 2011
  • 제철소에서 생산된 철판의 물류 자동화 시스템을 구축하는데 있어 각 철판에 기록된 정보를 정확하게 파악하여 효과적인 적재 및 운반 시스템을 갖추는 것이 관건이다. 이를 위하여 본 논문에서는 생산 및 운반 정보가 기록된 철판 영상을 분석하여 자동화 시스템을 구축하기 위한 문자 추출 기법을 제안한다. 철판 영상은 가로 방향으로 철판의 정보를 나타내는 문자열을 포함하고 있고, 이러한 문자열이 세로 방향으로 배치되어 있기 때문에 각 문자를 분리하기 위해서는 2차원 기법을 적용하도록 한다. 영상을 획득하는 환경에 따라 문자 분리 성능에 미치는 영향을 최소화하기 위하여 국부 특징을 반영한 효율적인 이진화 기법을 제안하고, 잡음 등에 민감한 특성을 제거하기 위하여 CCA(Connected Component Analysis)를 이용한 문자 여부를 판단하는 방법을 제안한다. 이렇게 분석된 영상에 대해 2차원 투영 기법을 적용하여 철판에 기록된 각 문자를 정확하게 분리하도록 한다. 제안된 문자 추출 기법은 높은 성능을 나타내면서도 저 복잡도를 가지도록 설계하여 제한된 자원을 이용하는 기기에 효과적으로 응용될 수 있다.

  • PDF

레이블링기법을 이용한 문자 추출과 인식에 관한 연구 (A Study on the Character Extraction and Recognition using Labeling Method)

  • 원혜경;김용;이규훈;조규만;이은영
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2002년도 하계학술대회 논문집 D
    • /
    • pp.2515-2517
    • /
    • 2002
  • The process of character recognition goes through 5 steps; image acquisition, character region extraction, preprocessing, character region segmentation, character recognition. Therefore the final recognition rate of character recognition is directly affected by the performance of each step. This paper is a leading research for object recognition using image processing algorithm which is one of the field of study in computer vision. And this paper will suggest an algorithm to extract the portion of number chain, which is part of the research embodying a system to perceive the data of manufacture and the name of the producer on the wrapping of groceries. In addition, this can extract the number chain comparatively accurate without using many complex algorithm by diving and extracting the moving number region at the same time.

  • PDF

Watershed 변환을 이용한 효율적인 문자 영상 향상 및 영역 분할 (An Efficient Character Image Enhancement and Region Segmentation Using Watershed Transformation)

  • 최영규;이상범
    • 정보처리학회논문지B
    • /
    • 제9B권4호
    • /
    • pp.481-490
    • /
    • 2002
  • 오프라인 필기체 문자 인식은 동적인 정보를 가지고 있지 않고, 다양한 필기와 자음과 모음의 겹침이 심하며, 획 사이의 잡영을 많이 가지고 있어 불완전한 전처리를 수행하여야 하는 어려움이 있다. 따라서 오프라인 필기체 문자 인식은 다양한 방법의 전처리 즉 이진화 및 세선화에 대한 연구가 필요하다. 본 논문에서는 오프라인 필기체 한글 문자 인식의 전처리로서 워터쉐드 알고리즘의 수행 시간과 결과 영상의 품질을 고려해 그레이 레벨 문자 영상에서의 문자 영역과 배경 영역의 분할을 위한 효과적인 워터쉐드 알고리즘의 적용 방법과 추출된 워터쉐드 영상을 이진화하는 분할 함수를 제안한다. 또한 수행 시간과 골격선의 품질을 고려한 조건 검사 마스크를 통해서 효과적으로 골격선을 추출하는 세선화 방법을 제안하고 기존의 방법과 본 논문 방법을 수행 시간과 품질로써 성능을 평가한다. 실험 결과 기존의 방법은 평균 2.16초, 본 논문 방법은 평균 1.72초의 수행 시간이 걸렸다. 또한 결과 영상의 품질은 본 논문 방법이 문자 획 사이의 잡영을 효과적으로 처리함을 알 수 있었다.

한영 혼용 문서에서의 효과적인 문자 분할을 위한 언어 인식에 관한 연구 (Language Recognition for Effective Character Segmentation in the mixed Korean-English Documents)

  • 최원효;양병석;성기준;강재우;하진영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.439-444
    • /
    • 2008
  • 본 논문은 한영 혼용 문서에서의 문자 분할을 위한 효율적인 언어 인식기를 고안하였다. 한영 혼용 문서를 스캔한 후, OCR(광학 문자 판독, Optical Character Recognition)을 할 때, 문자 분할의 중요성은 상당히 크다. 인식 없이 문자를 분할하는 external segmentation 방법에서는, 인식할 언어가 한글 혹은 영어인가에 따라 문자 분할 방법이 달라진다. 그러므로, 한영 혼용 이미지를 인식하기 위해서 문자 분할을 하기 전에 언어를 미리 결정해야 한다. 본 논문에서는 문자 분할 방법을 효율적으로 하기 위한 언어 인식기를 제안하고 그 방법을 적용하였다. 그 결과 한영 혼용된 책 이미지에서 94.09%의 문자 분할 성공률을 보였다.

  • PDF

문자 인식에서 분할 비용에 따른 문자 분할 연구 (Character Segmentation with Segmentation Cost in Optical Character Recognition)

  • 정민철
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2004년도 춘계학술대회
    • /
    • pp.179-181
    • /
    • 2004
  • 인쇄체 문자 인식에서 접합 문자는 주요한 에러 발생의 원인이다. 본 논문에서는 접합 문자를 분할하기 위해 두 개의 분할 비용을 정의한다. 첫째, 절단 비용은 한 패턴을 분할하는 데 얼마나 많은 블랙픽셀이 분리되어야 하는가이다. 둘째, 접선 비용은 분할선이 얼마나 많은 블랙 픽셀과 화이트 픽셀사이를 지나가는가이다. 폰트 분류기는 접합 문자의 후보 문자를 제공한다. 후보 문자의 문자 폭은 접합 문자를 분리하기 위한 기준선을 제공하며, 그 기준선 부근의 픽셀들이 분할 가능 영역을 나타낸다. 절단 비용의 최소값과 접선 비용의 최대값이 되는 지점이 최종적으로 접합 문자를 분할하는 위치이다. 이렇게 정의된 절단 비용과 접선 비용을 가지고 접합 문자를 분할하면 보다 정확한 문자 분할을 하여 문자 인식에서 에러 발생을 줄일 수 있다.

  • PDF