• Title/Summary/Keyword: 문자 이진화

Search Result 125, Processing Time 0.029 seconds

Design and Implementation Automatic Character Set Encoding Recognition Method for Document File (문서 파일의 문자 인코딩 자동 인식 기법의 설계 및 구현)

  • Seo, Min-Ji;Kim, Myung-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.95-98
    • /
    • 2015
  • 문자 인코딩은 컴퓨터에 저장하거나 네트워크상에서 전송하기 위해 문서를 이진화 하는 방법이다. 문자 인코딩은 고유의 문자 코드 테이블을 이용하여 문서를 이진화 하기 때문에, 문서에 적용된 문자 인코딩과 다른 문자 인코딩을 이용하여 디코딩 하면 원본과 다른 문서가 출력되어 문서를 읽을 수 없게 된다. 따라서 문서를 읽기 위해서는 문서에 적용된 문자 인코딩을 알아내야 한다. 본 논문에서는 문서의 문자 인코딩을 자동으로 판별하는 방법을 제시한다. 제안하는 방법은 이스케이프 문자를 이용한 판별법, 문서에 나타난 코드 값 범위 판별법, 문서에 나타난 코드 값의 특징 판별법, 단어 데이터베이스를 이용한 판별법과 같은 여러 단계를 걸쳐 문서에 적용된 문자 인코딩을 판별한다. 제안하는 방법은 문서를 언어별로 분류하여 문자 인코딩을 판별하기 때문에, 높은 문자 인코딩 인식률을 보인다.

Nonlinear Shape Normalization Algorithms for Gray-Scale Handwritten Hangul Images (명도 한글 글씨 영상에서의 비선형 형태 정규화 알고리즘)

  • Kim, Sang-Yup;Kim, Dae-In;Lee, Seong-Whan
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.98-104
    • /
    • 1996
  • 일반적으로 비선형 형태 정규화 과정은 필기체 문자에서 발생하는 형태 변형을 보상하기 위하여 사용되며, 현재까지 이진 영상에 대한 비선형 형태 정규화 방법들이 제안되었다. 그러나 현존하는 대부분의 문자 인식 시스템은 스캐너를 통하여 입력된 명도 문자영상을 이진화하여 사용하고 있기 때문에 이진화로 인해 야기되는 물자 영상에 대한 정보 유실 및 잡영 첨가 현상이 비선형 형태 정규화 과정에 누적되어 결과적으로 좋은 특징 추출 결과를 기대하기 어려운 실정이다. 본 연구에서는 이진화에 의한 정보의 손실을 최소화시키고, 필기체 문자에서 발생하는 다양한 형태 변형을 효과적으로 보상할 수 있는 명도 영상에서의 비선형 형태 정규화 방법을 제안한다. 제안된 명도 영상에서의 비선형 형태 정규화 방법들의 성능을 객관적으로 검증하기 위하여 처리 시간 및 복잡도 등을 기준으로 평가하였으며, 다양한 명도 한글 글씨 데이터에 대한 실험을 통하여 이진 영상에서의 비선형 형태 정규화 방법에 비해 제안된 방법이 변형이 심한 한글 글씨 데이타의 품질을 개선하는데 있어서 매우 효율적임을 확인할 수 있었다.

  • PDF

Determing intensity value of characters and backgrounds on caption (캡션 내 문자와 배경의 명암값 결정)

  • An, Kwon-Jae;Kim, Gye-Young
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2010.07a
    • /
    • pp.125-127
    • /
    • 2010
  • 본 논문에서는 동영상에서 비교적 단일 색상의 배경과 문자를 갖는 캡션을 문자인식을 위하여 문자와 배경간의 명암값 결정에 관한 내용이다. 먼저 캡션에 대해 그레이 스케일로 전환을 한 후, Otsu 방법[1]을 이용하여 이진화를 수행한다. 이 후 이진화 영상에서 흰색영역 검은색영역에 대해 각각 최대 내접 정사각형을 산출한다. 다음으로 각각의 영역에서 산출된 최대 내접 정사각형의 분산의 대소를 비교하여 문자영역과 배경영역을 결정한다. 이후 전역적인 잡음을 제거하기 문자영역에 대해 Otsu 방법을 이용하여 최종 문자영역을 결정한다. 제안된 방법의 문자영역의 명암값 결정 정확도는 약 99%로 매우 우수한 성능을 보였다.

  • PDF

A Study on Binarization Using Central Moment (센트럴 모멘트를 이용한 이진화에 대한 연구)

  • 백명규;조창석
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.11a
    • /
    • pp.298-301
    • /
    • 2003
  • 문자 인식 및 영상 인식 분야의 대부분의 연구들은 이진영상을 바탕으로 이루어진다. 영상인식에 있어서 이진화는 매우 중요한 전처리 과정이다. 현재 다양한 이진화 알고리즘들이 개발되었고, 아직도 이진화에 대한 많은 연구가 진행되고 있다. 본 논문에서는 센트럴 모멘트를 이용한 이진화로 얼굴 영상에서 특징을 추출하는데 있어서 보다 정확하고 깨끗한 이진영상을 얻는 방법을 연구하였다.

  • PDF

A Study on Character Extraction in Vehicle Number Plate and Character Recognition (자동차 번호판 영역의 문자추출과 인식에 관한 연구)

  • 김도형;이선화;김미숙;차의영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.338-340
    • /
    • 2000
  • 자동차 번호판 인식 시스템은 영상획득, 번호판 영역 추출, 추출된 번호판 영역의 전처리, 문자부분 영역화, 문자인식 등의 5가지 핵심부분으로 구성된다. 그 중에서도 번호판 영역 추출, 추출된 영역의 전처리, 문자부분 영역화의 정확성은 전체 시스템 인식률에 지대한 영향을 줄 수 있는 부분으로써 그 정확성이 요구된다. 이에 본 논문에서는 컴퓨터 비젼 분야 중의 하나인 영상처리 기법을 사용하여 명암의 변화에도 문자를 잘 추출할 수 있는 Dynamic Adaptive Threshold 방법을 사용하여 추출된 번호판 영역을 이진화하고, 정확하게 문자 부분을 영역화하기 위한 방법으로 누적분포와 번호판 문자배열 특성을 이용한 방법을 제안한다. 그리고 추출되어진 문자는 ART2 신경망을 이용하여 인식한다.

  • PDF

Text extraction from camera based document image (카메라 기반 문서영상에서의 문자 추출)

  • 박희주;김진호
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.8 no.2
    • /
    • pp.14-20
    • /
    • 2003
  • This paper presents a text extraction method of camera based document image. It is more difficult to recognize camera based document image in comparison with scanner based image because of segmentation problem due to variable lighting condition and versatile fonts. Both document binarization and character extraction are important processes to recognize camera based document image. After converting color image into grey level image, gray level normalization is used to extract character region independent of lighting condition and background image. Local adaptive binarization method is then used to extract character from the background after the removal of noise. In this character extraction step, the information of the horizontal and vertical projection and the connected components is used to extract character line, word region and character region. To evaluate the proposed method, we have experimented with documents mixed Hangul, English, symbols and digits of the ETRI database. An encouraging binarization and character extraction results have been obtained.

  • PDF

A Study on Preprocessing for Efficient Character Recognization of Shipping Container Image (운송 컨테이너 영상의 효율적인 문자인식을 위한 전처리에 관한 연구)

  • Choi, Jae-Young;Kim, Nak-Bin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.04a
    • /
    • pp.1077-1083
    • /
    • 2000
  • 본 논문은 운송 컨테이너 식별자의 자동화 처리를 위한 문자 인식의 단계중 최종 문자 인식 전단계 까지의 처리 과정을 컨테이너의 특성에 맞게 제안하였으며, 이러한 전처리 과정은 문자 인식 시스템의 성능에 중요한 영향을 미친다. 제안한 방법은 먼저 입력된 컨테이너 컬러 영상을 명암 영상으로 바꾸고 전체 영상중 인식에 필요한 식별자 영역만을 경계선 검출과 형태학적 연산을 이용하여 추출한다. 이어서 다양한 배경색과 문자색을 판단하여 일반 문서와 같이 일관성있게 통일한 후, DCT를 이용한 명암도별 이진영역으로 분할한 후에 Otsu방법과 새로운 이진화방법을 자동으로 선택하여 효율적인 이진화가 이루어지도록 하였다. 이렇게 얻어진 이진 영상은 문자인식 단계로 넘어갈 수 있도록 개별 문자로 분할한다. 이 방법은 컨테이너 영상의 불균등한 배경색과 잡음으로 인하여 문자인식에 오류가 생기는 단점을 보완하였으며 컨테이너 특성을 최대한 반영함으로써 효과적인 전처리 결과를 얻을 수 있었다. 또한, 제안한 방법의 응용은 컨테이너 이외의 다른 상황에서도 매우 효과적으로 사용될 수 있으리라 본다.

  • PDF

An Educational Matters Administration System on The Web by Using Image Recognition (영상 인식을 이용한 웹 환경에서의 학사 관리 시스템)

  • 김태경;허정환;윤형근;노영욱;김광백
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.05a
    • /
    • pp.203-209
    • /
    • 2002
  • 본 논문에서는 영상 처리 및 인식 기술을 학생증 영상 인식에 적용하여 학생증 영상을 인식하고 웹 환경에서 학생 정보를 관리할 수 있는 방법을 제안한다. 원 학생증 영상에 대해서 가장 밝은 픽셀과 가장 어두운 픽셀에 대한 평균 밝기 값을 임계치로 설정하여 원 영상을 이진화하여 수평 방향으로 히스토그램을 수행하고 학번의 위치 정보를 이용하여 학번 영 역을 추출한다. 추출된 학번 영 역의 잡음을 제거하기 위하여 3$\times$3 마스크를 적용한 최빈수 평활화(smothing)를 수행하여 잡음을 제거하고 수직 방향 히스토그램을 이용하여 개별 문자를 추출하고 정규화 한다. 개별 학번 인식은 인공 신경망의 자율학습 방법인 ARTI 알고리즘을 적용하여 학번 문자를 인식한다. 실험 결과에서는 제안된 학생증 인식 방법이 학번 영역 추출과 개별 문자 인식에 효율적인 것을 보이고 인식된 개련 문자들을 데이터 베이스에 저장하여 웹환경에서 학생정보를 관리한다

  • PDF

Image Preprocessing in Container Identifier Recognition System Using Multiple Threshold Regions (컨테이너 식별자 영상 인식 시스템에서 다중 임계영역을 이용한 영상 전처리)

  • Woo, Chong-Ho
    • Journal of Korea Multimedia Society
    • /
    • v.16 no.5
    • /
    • pp.549-557
    • /
    • 2013
  • This paper proposes a method using the multiple threshold regions in the image preprocessing procedure for container identifier recognition system. The multiple threshold regions are set by considering the container image characteristics and used as the candidates for the final one, The image is transformed to black and white images using these threshold regions, then labeling, panelling and panels merging are executed for each candidate, respectively. Finally the best threshold region is selected through this procedure and the character region can be extracted. Applying the similar method the noises are removed and the characters of identifier are segmented from the extracted region. In the experiments with 162 different images the success rates for extracting of the character region and segmenting the characters are 99.04% and 98.09%, respectively.

Character Extraction of Car License Plates using RGB Color Information and Fuzzy Binarization (RGB 컬러 정보와 퍼지 이진화를 이용한 차량 번호판의 개별 문자 추출)

  • 김광백;김문환;노영욱
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.8 no.1
    • /
    • pp.80-87
    • /
    • 2004
  • In this paper we proposed the novel feature extraction method that is able to extract the individual characters from the license plate area of the car image more precisely by using the RGB color information and the fuzzy binarization newly proposed. The proposed method, first, extracts from the original image the areas that the pixels with the colors around the green are concentrated on as the candidate areas of the license plate, and selects the area with the most intensive distribution of pixels with the white color among the candidate areas as the license plate area. Second the noises of the license plate area should be removed by using 34{\times}$3 Sobel masking, and the fuzzy binarization method are proposed and applied to the license plate area to generate the binarized image of the license plate area. Lastly, the application of the contour tracking algorithm to the binarized area extracts the individual characters from the license plate area. The experiment on a variety of the real car images showed that the proposed method generates the higher rate of success for character extraction than the previous methods.