• 제목/요약/키워드: 문자 분리

검색결과 233건 처리시간 0.024초

과다 분리 및 사전 후처리 기법을 이용한 한글이 포함된 무제약 필기 문자열의 오프라인 인식 (Off-Line Recognition of Unconstrained Handwritten Korean Words using Over-Segementation and Lexicon Driven Post-Processing Techniques)

  • 정선화;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권5호
    • /
    • pp.647-656
    • /
    • 1999
  • 본 논문에서는 오프라인 무제약 필기 한글 단어를 인식하기 위한 시스템을 제안한다. 제안된 단어 인식 시스템은 크게 다석가지 모듈-문자 분리,조합행렬생성, 특징 추출, 문자인식, 사전 후처리 -로 구성되어 있다. 문자 분리 모듈은 입력된 단어 영상을 하나의 문자보다 더 작은 이미지 조각으로 과다 분리하며 , 조합 행렬 생성모듈에서는 동적 프로그래밍 기법을 이용하여 분리된 이미지 조각들로부터 사전상의 모든 단어들과 대응되는 가능한 모든 조합을 생성한다. 문자인식모듈은 각 그룹에 대하여 일괄적으로 얻어진 특징과 유니그램을 이용하여 문자인식을 수행한다. 마지막으로 사전 후처리 모듈에서는 각 그룹에 대한 문자인식 결과와 단어 사전을 사용하여 입력단어에 대한 최종 인식 결과를 도출한다. 본 문에서 제안한 방법은 문자 분리, 문자 인식 및 후처리를 상호 보완적으로 결합함으로써 한글이 포함된 무제약 필기 문자열을 효과적으로 인식할 수 있다. 제안된 시스템의 성능을 평가하기 위하여 실제 우편 봉투 상에 쓰여진 필기 한글 단어 200개를 대상으로 실험을 하였다. 실험 결과 200개의 단어중 172개의 단어를 정인식하여 86%의 정확도를 얻을 수 있었으며 나머지 28개의 오인식된 단어들을 분석한 결과 대부분의 오류는 문자 인식기의 낮은 신뢰도 때문임을 알 수 있었다. 또한, 하나의 단어를 인식하기 위하여 약 2초가 소요되었다.

계층적인 접근과 개선된 RBF 네트워크를 이용한 영문 명함 인식 (Recognition of English Calling Card by Using Hierarchical Approach and Enhanced RBF Networks)

  • 임은경;김광백
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 춘계 학술대회 학술발표 논문집
    • /
    • pp.141-146
    • /
    • 2003
  • 본 논문에서는 문자열 영역 추출을 위한 3배 축소 명함 영상, 개별 문자 추출을 위한 2배 축소 명함 영상, 정확한 인식을 위한 원본 영상으로 명함 영상을 분리하고, 분리된 영상들을 대상으로 각 영상 크기에 적합한 처리를 수행하고 각각의 결과들을 이용하여 정확한 문자를 추출할 수 있는 방법을 제안한다 그리고 추출된 개별 문자들의 인식을 위해서 ART1을 적용한 개선된 RBF 네트워크를 제안하여 적용한다 제안된 명함 추출 방법은 원 영상을 각각의 처리 방법에 적합하도록 하기 위해서 다해상도로 분리한다. 문자열의 추출은 문자들의 간격을 축소 시켜서 블록을 추출하기 쉬운 적절한 최소 크기의 영상에서 수행하고, 개별 문자의 추출은 문자들의 간격을 분리할 수 있는 적절한 영상의 크기에서 수행한다 개별 문자 인식은 문자의 형태학적 특성을 잘 나타내기 위해서 원본 영상에 적용한다 본 논문에서 제안한 추출 방법은 문자를 정확히 추출할 수 있으며 병렬 처리가 가능하여 처리시간을 단축할 수 있는 장점을 가진다. 그리고 정확히 추출된 개별 문자들을 개선된 R8F 네트워크를 이용하여 인식률을 향상시킨다. 제안된 명함 추출 및 인식 방법의 성능을 확인하기 위해서 실제 영문 명함 영상을 대상으로 실험한 결과, 기존의 방법보다 명함 추출 및 인식에서 우수한 성능이 있음을 확인하였다.

  • PDF

칼라 문서에서 문자 영역 추출믹 문자분리 (The Character Area Extraction and the Character Segmentation on the Color Document)

  • 김의정
    • 한국지능시스템학회논문지
    • /
    • 제9권4호
    • /
    • pp.444-450
    • /
    • 1999
  • 본 논문에서는 칼라로 입력된 문서 영상에서 문자 영역추출을 위하여 k-means을 이용한 클러스트링 알고리즘을 제안하였다. 칼라 영상의 클러스트링을 위해서 HIS 좌표계에 적합한 거리함수를 제안하였다. 이를 인식하기 위한 전처리 단계인 문자분리(segmentation)방법은 연결 화소를 이용한 개별문자 추출 알고리즘을 제안하였다. 본 알고리즘 에서는 문자분리방벙에서 접촉문자 (touching character)또는 겹친 문자(overlapped character)등과 같이 분리가 곤란한 문자를 개별문자로 분리하는 방법이다. 기존의 문자 분리방법에서는 투영(projection)dop 의한 방법과 외곽선(edge)추적에 의한 방법등을 사용하여 왔으나 제안된 방법은 문자열 추출후 한번의 투영으로 연결화소를 이용하여 개별문자를 추출한다. 문자 영역과 비 문자 영역을 구분하여 개발문자 추출을 한 결과 단순한 이진 영상이 아닌 칼라 영상에서의 문서 처리가 큰 의의가 있고 기존의 문서 처리기 보다 향상된 알고리즘인 것을 확인하였다.

  • PDF

영문 명함 영상에서의 문자 영역 추출에 관한 연구 (A Study on Character Area Extraction of An English Calling Card Image)

  • 이지훈;류재욱;이준행;신철수;김광백
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.750-753
    • /
    • 2003
  • 본 논문에서는 명함 영상에서 문자 영역을 추출하기 위해서 전처리 과정을 수행하여 잡영을 제거한다. 잡영이 제거된 명함 영상을 3배로 축소하여 가로 스미어링을 적용하여 문자열의 후보 영역을 추출하고 문자열과 비문자열의 영역으로 분리한 후, 문자열 영역에 세로 스미어링을 적용한다. 추출된 문자열 영역과 세로 스미어링된 문자열 영역에 대해 OR연산을 수행하여 문자의 특징이 분리되는 것을 제거하고 윤곽선 따라가기 알고리즘을 적용하여 문자의 영역을 추출한다 제안된 방법을 실제 영문 명함의 개별 문자 추출에 적용한 결과, 기존의 영문 명함 추출 방법보다 개선되었다.

  • PDF

한글 인쇄체 문자의 형식 분류 및 비선형적 자소 분리에 관한 연구 (A Study on Korean Printed Character Type Classification And Nonlinear Grapheme Segmentation)

  • 박용민;김도현;차의영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2006년도 춘계종합학술대회
    • /
    • pp.784-787
    • /
    • 2006
  • 본 논문에서는 한글 인쇄체 문자의 자소를 비선형적으로 분리하는 방법을 제안한다. 자소 분리 대상 문자는 자소의 조합 방식에 따라 6개의 형식으로 분류한다. 인쇄체 한글의 6형식 분류를 위해 그레이 레벨의 문자 이미지로부터 망 특성과 수직 수평 투영 기법을 이용해 특징을 추출하고, 오류 역전파 기법을 이용하여 분류를 시도한다. 분류된 문자 형식을 기반으로 분리 후보 영역을 지정하고, 이 영역을 기반으로 다단식 그래프 탐색 알고리즘을 이용하여 최적의 비선형적 자소 분리 경로를 찾아낸다. 실험 결과, 제안한 방법은 한글의 6형식 분류에 적합하였으며, 자소가 서로 붙어 선형적으로 분리가 어려운 문자의 자소 분리에 좋은 성능을 나타내었다.

  • PDF

변형된 Run Length Coding 기법을 이용한 이치화된 자동차 번호판 영상에서의 문자 분리 (Character Segmentation of Binary Vehicle Plate using Modified Run Length Coding)

  • 이도엽;김형재;배익성;이철희;차의영
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 1998년도 춘계학술발표논문집
    • /
    • pp.138-142
    • /
    • 1998
  • 자동차 번호판 인식시스템은 영상획득, 번호판 추출, 전처리(이치화), 문자영역분할, 문자인식 등의 5가지 핵심부분으로 구성되어 있다. 따라서 자동차 번호판 인식시스템의 최종 인식률은 각 단계의 성능에 따라 직접적인 영향을 받는다. 본 논문은 컴퓨터 비젼의 한 분야인 영상처리 기법을 이용한 이치화된 자동차 번호판의 문자영역 추출에 관한 연구로서 문자 인식단계에서 높은 인식률을 확보하기 위해서 가장 중요한 입력 데이터의 상태를 보다 깨끗하게 정확하게 분리하는데 변형된 Run Length Coding 기법을 이용하여 효과적이고 빠른 문자 영역 분리 방법을 제안함으로서 처리속도의 향상은 물론 잡영에도 강한 문자 영역 분리 시스템을 구현하였다.

  • PDF

GAP 군집화에 기반한 필기 한글 단어 분리 (Word Segmentation in Handwritten Korean Text Lines based on GAP Clustering)

  • 정선화;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권6호
    • /
    • pp.660-667
    • /
    • 2000
  • 본 논문에서는 필기 한글 문자열 영상에 대한 단어 분리 방법을 제안한다. 제안된 방법은 gap 의 크기 정보를 사용하여 단어를 분리하는데, 이때 gap은 문자열 영상을 수직방향으로 투영한 후 흰-런 (white-run)을 찾음으로써 구할 수 있다. 문자열 영상으로부터 얻어지는 gap들의 크기를 측정한 후, 각각의 gap을 단어와 단어사이에 존재하는 gap과 문자와 문자사이에 존재하는 gap 중 하나로 분류한다. 본 논문에서는 필기 영문 문자열의 단어 분리를 위해 제안된 기존의 세 가지 거리 척도를 채택하고 군집화에 기반한 세 가지 분류방법을 적용하여 한글 문자열의 단어 분리를 위한 최적의 조합을 선정하였다. 우편봉투 상에 작성된 주소열로부터 수작업으로 추출한 305 개의 문자열 영상을 사용하여 실험한 결과 BB(bounding box) 거리를 사용하여 순차적 군집 방법을 적용하는 경우 3 순위까지의 누적 단어 분리 성공률이 88.52% 로서 가장 우수한 성능을 보여 주었다. 또한 하나의 문자열 영상에 대한 단어 분리 속도는 약 0.05초이다.

  • PDF

필기체 인식을 위한 한글 자소분리 (A Hangul Element Separation for the Hand-written Character Recognition)

  • 백남우
    • 한국ITS학회:학술대회논문집
    • /
    • 한국ITS학회 2004년도 제3회 정기총회 및 추계학술대회
    • /
    • pp.208-211
    • /
    • 2004
  • 본 연구는 필기체 한글 문자를 인식하기 위하여 한글 문자구조를 6개 기본구조로 분류한다. 각각의 한글 자음과 모음을 7-세크먼트, '/'(Left-Incline), '$\backslash$'(Right-Incline), '-'(Left-Right), '$\mid$'(UP-Down), 'c'(Circle), 'ㄱ'(Right-down), 'ㄴ'(Down-Right) 분리한다. 분리된 7-세크먼트에 대해 한글이 쓰여지는 위치에 따라 8개의 기본구조로 정의하여 세크먼트를 분리하여 레벨화한다. 따라서 본 연구는 문자를 자소(자음과모음)로 하여 7-세크먼트로 분리하는 필기체 자소분리 구조를 제시한다.

  • PDF

한글 문서 인식을 위한 문서 영상에서의 문자와 그림의 분리 추출 (A study on the segmentation and extraction of the pictures and characters in korean document)

  • 이인동;강태호;권오석;김태균
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.50-53
    • /
    • 1989
  • 한글 문서를 인식하기 위하여 문서 영상에서 문자와 그림을 분리 추출하기 위한 방법에 대하여 논하였다. 분리 추출 방법으로는 실시간으로 입력되는 영상 데이타로부터 문자와 그림 의 경계 위치를 알아내는 방법을 사용하였다. 한글, 영문, 한자, 기호 등의 문자와 그림이 혼합된 A4 크기의 문서 영상을 300 DPI의 해상도로 입력받아 실험하였다. 단 한번의 주사만으로 모든 문자와 그림이 정보 gm름의 순서에 따라 분리 추출되었다. 실험 결과 본 방법은 최소한의 시간과 최소한의 기억 용량으로 완벽한 분리 추출이 가능함을 보였다.

  • PDF

문자 인식에서 분할 비용에 따른 문자 분할 연구 (Character Segmentation with Segmentation Cost in Optical Character Recognition)

  • 정민철
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2004년도 춘계학술대회
    • /
    • pp.179-181
    • /
    • 2004
  • 인쇄체 문자 인식에서 접합 문자는 주요한 에러 발생의 원인이다. 본 논문에서는 접합 문자를 분할하기 위해 두 개의 분할 비용을 정의한다. 첫째, 절단 비용은 한 패턴을 분할하는 데 얼마나 많은 블랙픽셀이 분리되어야 하는가이다. 둘째, 접선 비용은 분할선이 얼마나 많은 블랙 픽셀과 화이트 픽셀사이를 지나가는가이다. 폰트 분류기는 접합 문자의 후보 문자를 제공한다. 후보 문자의 문자 폭은 접합 문자를 분리하기 위한 기준선을 제공하며, 그 기준선 부근의 픽셀들이 분할 가능 영역을 나타낸다. 절단 비용의 최소값과 접선 비용의 최대값이 되는 지점이 최종적으로 접합 문자를 분할하는 위치이다. 이렇게 정의된 절단 비용과 접선 비용을 가지고 접합 문자를 분할하면 보다 정확한 문자 분할을 하여 문자 인식에서 에러 발생을 줄일 수 있다.

  • PDF