• 제목/요약/키워드: 한글문자입력

검색결과 172건 처리시간 0.024초

모음 우선 인식에 의한 즐단위 필기체 한글의 인식 (Recognition of Handprinted Hangul Line using Vowel Pre-Recognition Method)

  • 함경수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.195-200
    • /
    • 1994
  • 본 논문에서는 글자 구분선 없이 자유로이 쓰여진 필기체 한글의 인식 방안을 보인다. 즐단위의 한글 입력 영상에서 글자의 골격선을 추출하는 새로운 방법과 골격선들 간의 접촉점과 끝점을 그래프의 노드로 표현하고, 획은 그래프의 가지로 표현하는 방안을 보인다. 한글의 글자 구성 원리는 모음을 중심으로 모아쓰므로, 그래프로 표현된 즐단위의 한글에서 모음의 시작위치 및 속성을 가지는 로드로부터 한글의 모음을 가장 먼저 유도하여 인식하고, 우측 글자 및 자소끼리의 접촉을 분리하여 초성 자음 및 종성 자음을 인식하여, 좌에서 우의 방향으로 한 문자씩 인식해 나간다. 본 논문에서의 자유로이 필기된 한글의 인식 실험은 우리나라의 주소 50개를 서로 다른 25인이 필기한 영상 데이터를 사용하였고 한글 문자의 인식율은 89%이다.

  • PDF

옛한글 문서의 전자문서화와 정보공유 방법 제안 (Digitization of Old Korean Texts with Obsolete Korean Characters and Suggestion for Improvement of Information Sharing)

  • 김하영;유우식
    • 보존과학회지
    • /
    • 제37권3호
    • /
    • pp.255-269
    • /
    • 2021
  • 옛한글로 저술된 자료는 활자 인쇄본, 목판 인쇄본, 필사본, 고소설, 서간 등 방대한 자료가 한국학중앙연구원 장서각을 비롯하여 많은 기관에 소장되어 있다. 옛한글을 전산정보화하기 위해서는 수작업에 의한 '입력'과정이 필요하다. 옛한글 문서의 전자문서화 작업이 오랫동안 진행되어 왔으나 옛한글을 전공한 연구자 개인의 노력으로 옛한글을 읽고 입력하여 전자자료화되고 있는 실정이다. 연구자의 숙련도가 개인적인 작업능력의 향상에 머무르고 기술의 축적으로 이어지지 못한다. 현재까지 극히 일부분의 옛한글 문서만이 소개되고 대부분의 자료는 수장고에 보관되어 있는 상태이다. 어렵게 전자문서화된 옛한글 고문서도 전자기기 간의 호환성 문제로 정보 공유 및 표시에도 어려움이 있다. 옛한글 문서의 전자문서화의 작업효율을 높이고 전자문서화 기술의 축적을 위해서는 옛한글의 입력, 표시, 저장 방법의 개선을 비롯하여 옛한글 문서의 이미지 분석을 통한 광학적 문자인식(OCR)의 개발이 필요하다.

모바일 환경의 OCR Anyword (Anyword OCR in Ubiquitos Computing)

  • 박종경;음봉규;권용식;진성아
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 춘계 종합학술대회 논문집
    • /
    • pp.152-155
    • /
    • 2006
  • 최근 모바일기기에 유비쿼터스 콘텐츠를 구현하는 시도가 활발히 진행되고 있다. 핸드폰을 이용해 위치를 판단한다거나, 핫코드를 찍어 상품을 구매하는 등의 콘텐츠가 개발되었다. 또한, 모바일기기도 발전하여 핸드폰, PDA 같은 모바일기기의 내장 카메라모듈은 필수사항이 되었다. 본 연구는 모바일기기의 내장 카메라모듈을 이용한 모바일 환경에 적합한 한글 문자인식 시스템을 제안한다. 본 연구의 시스템은 모바일기기로 PDA를 사용하였으며, PDA의 카메라모듈을 통하여 인쇄체 한글 영상을 입력받고, 모바일기기의 느린 연산속도를 보완하기 위하여, 서버로 이미지와 기울기 정보를 전달한 후, 서버에서 기울어진 인쇄체 문자영상을 보정하고, 프로젝션을 통해 문자를 추출한 후, 차연산을 이용한 매칭 방법으로 인쇄체 한글을 인식한다. 인식한 문자들은 사용자의 수정을 거쳐 텍스트 문서로 저장할 수 있다.

  • PDF

임계 획 밀도를 이용한 한글, 한자, 영문구분 (A Distinction of the Korean Character, Chinese Character and English Character using the Threshold Stroke Density)

  • 원남식
    • 한국산업정보학회논문지
    • /
    • 제5권4호
    • /
    • pp.32-38
    • /
    • 2000
  • 다중 문자 환경의 문서인식 시스템에서 문자를 인식하기 전에 문자의 종류를 먼저 구분하는 것은 인식률의 향상에 중요한 요인이 된다. 각 나라의 문자는 그 문자마다 고유의 구성상의 다양한 특징을 가진다. 본 연구에서는, 문자를 구분하기 위한 방법으로 획 밀도 값을 이용하였고, 대상 문자는 한글, 영문과 한자로 하였다. 다양한 형태의 활자가 사용되는 문서에 적용하기 위해 입력 데이터는 정규화 과정을 거친 후 처리되었다. 제안된 방법은 80% 이상의 높은 확률로 구분이 가능함을 실험 결과로써 입증하였다.

  • PDF

음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기 (Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing)

  • 전남열;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한국어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bigram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분석과 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

한글 문자열 영상의 지형적 특징을 이용한 비선형 문자 분할 및 인식 (Nonlinear Character Segmentation and Recognition Using Topographic Features in Hangul String Images)

  • 이동준;이성환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.201-206
    • /
    • 1994
  • 문서 인식 시스템의 성능을 저하시키는 가장 큰 원인 중의 하나로 문자 분할 오류를 들 수 있는데 보다 우수한 성능의 문서 인식 시스템 개발을 위해서는 정확한 문자 분할 방법이 절실히 요구된다. 기존의 문자 분할에 관한 연구들은 이진 영상을 대상으로 함으로써 접촉되거나 겹치는 문자의 경계 부분에서 문자 분할에 유용한 정보들을 잃어 문자 분할 오류를 초래할 수 있다. 하지만 명도 영상을 분석해 보면 문자의 접촉 부분에서 주로 나타나는 지형적 특징이 있으며, 문자 경계에서 명도값이 변하는 것을 관찰할 수 있는데 이와같은 명도 영상의 정보를 사용하면 보다 효과적으로 문자를 분할할 수 있을 것으로 판단된다. 본 연구에서는 이러한 점에 착안하여 명도 영상으로부터 지형적 특징을 추출하고 다단계 그래프 탐색 방법을 이용하여 명도값을 추적함으로써 비선형 문자 경계를 찾는 새로운 문자 분할 방법을 제안한다. 제안된 방법은 명도 문자열 영상을 입력으로 받아 명도 영상의 투영값과 명도 영상으로부터 추출된 지형적 특성을 이용하여 문자 분할 영역을 결정하고 문자 분할 영역내에서 다단계 그래프 탐색에 의한 비선형 문자 분할 경로를 찾는다. 그리고 문자 인식기와 결항하여 최종 문자 분할 위치를 확정하는 인식 결과를 이용한 문자 분할을 수행함으로써 문자 분할 위치 및 문자 인식 결과를 확정한다. 다양한 문서에 대한 실험 결과 제안된 방법이 이진 정보만을 사용하는 방법보다 접촉 혹은 겹친 문자 분할에 매우 효과적임을 알 수 있었다.

  • PDF

자유 필기체 한글에서의 자모 추출 (Phoneme Extraction from Freely Hand Written Han Gul)

  • 오원근;신영건;안영경
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.142-147
    • /
    • 1989
  • 필기체 문자는 인쇄체 문자와는 달리, 복잡한 변형이 따르므로, 인식 하는데 많은 문제점이 따른다. 그렇기 때문에 일반적인 필기체 인식에 있어서는 필기 자체에 대한 제한을 두어 변형을 적게한 문자를 인식 대상으로 삼고 있다. 이러한 문자는, 설정된 조건만 확실하게 만족한다면, 비교적 간단하게 인식 할 수 있다. 반면에, 자유 필기체 문자는, 제한 필기체 문자와는 달리 변형이 크기 때문에, 그 인식에는 많은 연구가 필요하다. 본 연구에서는, 자유 필기체 한글의 자모를 추출하는데 있어 두개의 parameter space method를 이용했다. 화상내에서의 혼합은, 기본적으로 5 개의 element ($\mid,\;\setminus,\;/,\;-,\;o$)로 구성되어 있고, 이 element를 정의하는데는 최소한 4 개의 parameter, 즉 element의 위치 [x, y], 크기 [1] 및 type [T] 등이 필요하다. 입력 화상에서 추출된 직선 및 원의 성분은 [x, y, l] 과 [x, y, T]의 2 개의 3-D parameter space 에 누적되고, parameter space 상에서의 병합 분할 과정을 거쳐, element 가 형성된다. 추출된 element 들은, parameter space 상에서의 방향성 및 상호 위치 관계에 의한 조합 형태로서, 미리 기술되어진 자모 모델과 비교되어 인식된다. 본 방법의 특정은, 문자의 크기에 무관하고, 해석방법에 의해서는, 끊어진 element나 불필요한 element 등의 왜곡된 element 들의 처리가 가능한 점, 4 차원 parameter space를 두개의 3 차원 parameter space로 분리, 처리시간과 기억용량의 절약을 기한점 등을 들 수 있다.

  • PDF

동적자소분할과 신경망을 이용한 인쇄체 한글 문자인식기에 관한 연구 (A Study on Printed Hangeul Recognition with Dynamic Jaso Segmentation and Neural Network)

  • 이판호;장희돈;남궁재찬
    • 한국통신학회논문지
    • /
    • 제19권11호
    • /
    • pp.2133-2146
    • /
    • 1994
  • 본 논문에서는 한글의 동적자소분할 방법과 자소분할 결과 얻어진 가변분할 망눈으로부터 특징벡터를 추출해 신경망에 입력함으로써 문자를 인식하는 방법을 제안한다. 먼저, 각 문자에서 4방향 기여도와 $8\pm8$망눈을 사용하여 256차원의 특징벡터를 구한 후, 신경망에 의해 한글을 6형식으로 분류한다. 분류된 결과를 바탕으로 모음의 통계적인 위치정보와 문자의 구조적인 정보를 이용하여 각 문자를 자소 단위로 분할한다. 분할된 자소의 크기에 따라 가변적인 크기를 갖는 망눈을 구성하고 특징벡터를 추출해 자소인식 신경망에 입력함으로써 문자인식을 행한다. 4개의 서체(3개의 서체는 학습, 1개는 인식실험), KS C 5601내의 2350자의 문자를 대상으로 실험한 결과 학습에 사용된 서체에 대해서는 97%이상, 나머지 한 서체에 대해서는 94% 이상의 인식률을 나타내 제안된 방법의 유효성을 보였다.

  • PDF

임의 영상내 다수 객체에서 달력을 인식하기 위한 시스템의 구성 (The structure of the system for recognizing some calendars in an image.)

  • 이광호;이승수;최운종;박장춘
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.559-561
    • /
    • 2000
  • 본 논문은 문자 인식의 기법을 이용하여 임의 영상에서 우리의 일상 생활에서 접하는 일반적인 달력을 포함하는 영상만을 검출하기 위한 영상 인식에 관한 연구이다. 달력이라는 영상내의 객체를 인식하기 위한 과정은 다음과 같이 요약된다. 우선 1~31까지의 숫자, 월요일(MON)과 같이 한글과 영문으로 된 요일, 월, 년과 같이 달력에 존재하는 아주 기본적인 문자에 대한 참조 패턴을 형성한다. 입력된 영상에서는 문자 영역 검출 단계, 문자의 특징 추출 단계를 거쳐 영상의 문자 추출이 이루어지고, 달력을 검출하기 위한 참조패턴과 입력 패턴의 비교를 수행하는 인식 단계를 거쳐, 영상 내의 달력 유무를 판단한다. 특히 불규칙적인 배열을 이루는 문자영역을 추출하기 위하여, 본 논문에서는 Hough Transform을 이용하여 기존의 규칙적 문자 인식의 문자 검출 방법의 한계점을 해결하였다.

  • PDF

ART 신경회로망을 이용한 한글 유형 분류에 관한 연구 (A Study on the Hangeul Pattern Classification by Using Adaptive Resonance Theory Neural Network)

  • 장재혁;박장한;남궁재찬
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.603-606
    • /
    • 2003
  • 본 논문에서는 ART(Adaptive Resonance Theory) 신경회로망을 이용하여 한글 모음을 인식하고, 그 유형을 분류하는 방법을 제안하였다. 기존의 연구들은 단순히 문자의 선분, 획 등의 정합만을 이용하여 한글의 자소 분류에 중점을 두었다. 그러나 인식 대상 운자의 특성이 각각 다르므로 효율적인 인식을 위해서는 먼저 포괄적인 특정적 유형 분류가 필요하다. 제안된 한글 유형 분류 시스템에서는 먼저 ART 신경회로망의 문제점인 증가분류 알고리즘의 단점을 최소화할 수 있도록 비교층에 최초 활성화패턴의 크기를 기억하는 메모리를 두고 각 층간 하향틀 변화를 경계인수 값을 "1" 이내로 제한하여 이미 입력된 패턴을 다시 입력할 때, 새로운 노드의 활성화를 방지하여 비교적 입력순서에 둔감한 분류가 가능하였다. 실험 결과 제안된 시스템에서는 한글의 6형식 중 1, 3, 4, 5형식 분류는 평균 97.3% 의 분류율을 보였으나, 나머지 2, 6형식 분류는 다소 떨어지는 평균 94.9% 분류율를 보였다.

  • PDF