• Title/Summary/Keyword: 오인식

Search Result 214, Processing Time 0.025 seconds

A Correction Algorithm for Misrecognized Words Using N-gram Hangeul Dictionary (N-GRAM 한글 사전을 이용한 오인식 단어의 교정 알고리즘)

  • Lee, Jong-Yun;Oh, Sang-Hun
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.271-283
    • /
    • 1993
  • 본 논문은 온라인 한글인식 시스템에서 오인식된 단어를 교정하는 알고리즘이다. 교정 기법으로는 N-gram 한글사전을 이용하였다. 오인식된 단어는 후보키의 선정과 선정된 후보문자중 가장 유사한 단어로 대체된다. 오인식 단어는 사전에 수록된 단어의 형태소 정보 즉, 사전의 표제어, 이의 품사 및 접속 규칙을 활용하여 교정된다. 본 논문은 오인식 교정에서 필요한 한글의 형태소 분석기에 관한 선행연구를 전제한다.

  • PDF

A study on the Character Correction of the Wrongly Recognized Sentence Marks, Japanese, English, and Chinese Character in the Off-line printed Character Recognition (오프라인 인쇄체 문장부호, 일본 문자, 영문자, 한자 인식에서의 오인식 문자 교 정에 관한 연구)

  • Lee, Byeong-Hui;Kim, Tae-Gyun
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.1
    • /
    • pp.184-194
    • /
    • 1997
  • In the recent years number of commercial off-line character recognition systems have been appeared in the Korean market. This paper describes a "self -organizing" data structure for representing a large dictionary which can be searched in real time and uses a practical amount of memory, and presents a study on the character correction for off-line printed sentence marks, Japanese, English, and Chinese character recognition. Self-organizing algorithm can be recommenced as particularly appropriate when we have reasons to suspect that the accessing probabilities for individual words will change with time and theme. The wrongly recognized characters generated by OCR systems are collected and analyzed Error types of English characters are reclassified and 0.5% errors are corrected using an English character confusion table with a self-organizing dictionary containing 25,145 English words. And also error types of Chinese characters are classified and 6.1% errors are corrected using a Chinese character confusion table with a self-organizing dictionary carrying 34,593 Chinese words.ese words.

  • PDF

The post processing method to reduce the misrecognition of on-line handwritten letters by using an occurrence probability of dictionary words (사전 단어 발생 확률을 통해 온라인 필기체 문자의 오인식을 보정하는 후처리 기법)

  • Lee, Do-Gon;Han, Jeong-Hoon;Kim, Woosaeng
    • Annual Conference of KIPS
    • /
    • 2004.05a
    • /
    • pp.723-726
    • /
    • 2004
  • 문자들 중에는 매우 비슷한 모양을 갖고 있는 문자가 존재하기 때문에 오인식은 이러한 유사한 문자들 사이에서 일어날 경우가 많다고 볼 수 있다. 즉, 입력된 문자가 유사한 다른 문자에 대응하는 모델에서 발생 확률이 가장 높게 나와 오인식이 되었다고 할지라도, 해당 모델에서는 입력된 문자의 발생 확률도 여전히 높다고 볼 수 있다. 본 논문에서는 사전을 통한 후처리 시, 오인식 된 단어에서 사용된 모델들을 통해 오인식을 보정하는 방법을 제안한다.

  • PDF

A Postprocessing of Character Recognition Based on Korean Lexicon (한국어 Lexicon에 의존한 문자 인식의 후처리)

  • Lim, Han-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.371-377
    • /
    • 1993
  • 본 논문에서는 문자 인식이 끝난 한국어 원문에 대해 한국어 Lexicon에 기반을 둔 후처리의 구현을 보여주는 것을 목적으로 한다. 빈번하게 오인식되는 음절에 대해 이의 옳은 음절을 대응시킨 테이블을 만들어 놓고, 오인식이라고 정의된 음절이 출현했을 때는 이를 원래의 옳은 음절로 대체시킨 어절과 오인식된 음절이 포함된 어절에 대해 한국어 형태소 분석을 행함으로써, 올바른 형태소가 분석될 경우, 이를 옳은 음절로 간주한다. 실험결과 약 90%에서 95%에 달하는 인식율이 이 후처리 방법에 의해서 95%에서 99%로 높아졌다.

  • PDF

An Efficient Postprocessing Algorithm for Error Correction in Hangul Address Recognition (한글 주소의 오인식 수정을 위한 효율적인 후처리 알고리즘)

  • Lee, Seong-Whan;Kim, Eun-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.555-566
    • /
    • 1992
  • 본 논문은 한글 주소의 오인식 수정에 관한 연구로서, 필기자의 다양한 필기 형태와 입력 장치의 특성으로 인하여 문자 인식 단계에서 발생할 수 있는 혼동을 줄이고 오류를 효율적으로 수정하는 후처리 알고리즘을 소개한다. 특히, 주소의 행정 구역부에 대해서는 정합해야 할 문자 모델의 범위를 줄여줌으로써 높은 인식률과 처리 속도를 기록하였으며, 문자 인식의 결과에 임계값과 백트랙킹 방법을 도입한 후처리 알고리즘을 적용하여 더욱더 높은 인식률을 나타낼 수 있었다. 번지부와 건물부에 대한 오인식도 제안된 각각의 알고리즘을 적용함으로써 효과적으로 수정할 수 있었다. 우리나라의 25,000여 행정 구역을 바탕으로 작성 가능한 주소들 중에서 임의의 150개 주소 데이타에 대하여 제안된 후처리 방법을 포함한 다양한 후처리 방법으로 실험한 결과, 행정 구역부에 대하여 98%이상의 높은 인식률을 보임으로써, 제안된 후처리 알고리즘이 효과적임을 알 수 있었다.

  • PDF

A Method of Detecting of OCR error using Morphological Analysis (형태소 분석을 이용한 문자인식 에러의 검출)

  • Kim, Yun-Ho;Lee, Jong-Kuk;Kim, Hang-Joon;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.545-553
    • /
    • 1992
  • 문자인식에 있어서 인식율을 높이기 위한 후처리의 한 방법으로서, 문법 정보를 이용하는 후처리를 제안하고자 한다. 즉, 문자 인식 시스템에 의해 인식된 국어문에 대해서 오인식된 문자를 포함하는 어절을 검출하고, 오인식된 문자의 적절한 후보를 선정하여 그에 따라 자동수정을 행하는 것을 전채 후처리 과정으로 전제한다. 본 논문에서는 형태소 분석을 통해 오인식된 부분을 검출하는 과정을 보임으로써 문자인식에 있어서 문법 정보를 이용하는 후처리의 가능성과 그 유효성을 보이는 것을 목적으로 한다.

  • PDF

On-line Recognition in Korean Character Using Fuzzy Membership Function (퍼지소속함수를 이용한 온라인 한글 인식)

  • Shim, Young-Chul;Oh, Kyung-Whan
    • Annual Conference on Human and Language Technology
    • /
    • 1991.10a
    • /
    • pp.300-306
    • /
    • 1991
  • 본 논문에서는 온라인 한글 인식을 위하여 퍼지소속함수를 사용하였다. 획의 오인식으로 인한 문자의 오인식 문제를 해결하기 위하여 인식 시스템 내에서 획을 퍼지집합으로 표현하며, 자모를 인식하는데 사용되는 획의 중심점들 간의 방향은 퍼지소속 함수로 정의하여 추론한다. 본 논문에서 제시하는 퍼지추론 방법은 같은 획으로 시작되는 모든 자소에 대하여 적용되며, 애매모호한 상황하에서도 인식을 수행한다. 따라서 퍼지소속함수를 사용한 시스템은 종래에 오인식 되었던 애매한 글자들을 정확하게 인식할 수 있었다.

  • PDF

A Study on Word Learning and Error Type for Character Correction in Hangul Character Recognition (한글 문자 인식에서의 오인식 문자 교정을 위한 단어 학습과 오류 형태에 관한 연구)

  • Lee, Byeong-Hui;Kim, Tae-Gyun
    • The Transactions of the Korea Information Processing Society
    • /
    • v.3 no.5
    • /
    • pp.1273-1280
    • /
    • 1996
  • In order perform high accuracy recognition of text recognition systems, the recognized text must be processed through a post-processing stage using contextual information. We present a system that combines multiple knowledge sources to post-process the output of an optical character recognition(OCR) system. The multiple knowledge sources include characteristics of word, wrongly recognized types of Hangul characters, and Hangul word learning In this paper, the wrongly recognized characters which are made by OCR systems are collected and analyzed. We imput a Korean dictionary with approximately 15 0,000 words, and Korean language texts of Korean elementary/middle/high school. We found that only 10.7% words in Korean language texts of Korean elementary/middle /high school were used in a Korean dictionary. And we classified error types of Korean character recognition with OCR systems. For Hangul word learning, we utilized indexes of texts. With these multiple knowledge sources, we could predict a proper word in large candidate words.

  • PDF

Hangul Document Retrieval Using Character Recognition (문자 인식을 이용한 한글 문서 검색)

  • 안재철;오일석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.544-546
    • /
    • 2001
  • 이 논문은 OCR(Optical Character Reader)로 인식된 한글 문서에서의 오인식 경향을 분석하고, 이를 이용한 한글 단어 검색 방법을 제안한다. OCR로 인식된 많은 야의 한글 문서를 기반으로 자모별 인식 빈도수를 계산하고 이를 바탕으로 초성, 중성, 중성별 인식 혼동 행렬(confusion matrix)을 구성하였다. 또한 인식 정보를 적절히 이용하기 Bayes 정리를 이용하였다. 질의어에 대한 오인식 단어의 검색 방법을 제시하고 혼동 행렬과 이 검색 방법을 바탕으로 OCR 기반 단어 검색 시스템을 구축하였다.

  • PDF