• 제목/요약/키워드: Document Recognition

검색결과 182건 처리시간 0.026초

웨이브렛 특징과 순위 기반 인식을 이용한 한글 문서 영상 검색 시스템 (A Hangul Document Image Retrieval System Using Rank-based Recognition)

  • 이득용;김우연;오일석
    • 한국콘텐츠학회논문지
    • /
    • 제5권2호
    • /
    • pp.229-242
    • /
    • 2005
  • 우리는 스캔된 한글 문서 영상에 대한 전문(full-text) 검색 시스템을 구축하였다. 이 시스템은 크게 전처리부, 인식부, 그리고 검색부로 구성되어 있다 검색 알고리즘은 k순위까지의 인식 결과를 이용한다. 이 방법은 검색 성능이 인식 오류에 둔감할 뿐만 아니라, 재현률과 정확률을 사용자가 조절할 수 있는 장점을 갖는다. 객관적인 성능 평가를 위해 KISTI가 제공하는 정보과학회 논문지 영상을 실험에 사용하였다. 인식과 검색 성능을 통하여 시스템이 실용적임을 보였다.

  • PDF

다중 언어로 작성된 문서 파일에 적용된 문자 인코딩 자동 인식 기법 (A Method for Automatic Detection of Character Encoding of Multi Language Document File)

  • 서민지;김명호
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권4호
    • /
    • pp.170-177
    • /
    • 2016
  • 문자 인코딩은 문서를 컴퓨터에서 이용할 수 있도록 문자 코드 테이블을 이용하여 이진화하는 방법이다. 이진화된 문서를 읽기 위해서는, 문서에 적용된 문자 코드를 이용하여 문자 인코딩을 알아내야 한다. 본 논문에서는 문서의 문자 인코딩을 자동으로 판별하는 방법을 제시한다. 제안하는 방법은 이스케이프 문자를 이용한 판별법, 문서에 나타난 코드 값 범위 판별법, 문서에 나타난 코드 값의 특징 판별법, 각 언어별 자주 사용하는 단어를 이용한 판별법과 같은 여러 단계를 걸쳐 문서에 적용된 문자 인코딩을 판별한다. 자주 사용하는 단어를 이용한 방법은 문서를 언어별로 분류하여 문자 인코딩을 판별하기 때문에, 다국어 문서에서 기존의 방법보다 높은 문자 인코딩 인식률을 보인다. 주로 표현하는 언어의 비중이 20% 미만일 경우, 기존의 방법은 약 50%의 문자 인코딩 인식률을 보였으나, 제안하는 방법은 문자 인코딩에서 표현하는 언어의 비중과는 상관없이 96% 이상의 문자 인코딩 인식률을 보였다.

텍스트와 그래픽으로 구성된 혼합문서 인식에 관한 연구 (A Study on the Recognition of Mixed Documents Consisting of Texts and Graphic Images)

  • 함영국;김인권;정홍규;박래홍;이창범;김상중;윤병남
    • 전자공학회논문지B
    • /
    • 제31B권7호
    • /
    • pp.76-90
    • /
    • 1994
  • In this paper, an efficient algorithm is proposed which recognizes the mixed document consisting of the printed Korean/alphanumeric texts and graphic images. In the preprocessing step an input document is aligned if necessary by rotating it. We obtain the rotation angle using the Hough transform and align the input document horizontally. Then we separate graphic image parts from text parts by considering chain codes of connected components. We further separate each character using vertical and horizontal projections. In the recognition step Korean and alphanumeric characters are classified and each of them is recognized hierarchically using several features. In summary an efficient recognition algorithm for mixed documents is proposed and its performance is demonstrated via computer simulations.

  • PDF

카메라 획득 문서영상에서의 글자모양 왜곡보정 (Character Shape Distortion Correction of Camera Acquired Document Images)

  • 장대근;김의정
    • 한국정보통신학회논문지
    • /
    • 제10권4호
    • /
    • pp.680-686
    • /
    • 2006
  • 스캐너로 획득한 문서영상을 대상으로 문자인식을 하는 경우와 달리 카메라로 획득한 문서 영상을 대상으로 문자인식을 수행할 경우 카메라 렌즈의 특성과 카메라와 피사체간의 위치와 각도의 불일치에 의해 글자모양의 왜곡이 발생한다. 따라서 이러한 왜곡들로 인해 실제로 사용이 가능한 카메라 문자인식 기술의 개발이 쉽지 않았다. 본 논문에서는 문서 영상을 카메라로 획득할 때 발생하는 3차원의 비선형적 왜곡을 2차원의 선형 변환을 이용하여 근사화함으로써 왜곡된 글자모양을 교정한다. 또한 변환과정에서 글자와 글자줄을 추출하여 상하로는 글자줄의 배열방향을, 좌우로는 문자획의 기울어진 각도를 측정함으로써 왜곡으로 인해 사변형 형태로 변형된 글자영역 즉 변환영역을 자동으로 설정함으로써 부가적인 정보의 획득 없이 문서영상 자체만으로 기하하적 왜곡보정이 가능하다.

음소인식 오류에 강인한 N-gram 기반 음성 문서 검색 (N-gram Based Robust Spoken Document Retrievals for Phoneme Recognition Errors)

  • 이수장;박경미;오영환
    • 대한음성학회지:말소리
    • /
    • 제67호
    • /
    • pp.149-166
    • /
    • 2008
  • In spoken document retrievals (SDR), subword (typically phonemes) indexing term is used to avoid the out-of-vocabulary (OOV) problem. It makes the indexing and retrieval process independent from any vocabulary. It also requires a small corpus to train the acoustic model. However, subword indexing term approach has a major drawback. It shows higher word error rates than the large vocabulary continuous speech recognition (LVCSR) system. In this paper, we propose an probabilistic slot detection and n-gram based string matching method for phone based spoken document retrievals to overcome high error rates of phone recognizer. Experimental results have shown 9.25% relative improvement in the mean average precision (mAP) with 1.7 times speed up in comparison with the baseline system.

  • PDF

패턴인식기법을 이용한 편목전문가시스템 설계에 관한 연구 (A Study on Design Of Cataloging Expert System Using Pattern Recognition Techniques)

  • 김현희;곽병희
    • 정보관리학회지
    • /
    • 제11권2호
    • /
    • pp.131-164
    • /
    • 1994
  • 본 연구에서는 표제면과 판권지의 서지요소의 레이아웃 특성과 구문적 특성을 이용하여 서지요소의 종류를 패턴인식 지식베이스와 전거화일들을 이용하여 자동 인지하고 인지된 서지요소를 한국문헌자동화목록형식(KORMARC)과 한국문헌자동화목록법(KORMARC) 기술규칙에 기초하여 KORMARC 형태로 출력해 주는 편목전문가시스템을 구축하였다. 이 시스템의 성능을 평가하기 위해서 패턴인식 지식베이스의 생성을 위해 분석한 155종의 실험문헌집단과 86종의 검증문헌집단을 이용하여 적중률을 조사해 보니 실험문헌집단의 경우는 94%, 검증문헌집단의 경우는 93%의 적중률을 나타냈다.

  • PDF

Frameworks for Context Recognition in Document Filtering and Classification

  • Kim Haeng-Kon;Yang Hae-Sool
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제14권3호
    • /
    • pp.82-88
    • /
    • 2005
  • Much information has been hierarchically organized to facilitate information browsing, retrieval, and dissemination. In practice, much information may be entered at any time, but only a small subset of the information may be classified into some categories in a hierarchy. Therefore, achieving document filtering (DF) in the course of document classification (DC) is an essential basis to develop an information center, which classifies suitable documents into suitable categories, reducing information overload while facilitating information sharing. In this paper, we present a technique ICenter, which conducts DF and DC by recognizing the context of discussion (COD) of each document and category. Experiments on real-world data show that, through COD recognition, the performance of ICenter is significantly better. The results are of theoretical and practical significance. ICenter may server as an essential basis to develop an information center for a user community, which shares and organizes a hierarchy of textual information.

  • PDF

문서 입출력 시스템의 구성에 관한 연구 (A Study on the Construction of a Document Input/Output system)

  • 함영국;도상윤;정홍규;김우성;박래홍;이창범;김상중
    • 전자공학회논문지B
    • /
    • 제29B권10호
    • /
    • pp.100-112
    • /
    • 1992
  • In this paper, an integrated document input/output system is developed which constructs the graphic document from a text file, converts the document into encoded facsimile data, and also recognizes printed/handwritten alphanumerics and Korean characters in a facsimile or graphic document. For an output system, we develop the method which generates bit-map patterns from the document consisting of the KSC5601 and ASCII codes. The binary graphic image, if necessary, is encoded by the G3 coding scheme for facsimile transmission. For a user friendly input system for documents consisting of alphanumerics and Korean characters obtained from a facsimile or scanner, we propose a document recognition algirithm utilizing several special features(partial projection, cross point, and distance features) and the membership function of the fuzzy set theory. In summary, we develop an integrated document input/output system and its performance is demonstrated via computer simulation.

  • PDF

웹문서를 이용한 단계별 한국어 미등록어 인식 모델 (Phase-based Model Using Web Documents for Korean Unknown Word Recognition)

  • 박소영
    • 한국정보통신학회논문지
    • /
    • 제13권9호
    • /
    • pp.1898-1904
    • /
    • 2009
  • 신문이나 블로그와 같은 실제 문서에서는 위키백과(Wikipedia)와 같은 기존에 없던 새로운 단어를 포함하고 있다. 그러나, 대부분의 정보 처리 기술은 시스템 개발 당시 확보한 자료를 바탕으로 사전을 구축하므로, 이러한 새로운 단어에 대해 신속하게 대처할 수 없다는 한계가 있다. 따라서 본 논문에서는 사전에 등록되어 있지 않은 한국어 미등록어를 자동으로 인식하는 모델을 제안한다. 제안하는 모델은 전문분석 기반 미등록명사 인식 단계, 웹 출현빈도 기반 미등록용언 인식 단계, 웹 출현빈도 기반 미등록명사 인식 단계로 구성된다. 제안하는 모델은 문서에서 여러 번 나타난 미등록어에 대해 전문분석을 통해 정확하게 인식할 수 있다. 그리고, 제안하는 모델은 문서에 한번 나타난 미등록어에 대해서도 웹문서를 바탕으로 광범위하게 인식할 수 있다. 또한, 제안하는 모델은 기본형이 어절에 그대로 나타나는 미등록명사뿐만 아니라 기본형이 변형하여 나타날 수 있는 미등록용언도 인식할 수 있다. 실험 결과 기존 미등록어 인식방법에 비해 제안하는 접근방법은 정확률 1.01%와 재현을 8.50%를 개선하였다.

전자정부내 의미기반 기술 도입에 따른 기능 및 정책 연구 (Research on Function and Policy for e-Government System using Semantic Technology)

  • 고광섭;장영철;이창훈
    • 한국디지털정책학회:학술대회논문집
    • /
    • 한국디지털정책학회 2007년도 춘계학술대회
    • /
    • pp.79-87
    • /
    • 2007
  • This paper aims to offer a solution based on semantic document classification to improve e-Government utilization and efficiency for people using their own information retrieval system and linguistic expression Generally, semantic document classification method is an approach that classifies documents based on the diverse relationships between keywords in a document without fully describing hierarchial concepts between keywords. Our approach considers the deep meanings within the context of the document and radically enhances the information retrieval performance. Concept Weight Document Classification(CoWDC) method, which goes beyond using exist ing keyword and simple thesaurus/ontology methods by fully considering the concept hierarchy of various concepts is proposed, experimented, and evaluated. With the recognition that in order to verify the superiority of the semantic retrieval technology through test results of the CoWDC and efficiently integrate it into the e-Government, creation of a thesaurus, management of the operating system, expansion of the knowledge base and improvements in search service and accuracy at the national level were needed.

  • PDF