• 제목/요약/키워드: Document Recognition

검색결과 182건 처리시간 0.026초

이미지데이터 활용을 위한 문서인식시스템 연구 및 개발 (Research and Development of Document Recognition System for Utilizing Image Data)

  • 곽희규
    • 정보처리학회논문지B
    • /
    • 제17B권2호
    • /
    • pp.125-138
    • /
    • 2010
  • 본 연구는 공공기관이 소장한 이미지데이터의 검색 및 열람 등의 활용성을 높이기 위한 전문검색서비스 구현 시 필수적인 문서인식시스템의 고도화를 목표로 한다. 주요한 연구방향은 공공기관이 소장하고 있는 데이터를 사전에 분석하여 문서이미지 전처리 및 문서구조분석 기술을 개발하고, 문서인식 과정에서 활용하기 위한 이미지내용DB, 문자모델DB, 용어DB로 구성되는 특화된 지식베이스를 구축하는 것이다. 또한, 지식베이스 관리도구를 개발하여 향후 다양한 형태의 문서이미지로의 확장을 가능하게 한다. 최근 본 연구는 국가기록원에서 소장하고 있는 이미지데이터에 적합한 문서구조분석 라이브러리와 특화된 지식베이스를 결합한 문서인식 프로토타입 시스템 개발을 완료했다. 향후 본 연구의 결과는 방대한 소장자료의 검색 및 활용을 극대화할 전문검색시스템 연계를 위한 성능평가 및 테스트베드 구축에 활용될 것이다.

Feature Extraction Method for the Character Recognition of the Low Resolution Document

  • Kim, Dae-Hak;Cheong, Hyoung-Chul
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권3호
    • /
    • pp.525-533
    • /
    • 2003
  • In this paper we introduce some existing preprocessing algorithm for character recognition and consider feature extraction method for the recognition of low resolution document. Image recognition of low resolution document including fax images can be frequently misclassified due to the blurring effect, slope effect, noise and so on. In order to overcome these difficulties in the character recognition we considered a mesh feature extraction and contour direction code feature. System for automatic character recognition were suggested.

  • PDF

문서 처리 자동화를 위한 인보이스 이미지의 구조 인식 방법 (Structure Recognition Method of Invoice Document Image for Document Processing Automation)

  • 이동석;권순각
    • 한국산업정보학회논문지
    • /
    • 제28권2호
    • /
    • pp.11-19
    • /
    • 2023
  • 본 논문은 인보이스 문서 이미지에 문서 처리 자동화를 적용하기 위한 문서 구조 인식 방법과 문서 구조 인식 결과를 토대로 스프레드문서 형태로 출력하는 방법을 제안한다. 딥러닝 OCR 엔진을 통해 문서 내 단어 블록들과 해당 블록들의 문자 인식 결과를 얻는다. 단어 블록의 위치 정보들을 통해 같은 행과 같은 열에 존재하는 단어 블록들을 검출한다. 단어 블록들의 배치 정보를 통해 문서 영역을 분할한다. 문서의 구역 정보를 통해 얻어진 문서 구조를 토대로 스프레드시트의 알맞은 위치에 문자 인식 결과를 입력한다. 실험 결과 제안된 방법을 통한 항목 배치는 평균 92.30%의 정확도를 보인다.

인식률을 향상한 한글문서 인식 알고리즘 개발 (Development of an image processing algorithm for korean document recognition)

  • 김희식;김영재;이평원
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1997년도 한국자동제어학술회의논문집; 한국전력공사 서울연수원; 17-18 Oct. 1997
    • /
    • pp.1391-1394
    • /
    • 1997
  • This paper proposes a new image processing algorithm to recognize korean documents. It take out the region of text area form input image, then it makes esgmentation of lines, words and characters in the text. A precision segmentation is very important to recognize the input document. The input image has 8-bit gray scaled resolution. Not only the histogram but also brightness dispersion graph are used for segmentation. The result shows a higher accuracy of document recognition.

  • PDF

MSER을 이용한 문서 이미지 이진화 기법 (Document Image Binarization Technique using MSER)

  • 유영중
    • 한국정보통신학회논문지
    • /
    • 제18권8호
    • /
    • pp.1941-1947
    • /
    • 2014
  • 문서 이미지의 이진화는 문서 인식의 이전 단계에서 주로 사용되며, 이진화의 성공 여부에 따라 문서 인식의 결과에 영향을 미치는 중요한 단계로 볼 수 있다. 지금까지 문서 이미지를 이진화 하기 위한 다양한 기법들이 연구되었지만, 문서 이미지의 상태에 따라 그 결과는 다양하다. 본 논문에서는 객체 추출에 많이 이용되는 MSER(Maximally Stable Extremal Region)을 이용하여 문서 이미지를 이진화하는 기법을 제안한다. 먼저 문서 이미지에서 MSER 객체를 추출한다. 추출된 MSER 객체는 그 자체로 문서 이미지 이진화에 사용되기는 어렵기 때문에 사용하기 적합한 형태로 변경되는 과정을 거친다. 그리고 최종 MSER 객체와 문서 이미지로부터 추출한 대비 이진 이미지를 이용하여 최종 이진 이미지를 계산한다. 실험결과는 본 논문에서 제안한 방법이 문서 이미지의 이진화에 유용함을 보여준다.

Mongolian Traditional Stamp Recognition using Scalable kNN

  • Gantuya., P;Mungunshagai., B;Suvdaa., B
    • International journal of advanced smart convergence
    • /
    • 제4권2호
    • /
    • pp.170-176
    • /
    • 2015
  • The stamp is one of the crucial information of traditional historical and cultural for nations. In this paper, we purpose to detect official stamps from scanned document and recognize the Mongolian traditional, historical stamps. Therefore we performed following steps: first, we detect official stamps from scanned document based on red-color segmentation and document standard. Then we collected 234 traditional stamp images with 6 classes and 100 official stamp images from scanned document images. Also we implemented the processing algorithms for noise removing, resize and reshape etc. Finally, we proposed a new scale invariant classification algorithm based on KNN (k-nearest neighbor). In the experimental result, our proposed a method had shown proper recognition rate.

딥러닝을 통한 문서 내 표 항목 분류 및 인식 방법 (Methods of Classification and Character Recognition for Table Items through Deep Learning)

  • 이동석;권순각
    • 한국멀티미디어학회논문지
    • /
    • 제24권5호
    • /
    • pp.651-658
    • /
    • 2021
  • In this paper, we propose methods for character recognition and classification for table items through deep learning. First, table areas are detected in a document image through CNN. After that, table areas are separated by separators such as vertical lines. The text in document is recognized through a neural network combined with CNN and RNN. To correct errors in the character recognition, multiple candidates for the recognized result are provided for a sentence which has low recognition accuracy.

카메라 기반 문서 인식을 위한 적응적 이진화 (Adaptive Binarization for Camera-based Document Recognition)

  • 김인중
    • 한국산업정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.132-140
    • /
    • 2007
  • 카메라 영상은 명도의 변화와 부정확한 초점으로 인해 스캐너 영상에 비하여 화질이 저하된다. 본 연구에서는 카메라 영상에서 자주 발생하는 화질 저하에 대한 적응력을 강화하여 카메라기반 문서 인식에 적합한 이진화 방법을 제안한다. 기존의 평가에서 우수하다고 보고된 이진화 방법을 기반으로 하되, 낮은 조도와 부정확한 초점으로 인해 명도 대비가 낮은 영상에 대한 적응력을 강화하였다. 또한 이진화 시 국소 윈도우를 이용하여 기존의 방법에서 뭉개지기 쉬운 문자의 세부 구조를 섬세하게 추출하도록 개선하였다. 실험에서는 기존에 우수하다고 평가된 이진화 방법들과 제안하는 방법을 문서 인식에 적용하여 다양한 카메라 문서 영상에 대한 성능을 비교하였는데, 그 결과 제안하는 방법이 카메라로 입력받은 문서 영상의 인식에 효과적임을 확인하였다.

  • PDF

문서 처리 자동화를 위한 다양한 표 유형에서 표 구조 인식 방법 (Structure Recognition Method in Various Table Types for Document Processing Automation)

  • 이동석;권순각
    • 한국멀티미디어학회논문지
    • /
    • 제25권5호
    • /
    • pp.695-702
    • /
    • 2022
  • In this paper, we propose the method of a table structure recognition in various table types for document processing automation. A table with items surrounded by ruled lines are analyzed by detecting horizontal and vertical lines for recognizing the table structure. In case of a table with items separated by spaces, the table structure are recognized by analyzing the arrangement of row items. After recognizing the table structure, the areas of the table items are input into OCR engine and the character recognition result output to a text file in a structured format such as CSV or JSON. In simulation results, the average accuracy of table item recognition is about 94%.

한국어 미등록어 인식을 위한 단계별 접근방법 (Step-by-step Approach for Effective Korean Unknown Word Recognition)

  • 박소영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.369-372
    • /
    • 2009
  • 최근 웹 문서 뿐만 아니라 신문기사에서도 미드(미국드라마)나 안습(안구에 습기차다)와 같은 신조어를 사용하고 있다. 그러나, 사전에 등록되지 않은 이러한 단어는 한국어 분석기의 성능을 떨어뜨리는 주요인이 된다. 이러한 미등록어를 자동으로 인식하기 위해서, 본 논문에서는 전문분석 기반 미등록 명사 인식 단계, 웹 출현빈도 기반 미등록 용언 인식 단계, 웹 출현빈도 기반 미등록 명사 인식단계로 구성된 단계별 접근방법을 제안한다. 제안하는 방법은 문서에서 여러 번 나타난 미등록어를 정확하게 인식할 수 있도록 전문분석 기반 단계를 포함한다. 한편, 문서에 한번 나타난 미등록어도 광범위하게 인식할 수 있도록 웹 출현 빈도 기반 단계도 포함한다. 그리고, 다양한 한국어 미등록어를 인식하기 위해서 미등록 명사 인식 단계와 미등록 용언 인식 단계를 구분한다. 실험결과 기존 접근방법에 비해 제안하는 접근방법은 정확률 1.01%와 재현율 8.50%를 개선하였다.

  • PDF