• 제목/요약/키워드: OCR text extraction

검색결과 27건 처리시간 0.032초

이미지 내의 텍스트 데이터 인식 정확도 향상을 위한 멀티 모달 이미지 처리 프로세스 (Multi-modal Image Processing for Improving Recognition Accuracy of Text Data in Images)

  • 박정은;주경돈;김철연
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.148-158
    • /
    • 2018
  • 광학 문자 인식(OCR)은 텍스트를 포함한 이미지에서 텍스트 영역을 인식하고 이로부터 텍스트를 추출하는 기술이다. 전체 텍스트 데이터 중 상당히 많은 텍스트 정보가 이미지에 포함되어 있기 때문에 OCR은 데이터 분석 분야에 있어 중요한 전처리 단계를 담당한다. 대부분의 OCR 엔진이, 흰 바탕의 검정 글씨의 단순한 형태를 가진 이미지와 같은, 텍스트와 배경의 구분이 뚜렷한 저 복잡도 이미지에 대해서는 높은 인식률을 보이는 반면, 텍스트와 배경의 구분이 뚜렷하지 않은 고 복잡도 이미지에 대해서는 저조한 인식률을 보이기 때문에, 인식률 개선을 위해 입력 이미지를 OCR 엔진이 처리하기 용이한 이미지로 변형하는 전처리 작업이 필요하게 된다. 따라서 본 논문에서는 OCR 엔진의 정확성 증대를 위해 텍스트 라인별로 이미지를 분리하고, 영상처리 기법 기반의 CLAHE 모듈과 Two-step 모듈을 병렬적으로 수행하여 텍스트와 배경 영역을 효율적으로 분리한 후 텍스트를 인식한다. 이어서 두 모듈의 결과 텍스트에 대하여 N-gram방법과 Hunspell 사전을 결합한 알고리즘으로 인식률을 비교하여 가장 높은 인식률의 결과 텍스트를 최종 결과물로 선정하는 방법론을 제안한다. 대표적인 OCR 엔진인 Tesseract와 Abbyy와의 다양한 비교 실험을 통해 본 연구에서 제안하는 모듈이 복잡한 배경을 가진 이미지에서 가장 정확한 텍스트 인식률을 보임을 보였다.

실시간 글자 인식을 위한 안드로이드 기반의 글자 영역 추출 기술 (A text region extraction algorithm based on Android for real-time text recognition)

  • 이규철;이상용;유지상
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 추계학술대회
    • /
    • pp.194-196
    • /
    • 2016
  • 본 논문에서는 안드로이드 환경에서 글자 인식을 위한 전처리 과정으로 입력 영상에서 글자 영역만을 추출하는 기법을 제안한다. 대부분의 글자 인식 어플리케이션에서 글자를 인식하는 방법은 RoI(Region of Interest)에 인식하려는 글자를 위치시켜 놓고 사용자가 촬영함으로써 진행된다. 하지만 촬영된 영상 그대로를 인식에 사용하기 때문에 잡음 및 글자가 아닌 영역들을 글자로 인식하는 문제 등으로 인하여 인식률이 현저히 떨어진다. 제안하는 기법에서는 MSER(Maximally Stable Extremal Regions) 기법을 통해 각각의 글자를 추출한 후, 글자의 특성을 이용하여 글자 영역만을 추출한다. 기법의 성능 평가는 무료 OCR(Optical Character Recognition) 엔진인 Tesseract-OCR을 통해 글자 인식률을 비교하였으며, 제안하는 기법을 적용한 글자 인식 시스템이 적용하지 않은 시스템보다 글자의 인식률이 향상되는 것을 확인하였다.

  • PDF

골프 동영상에서의 강건한 선수명 인식 (Robust Recognition of a Player Name in Golf Videos)

  • 정철곤;김중규
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.659-662
    • /
    • 2008
  • 스포츠의 경기에서 비디오 문자는 득점이나 선수명과 같은 중요한 정보를 제공한다. 본 논문에서는 골프 동영상에서 선수명 정보를 강건하게 인식하는 방법을 제안한다. 골프 경기의 경우, 원하는 선수의 플레이 장면을 검색하고자 하는 요구가 많은 스포츠 종목이다. 이러한 기능을 구현하기 위해 골프 동영상에 포함된 문자 정보를 이용한다. OCR 에 의해 검출된 문자 정보를 인식한 후, 사전 등록된 선수명 DB 를 이용해 선수명 정보를 인식한다. 이렇게 획득된 선수명 정보를 이용해 원하는 선수의 플레이 장면을 검색할 수 있도록 하였다. 다양한 골프 동영상에 대하여 실험을 수행한 결과, 본 논문에서 제안한 방법이 강건하게 선수명을 인식하는 것을 확인하였다.

  • PDF

Development of a Low-cost Industrial OCR System with an End-to-end Deep Learning Technology

  • Subedi, Bharat;Yunusov, Jahongir;Gaybulayev, Abdulaziz;Kim, Tae-Hyong
    • 대한임베디드공학회논문지
    • /
    • 제15권2호
    • /
    • pp.51-60
    • /
    • 2020
  • Optical character recognition (OCR) has been studied for decades because it is very useful in a variety of places. Nowadays, OCR's performance has improved significantly due to outstanding deep learning technology. Thus, there is an increasing demand for commercial-grade but affordable OCR systems. We have developed a low-cost, high-performance OCR system for the industry with the cheapest embedded developer kit that supports GPU acceleration. To achieve high accuracy for industrial use on limited computing resources, we chose a state-of-the-art text recognition algorithm that uses an end-to-end deep learning network as a baseline model. The model was then improved by replacing the feature extraction network with the best one suited to our conditions. Among the various candidate networks, EfficientNet-B3 has shown the best performance: excellent recognition accuracy with relatively low memory consumption. Besides, we have optimized the model written in TensorFlow's Python API using TensorFlow-TensorRT integration and TensorFlow's C++ API, respectively.

Optical Character Recognition for Hindi Language Using a Neural-network Approach

  • Yadav, Divakar;Sanchez-Cuadrado, Sonia;Morato, Jorge
    • Journal of Information Processing Systems
    • /
    • 제9권1호
    • /
    • pp.117-140
    • /
    • 2013
  • Hindi is the most widely spoken language in India, with more than 300 million speakers. As there is no separation between the characters of texts written in Hindi as there is in English, the Optical Character Recognition (OCR) systems developed for the Hindi language carry a very poor recognition rate. In this paper we propose an OCR for printed Hindi text in Devanagari script, using Artificial Neural Network (ANN), which improves its efficiency. One of the major reasons for the poor recognition rate is error in character segmentation. The presence of touching characters in the scanned documents further complicates the segmentation process, creating a major problem when designing an effective character segmentation technique. Preprocessing, character segmentation, feature extraction, and finally, classification and recognition are the major steps which are followed by a general OCR. The preprocessing tasks considered in the paper are conversion of gray scaled images to binary images, image rectification, and segmentation of the document's textual contents into paragraphs, lines, words, and then at the level of basic symbols. The basic symbols, obtained as the fundamental unit from the segmentation process, are recognized by the neural classifier. In this work, three feature extraction techniques-: histogram of projection based on mean distance, histogram of projection based on pixel value, and vertical zero crossing, have been used to improve the rate of recognition. These feature extraction techniques are powerful enough to extract features of even distorted characters/symbols. For development of the neural classifier, a back-propagation neural network with two hidden layers is used. The classifier is trained and tested for printed Hindi texts. A performance of approximately 90% correct recognition rate is achieved.

인보이스 서류 영상의 테이블 헤더 문자 분류를 통한 구매 정보 추출 모델 (Purchase Information Extraction Model From Scanned Invoice Document Image By Classification Of Invoice Table Header Texts)

  • 신현경
    • 디지털융복합연구
    • /
    • 제10권11호
    • /
    • pp.383-387
    • /
    • 2012
  • 스캔된 인보이스에 특화된 서류 관리 자동화 시스템 구축에있어서 추출된 금전적 데이터의 정확도에대한 엄격한 요구는 인보이스 테이블을 위한 발생적 모델 설계에서 자체 인증 절차를 포함하는 것을 필요로 한다. 가격 = 단가 ${\times}$ 구매수량과 같은 내부적 관계식을 활용한 단순한 인증 절차를 사용하는 것이 전형적 방법론이다. 본 논문에서 는 영상내 테이블 헤더 부분의 탐색과 탐색된 헤더의 컬럼 구분자를 활용하는 개선된 자동 인증 절차를 갖춘 인보이스내 정보 추출 모델을 제안한다.

기계학습 알고리즘 기반 하자 정보 관리 시스템 개발 - 공동주택 전용부분을 중심으로 - (A Developing a Machine Leaning-Based Defect Data Management System For Multi-Family Housing Unit)

  • 박다슬;차희성
    • 한국건설관리학회논문집
    • /
    • 제24권5호
    • /
    • pp.35-43
    • /
    • 2023
  • 공동주택 하자 분쟁의 증가와 함께, 하자관리의 중요성 또한 커지고 있다. 그러나 기존의 연구는 '공용 부분'에 초점을 맞추어 진행되었다. 또한 하자관리의 주체인 '관리사무소'를 위한 시스템 연구도 부족한 실정이다. 이는 관리사무소의 하자관리 능력의 부족과 관리 품질의 저하를 초래한다. 따라서, 본 논문에서는 관리사무소를 위한 기계학습 기반의 하자 정보 관리 시스템을 제안한다. OCR과 NLP 모듈을 사용하여 관리상의 불편한 점을 해소하는 것을 목표로 한다. OCR을 통해 수기로 작성된 하자 정보를 디지털 문서로 변환한다. 이후 언어모델을 이용하여 사용자가 지정한 양식과 함께 하자 정보를 재생성한다. 최종적으로 생성된 텍스트를 데이터베이스에 저장하고 이를 기반으로 통계적 분석을 실행한다. 이러한 일련의 과정을 통해, 관리사무소의 하자관리 역량을 향상할 수 있도록 돕고, 의사결정을 지원할 수 있을 것으로 기대한다.

Illumination-Robust Foreground Extraction for Text Area Detection in Outdoor Environment

  • Lee, Jun;Park, Jeong-Sik;Hong, Chung-Pyo;Seo, Yong-Ho
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권1호
    • /
    • pp.345-359
    • /
    • 2017
  • Optical Character Recognition (OCR) that has been a main research topic of computer vision and artificial intelligence now extend its applications to detection of text area from video or image contents taken by camera devices and retrieval of text information from the area. This paper aims to implement a binarization algorithm that removes user intervention and provides robust performance to outdoor lights by using TopHat algorithm and channel transformation technique. In this study, we particularly concentrate on text information of outdoor signboards and validate our proposed technique using those data.

TextRank 기반의 한국어 기사 추출 및 텍스트 처리 (Korean Article Extraction and Text Processing based on TextrRank Library)

  • 이세훈;공진용;황지현;예지민
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.199-200
    • /
    • 2021
  • 인터넷과 컴퓨팅 기술의 발전, 모바일 기기와 센서들의 진화, 소셜 네트워크의 출현 등으로 정보량은 급속도로 늘어나고 있다. 따라서 방대한 정보 속에서 의미있는 지식을 추출하기 위한 시스템의 기반 연구가 활발히 시도되고 있다. 본 논문에서는 텍스트 랭크를 사용한 중심 문장 추출을 통한 서비스와 사용자 이미지에 대한 한국어 OCR, 맞춤법 검사와 문장 생성을 가능케 하는 통합 한국어 처리 서비스 사이트를 구현함으로써, 신문 기사를 읽는 다수의 경제성을 확보했고, 한국어 처리의 편의성을 제공한다.

  • PDF

Separation of Text and Non-text in Document Layout Analysis using a Recursive Filter

  • Tran, Tuan-Anh;Na, In-Seop;Kim, Soo-Hyung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권10호
    • /
    • pp.4072-4091
    • /
    • 2015
  • A separation of text and non-text elements plays an important role in document layout analysis. A number of approaches have been proposed but the quality of separation result is still limited due to the complex of the document layout. In this paper, we present an efficient method for the classification of text and non-text components in document image. It is the combination of whitespace analysis with multi-layer homogeneous regions which called recursive filter. Firstly, the input binary document is analyzed by connected components analysis and whitespace extraction. Secondly, a heuristic filter is applied to identify non-text components. After that, using statistical method, we implement the recursive filter on multi-layer homogeneous regions to identify all text and non-text elements of the binary image. Finally, all regions will be reshaped and remove noise to get the text document and non-text document. Experimental results on the ICDAR2009 page segmentation competition dataset and other datasets prove the effectiveness and superiority of proposed method.