• 제목/요약/키워드: OCR text extraction

검색결과 28건 처리시간 0.028초

Development of an Automated ESG Document Review System using Ensemble-Based OCR and RAG Technologies

  • Eun-Sil Choi
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권9호
    • /
    • pp.25-37
    • /
    • 2024
  • 본 연구는 ESG 서류 검토 과정의 효율성 향상을 위해, 광학 문자 인식(OCR)과 검색 증강 생성(RAG) 기술을 융합한 새로운 자동화 시스템을 제안한다. 제안된 시스템은 OCR 프로세스에 앙상블 모델 기반의 이미지 전처리 알고리즘과 하이브리드 정보 추출 모델을 적용하여 텍스트 인식의 정확도를 향상시키며, RAG 파이프라인에 레이아웃 분석 알고리즘과 재순위화 알고리즘, 앙상블 검색기 등을 적용하여 정보 검색과 답변 생성의 신뢰성을 최적화한다. 시스템의 성능을 평가하기 위해 온라인 포털에 게시된 인증서 이미지와 기업 웹사이트 등에 공개된 회사 내규를 사용하여 테스트를 진행한 결과, 인증서 검토에서 93.8%, 회사 내규 검토에서 92.2%의 정확도를 달성하며, 제안된 시스템이 ESG 평가 과정에서 인간 평가자를 효과적으로 보조할 수 있음을 보여주었다.

Arabic Words Extraction and Character Recognition from Picturesque Image Macros with Enhanced VGG-16 based Model Functionality Using Neural Networks

  • Ayed Ahmad Hamdan Al-Radaideh;Mohd Shafry bin Mohd Rahim;Wad Ghaban;Majdi Bsoul;Shahid Kamal;Naveed Abbas
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권7호
    • /
    • pp.1807-1822
    • /
    • 2023
  • Innovation and rapid increased functionality in user friendly smartphones has encouraged shutterbugs to have picturesque image macros while in work environment or during travel. Formal signboards are placed with marketing objectives and are enriched with text for attracting people. Extracting and recognition of the text from natural images is an emerging research issue and needs consideration. When compared to conventional optical character recognition (OCR), the complex background, implicit noise, lighting, and orientation of these scenic text photos make this problem more difficult. Arabic language text scene extraction and recognition adds a number of complications and difficulties. The method described in this paper uses a two-phase methodology to extract Arabic text and word boundaries awareness from scenic images with varying text orientations. The first stage uses a convolution autoencoder, and the second uses Arabic Character Segmentation (ACS), which is followed by traditional two-layer neural networks for recognition. This study presents the way that how can an Arabic training and synthetic dataset be created for exemplify the superimposed text in different scene images. For this purpose a dataset of size 10K of cropped images has been created in the detection phase wherein Arabic text was found and 127k Arabic character dataset for the recognition phase. The phase-1 labels were generated from an Arabic corpus of quotes and sentences, which consists of 15kquotes and sentences. This study ensures that Arabic Word Awareness Region Detection (AWARD) approach with high flexibility in identifying complex Arabic text scene images, such as texts that are arbitrarily oriented, curved, or deformed, is used to detect these texts. Our research after experimentations shows that the system has a 91.8% word segmentation accuracy and a 94.2% character recognition accuracy. We believe in the future that the researchers will excel in the field of image processing while treating text images to improve or reduce noise by processing scene images in any language by enhancing the functionality of VGG-16 based model using Neural Networks.

Correction of Signboard Distortion by Vertical Stroke Estimation

  • Lim, Jun Sik;Na, In Seop;Kim, Soo Hyung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권9호
    • /
    • pp.2312-2325
    • /
    • 2013
  • In this paper, we propose a preprocessing method that it is to correct the distortion of text area in Korean signboard images as a preprocessing step to improve character recognition. Distorted perspective in recognizing of Korean signboard text may cause of the low recognition rate. The proposed method consists of four main steps and eight sub-steps: main step consists of potential vertical components detection, vertical components detection, text-boundary estimation and distortion correction. First, potential vertical line components detection consists of four steps, including edge detection for each connected component, pixel distance normalization in the edge, dominant-point detection in the edge and removal of horizontal components. Second, vertical line components detection is composed of removal of diagonal components and extraction of vertical line components. Third, the outline estimation step is composed of the left and right boundary line detection. Finally, distortion of the text image is corrected by bilinear transformation based on the estimated outline. We compared the changes in recognition rates of OCR before and after applying the proposed algorithm. The recognition rate of the distortion corrected signboard images is 29.63% and 21.9% higher at the character and the text unit than those of the original images.

문서 영상 내 테이블 영역에서의 단어 추출 (Word Extraction from Table Regions in Document Images)

  • 정창부;김수형
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.369-378
    • /
    • 2005
  • 문서 영상은 문서 구조 분석을 통하여 텍스트, 그림, 테이블 등의 세부 영역으로 분할 및 분류되는데, 테이블 영역에 있는 단어는 다른 영역의 단어보다 의미가 있기 때문에 주제어 검색과 같은 응용 분야에서 중요한 역할을 한다. 본 논문에서는 문서 영상의 테이블 영역에 존재하는 문자 성분을 단어단위로 추출하는 방법을 제안한다. 테이블 영역에서의 단어 추출은 실질적으로 테이블을 구성하는 셀 영역에서 단어를 추출하는 것이기 때문에 정확한 셀 추출 과정이 필요하다. 셀 추출은 연결 요소를 분석하여 테이블 프레임을 찾아내고, 교차점 검출은 전체가 아닌 테이블 프레임에 대해서만 수행한다. 잘못 검출된 교차점은 이웃하는 교차점과의 관계를 이용하여 수정하고, 최종 교차점 정보를 이용하여 셀을 추출한다. 추출된 셀 내부에 있는 텍스트 영역은 셀 추출 과정에서 분석한 문자성분의 연결 요소 정보를 재사용하여 결정하고, 결정된 텍스트 영역은 투영 프로파일을 분석하여 문자연로 분리된다. 마지막으로 분리된 문자열에 대하여 갭 군집화와 특수 기호 검출을 수행함으로써 단어 분리를 수행한다. 제안 방법의 성능 평가를 위하여 한글 논문 영상으로부터 추출한 총 In개의 테이블 영상에 대해 실험한 결과, $99.16\%$의 단어 추출 성공률을 얻을 수 있었다.

스마트폰 카메라 기반 아동 교육용 산수 블록 인식 애플리케이션 개발 (Development of a Blocks Recognition Application for Children's Education using a Smartphone Camera)

  • 박상아;오지원;홍인식;남윤영
    • 인터넷정보학회논문지
    • /
    • 제20권4호
    • /
    • pp.29-38
    • /
    • 2019
  • 현재 정보사회는 빠르게 격변하며 다양한 분야에서 혁신과 창의성을 요구하고 있으며 논리적 사고의 근간이 될 수 있는 수학의 중요성이 강조되고 있다. 본 논문의 목적은 아동들에게 수학 학습에 대한 동기와 흥미를 유발하기 위해 아동들이 손쉽게 사용할 수 있는 교구를 이용하여 수학영역의 논리적인 사고가 더욱 확장되고 자발적 학습이 일어날 수 있는 수학교육 애플리케이션을 개발하는 것이다. 본 논문에서는 스마트 기기와 블록을 이용하여 수학 교육 애플리케이션을 설계하고 구현하였다. 애플리케이션의 주 기능은 카메라를 이용한 촬영과 수식 계산 값 확인이다. 아동이 산수 교육용 블록을 이용해 수식을 만든 뒤 카메라를 이용하여 블록을 촬영하면 자신이 만든 수식의 계산 값을 직접 확인할 수 있다. 촬영한 이미지의 전 처리 과정과 텍스트 추출, 문자인식은 OpenCV 라이브러리와 Tesseract-OCR 라이브러리로 구현하였다.

딥러닝에 의한 한글 필기체 교정 어플 구현 (An Implementation of Hangul Handwriting Correction Application Based on Deep Learning)

  • 이재형;조민영;김진수
    • 한국산업정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.13-22
    • /
    • 2024
  • 현재 디지털 기기의 확산과 함께 일상에서 손으로 쓰는 글씨의 비중은 점점 줄어들고 있다. 키보드와 터치스크린의 활용도 증가에 따라 한글 필기체의 품질 저하는 어린 학생부터 성인까지 넓은 범위의 한글 문서에서 관찰되고 있다. 그러나 한글 필기체는 여전히 개인적인 고유한 특징을 포함하면서 가독성을 제공하는 많은 문서 작성에 필요하다. 이를 위해 본 논문에서는 손으로 쓴 한글 필기체의 품질을 개선하고, 교정하기 위한 목적의 어플 구현을 목적으로 한다. 제안된 어플은 CRAFT(Character-Region Awareness For Text Detection) 모델을 사용하여 필기체 영역을 검출하고, 딥러닝으로서 VGG-Feature-Extraction 모델을 사용하여 필기체의 특징을 학습한다. 이때 사용자가 작성한 한글 필기체의 음절 단위로 신뢰도를 인식률로 제시하고, 또한, 후보 폰트들중에서 가장 유사한 글자체를 추천하도록 구현한다. 다양한 실험을 통해 제안한 어플은 기존의 상용화된 문자 인식 소프트웨어와 비교할만한 우수한 인식률을 제공함을 확인할 수 있다.

광학문자 인식을 이용한 여행 정보 공유 시스템의 개발 (The Development of Travel Data Sharing System using the Optical Character Reader.)

  • 박주현;이현동;김동현;조대수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.189-190
    • /
    • 2018
  • 최근에는 여행에 대한 각종 정보가 많이 공유되는 추세이다. 최근 사람들은 소셜 네트워크 서비스를 이용 중이거나 웹 서핑을 하는 도중에 기억하고 싶어 하는 여행지를 단순히 캡처 해놓거나 메모장에 기록해둔다. 이러한 방법은 시간이 지나 많은 데이터가 쌓이면 관리하기 어렵다는 문제가 존재한다. 본 논문에서는 사용자의 편리를 고려하여 사진의 텍스트를 광학식 문자 판독을 활용하여 출력하고 게시 글 형태로 저장할 수 있게 개발하였다. 명소의 위치 또한 자동완성 위치 검색 라이브러리를 통하여 편리 저장이 가능하다. 위치 데이터를 통해 향후 사용자가 근접하고 있는 여행지 또한 제공해줄 수 있도록 구현하였다. 이를 위하여 웹을 통해서 이용할 수도 있으며 실시간 검색과 알림 이벤트를 위해 웹 주소 입력 없이도 앱을 실행할 수 있는 프로그래시브웹 앱을 구현하였다.

  • PDF

레시피 데이터 기반의 식재료 궁합 분석을 이용한 레시피 추천 시스템 구현 (Implementation of Recipe Recommendation System Using Ingredients Combination Analysis based on Recipe Data)

  • 민성희;오유수
    • 한국멀티미디어학회논문지
    • /
    • 제24권8호
    • /
    • pp.1114-1121
    • /
    • 2021
  • In this paper, we implement a recipe recommendation system using ingredient harmonization analysis based on recipe data. The proposed system receives an image of a food ingredient purchase receipt to recommend ingredients and recipes to the user. Moreover, it performs preprocessing of the receipt images and text extraction using the OCR algorithm. The proposed system can recommend recipes based on the combined data of ingredients. It collects recipe data to calculate the combination for each food ingredient and extracts the food ingredients of the collected recipe as training data. And then, it acquires vector data by learning with a natural language processing algorithm. Moreover, it can recommend recipes based on ingredients with high similarity. Also, the proposed system can recommend recipes using replaceable ingredients to improve the accuracy of the result through preprocessing and postprocessing. For our evaluation, we created a random input dataset to evaluate the proposed recipe recommendation system's performance and calculated the accuracy for each algorithm. As a result of performance evaluation, the accuracy of the Word2Vec algorithm was the highest.