• 제목/요약/키워드: character table

검색결과 90건 처리시간 0.031초

문자 인식 후처리를 위한 형태소 분석기와 문자 교정기의 구현 (Implementation of morphologica analyzer and spelling corrector for charcter recognition post-processing)

  • 이영화;김규성;김영훈;이상조
    • 전자공학회논문지C
    • /
    • 제34C권5호
    • /
    • pp.82-92
    • /
    • 1997
  • In this paper, we propose post-rpocessing method that corrects a misrecognized character by generated a characater recognizer using morphological analyzer and spelling corrector. The proposed post-processing consists of sthree phases : First, our method pass through morhological analyzer which only outputted necessary information for spelling correcting, doesn't analyze a bundle of phrases, and detects the location of misrecognized character. Second, tagging the generated candidate character using the information of character substitution table and grapheme substitution/separating table. Then we retry analysis after the misrecognition character has been substituted. Finally we select table, we investigate misrecognized charcters in CORPUS. Reliability analysis used to frequency of randomly selected about 100,000 words in CORPUS. A korean character recognizer demonstrates 93% correction rate without a post-processing. The entire recognition rate of our system with a post-processing exceeds 97% correction rate.

  • PDF

Document Structure Understanding on Subjects Registration Table

  • Ito, Yuichi;Ohno, Masanaga;Tsuruoka, Shinji;Yoshikawa, Tomohiro;Tsuyoshi, Shinogi
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.571-574
    • /
    • 2003
  • This research is aimed to automate the generating process of the database from paper based table forms like this work. The registration table has so complicate table structures, ana in this research we used the registration tables as an example of general table structure understanding. We propose a table structure understanding system for some table types, and it has some steps. The first step is that the document images on paper are read from the image scanner. The second step is that a document image segments into some tables. In the third step, the character strings is extracted using image processing technology and the property of the character strings is determined. And the structured database is generated automatically. The proposed system consists of two systems. "Master document generation system" is used for the table form definition, and it doesn′t include the handwritten characters. "Structure analysis system for complete d table" is used for the written form, and it analyzes the table form filled in the handwritten character. We implemented the system using MS Visual C++ on Windows, and it can get the correct extraction rate 98% among 51 registration tables written by the different students.

  • PDF

딥러닝을 통한 문서 내 표 항목 분류 및 인식 방법 (Methods of Classification and Character Recognition for Table Items through Deep Learning)

  • 이동석;권순각
    • 한국멀티미디어학회논문지
    • /
    • 제24권5호
    • /
    • pp.651-658
    • /
    • 2021
  • In this paper, we propose methods for character recognition and classification for table items through deep learning. First, table areas are detected in a document image through CNN. After that, table areas are separated by separators such as vertical lines. The text in document is recognized through a neural network combined with CNN and RNN. To correct errors in the character recognition, multiple candidates for the recognized result are provided for a sentence which has low recognition accuracy.

문서 처리 자동화를 위한 다양한 표 유형에서 표 구조 인식 방법 (Structure Recognition Method in Various Table Types for Document Processing Automation)

  • 이동석;권순각
    • 한국멀티미디어학회논문지
    • /
    • 제25권5호
    • /
    • pp.695-702
    • /
    • 2022
  • In this paper, we propose the method of a table structure recognition in various table types for document processing automation. A table with items surrounded by ruled lines are analyzed by detecting horizontal and vertical lines for recognizing the table structure. In case of a table with items separated by spaces, the table structure are recognized by analyzing the arrangement of row items. After recognizing the table structure, the areas of the table items are input into OCR engine and the character recognition result output to a text file in a structured format such as CSV or JSON. In simulation results, the average accuracy of table item recognition is about 94%.

음성처리를 위한 표준 발음법의 전산화 (Computerization and Application of Hangeul Standard Pronunciation Rule)

  • 이계영
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1363-1366
    • /
    • 2003
  • This paper introduces computerized version of Hangout(Korean Language) Standard Pronunciation Rule that can be used in Korean processing systems such as Korean voice synthesis system and Korean voice recognition system. For this purpose, we build Petri net models for each items of the Standard Pronunciation Rule, and then integrate them into the vocal sound conversion table. The reversion of Hangul Standard Pronunciation Rule regulates the way of matching vocal sounds into grammatically correct written characters. This paper presents not only the vocal sound conversion table but also character conversion table obtained by reversely converting the vocal sound conversion table. Making use of these tables, we have implemented a Hangeul character into a vocal sound system and a Korean vocal sound into character conversion system, and tested them with various data sets reflecting all the items of the Standard Pronunciation Rule to verify the soundness and completeness of our tables. The test results shows that the tables improves the process speed in addition to the soundness and completeness.

  • PDF

한국어 표준발음법의 전산화 및 응용 (Computerization and Application of the Korean Standard Pronunciation Rules)

  • 이계영;임재걸
    • 한국언어정보학회지:언어와정보
    • /
    • 제7권2호
    • /
    • pp.81-101
    • /
    • 2003
  • This paper introduces a computerized version of the Korean Standard Pronunciation Rules that can be used in speech engineering systems such as Korean speech synthesis and recognition systems. For this purpose, we build Petri net models for each item of the Standard Pronunciation Rules, and then integrate them into the sound conversion table. The reversion of the Korean Standard Pronunciation Rules regulates the way of matching sounds into grammatically correct written characters. This paper presents not only the sound conversion table but also the character conversion table obtained by reversely converting the sound conversion table. Malting use of these tables, we have implemented a Korean character into a sound system and a Korean sound into the character conversion system, and tested them with various data sets reflecting all the items of the Standard Pronunciation Rules to verify the soundness and completeness of our tables. The test results show that the tables improve the process speed in addition to the soundness and completeness.

  • PDF

문서 영상 내의 테이블 벡터화 연구 (Research on the Table Vacuolization in the Document Image)

  • 김우성;심진보;박용범;문경애;지수영
    • 한국정보처리학회논문지
    • /
    • 제3권5호
    • /
    • pp.1147-1159
    • /
    • 1996
  • 본 논문에서는 문서인식 시스템에서 정확한 문서 인식의 기본이 되고 인식 결과에 중요한 영향을 미치는 전처리 알고리즘 중 테이블 입력의 효율적인 처리 방법을 연구 한다. 테이블 내의 문자를 인식하기 위해서는 테두리선과 문자 부분을 먼저 분리하는 작업이 필요하다. 왜냐하면, 테이블을 인식하기 위해서는 테두리선에 의해 블록화된 테두리선 안의 문자를 인식해야 하며 또한 테두리선을 효율적으로 벡터화하는 방법이 필요하다. 테이블을 벡터화하는 방법으로 8방향 체인 코드를 이용하여 테이블 선 성분을 추출하는 방법과 히스토그램을 이용하여 테이블의 수행, 수직 성분을 추출 하여 얻어진 교차점을 이용하여 대각선 성분을 찾아내는 방법 및 화소의 Run-length를 이용하여 수평선 성분과 수직선 성분을 추출하여 얻어진 교차점을 이용해 대각선성분 을 찾아내는 방법이 있다. 또한 규칙성을 이용한 테이블 추출 방법은 테이블을 구성하는 수직선 성분과 수평선 성분의 규칙성을 찾아내 이를 이용하여 테이블을 벡터화 시킨다. 본 논문에서는 문서 영상 내의 테이블을 효율적으로 벡터화하기 위한 방법으로 규칙성을 이용한 방법을 제안한다.

  • PDF

산업연관분석에 의한 캐릭터 산업의 경제적 효과 분석 (The Analysis of Economic Contribution of Beauty Industry by Input-Output Table)

  • 이유빈;김언군;배기형
    • 한국콘텐츠학회논문지
    • /
    • 제13권12호
    • /
    • pp.945-956
    • /
    • 2013
  • 캐릭터 산업은 고부가가치 문화산업이며, 반드시 육성해야 하는 전략산업 중의 하나이다. 그러나 캐릭터 산업의 중요성과 가치에 대한 국가적인 공감대의 형성 부족과 영화산업을 국가 전략산업으로서의 가치 인식의 미미로 인하여 캐릭터 산업의 발전에 큰 어려움을 겪고 있다. 본 연구는 한국은행의 2009년 산업연관표상 기본분류인 403개 산업 중 장난감 및 오락용품(291), 모형 및 장식용품(296) 등 2개 부문을 캐릭터산업으로 한정하고 새로이 캐릭터 산업연관표를 작성, 활용하여 캐릭터산업의 경제적 효과를 계량적으로 측정, 평가하여 향후 캐릭터산업의 정책과 전략수립에 일조하는데 목적이 있다. 연구 결과 다음과 같다. 캐릭터 산업의 생산유발계수는 열 합계 1.602, 행 합계 1.007, 감응도 계수 0.543,로 영향력계수 0.864, 부가가치유발계수 0.620, 소득유발계수 0.334, 생산세유발계수 0.066, 노동유발계수 0.008 등을 보여주고 있다.

다중 언어로 작성된 문서 파일에 적용된 문자 인코딩 자동 인식 기법 (A Method for Automatic Detection of Character Encoding of Multi Language Document File)

  • 서민지;김명호
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권4호
    • /
    • pp.170-177
    • /
    • 2016
  • 문자 인코딩은 문서를 컴퓨터에서 이용할 수 있도록 문자 코드 테이블을 이용하여 이진화하는 방법이다. 이진화된 문서를 읽기 위해서는, 문서에 적용된 문자 코드를 이용하여 문자 인코딩을 알아내야 한다. 본 논문에서는 문서의 문자 인코딩을 자동으로 판별하는 방법을 제시한다. 제안하는 방법은 이스케이프 문자를 이용한 판별법, 문서에 나타난 코드 값 범위 판별법, 문서에 나타난 코드 값의 특징 판별법, 각 언어별 자주 사용하는 단어를 이용한 판별법과 같은 여러 단계를 걸쳐 문서에 적용된 문자 인코딩을 판별한다. 자주 사용하는 단어를 이용한 방법은 문서를 언어별로 분류하여 문자 인코딩을 판별하기 때문에, 다국어 문서에서 기존의 방법보다 높은 문자 인코딩 인식률을 보인다. 주로 표현하는 언어의 비중이 20% 미만일 경우, 기존의 방법은 약 50%의 문자 인코딩 인식률을 보였으나, 제안하는 방법은 문자 인코딩에서 표현하는 언어의 비중과는 상관없이 96% 이상의 문자 인코딩 인식률을 보였다.