• 제목/요약/키워드: 문자 분류

검색결과 348건 처리시간 0.025초

A Priori and the Local Font Classification (연역적이고 국부적인 영문자의 폰트 분류법)

  • 정민철
    • Proceedings of the KAIS Fall Conference
    • /
    • 한국산학기술학회 2002년도 추계학술발표논문집
    • /
    • pp.205-208
    • /
    • 2002
  • 본 연구에서는 영문 단어로부터 폰트를 분류하기 위해 연역적이고 국부적인 폰트 분류 방법을 제안한다. 이는 문자 인식 전에 한 단어에서 폰트를 분류하는 것을 말한다. 폰트 분류를 위해 활자 특성인 Ascender, Descender와 Serif가 사용된다. 입력 단어로부터 Ascender, Descender와 Serif가 추출되어 특징 벡터가 추출되고, 그 특징 벡터는 인공 신경망에 의해 입력 단어에 대한 폰트 그룹, 폰트 이름이 분류된다. 제안된 연역적이고 국부적인 폰트 분류 방법은 폰트 정보가 문자 분할기와 문자 인식기에 사용될 수 있게 한다 나아가, 특정 폰트에 따른 Mono-font 문자 분할기와 Mono-Font 문자 인식기로 구성되는 OCR 시스템을 구성할 수 있는 것을 가능하게 한다.

The Similar Character Classification in the Mixed Document (혼용문서에서의 유사문자 분류)

  • Moon, Kyung-Ae;Chi, Su-Young;Oh, Weon-Geun
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.485-492
    • /
    • 1993
  • 본 논문에서는 혼용문서에서 문자들의 유사성으로 인해 발생하는 오인식문자를 줄이기위해 대분류 단계에서 유사문자군을 찾고 이들 사이의 유사도를 계산, 분류하는 유사문자분류 방법을 제안하였다. 이 방법은 유사문자군내의 각 문자마다 그 문자만이 갖는 고유한 요인과 그 문자를 제외한 나머지 문자일 가능성이 있는 요인을 찾아 입력문자와 비교하여 유사도가 가장 큰 문자를 인식문자로 선택하는 알고리즘이다. 또한, 인식 후 오인식된 문자들에 대해 특징사전의 갱신을 통하여 인식률을 향상시켰다.

  • PDF

A Study on the Classify of Character for Newspaper Automatic Recognition System (신문자동인식 시스템을 위한 문자의 분류에 관한 연구)

  • Lee, S.H.;Cheon, J.I.;Cho, Y.J.;NamKung, J.C.
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.209-215
    • /
    • 1989
  • 본 논문에서는 신문자동인식을 위한 신문문자의 분류에 관한 연구를 하였다. 먼저, 문서의 문자를 추출하기 위하여 블럭화를 행한다. 블럭화는 문자열을 찾아 절과절, 단어와 단어 사이를 찾아 분리구간을 정한다음 블럭을 합성 및 분리를 하였다. 다음으로 블럭화된 문자의 종류를 알기 위한 각 문자에 대하여 6 형식 분류를 하여 특성을 조사함으로써 문자분류를 행하였다. 본 연구에서는 실험을 용하여 블럭화는 충실하게 추출이 되어졌고 한글의 모아쓰기 특성과 한문과의 유사한 형식특성 때문에 분류에 어려움이 있었으나 비교적 충실하게 추출하였다.

  • PDF

Text Message Classification based on Machine Learning (기계학습과 언어처리에 기반한 문자메시지 분류)

  • Sun, Juoh;Ji, Myeonggeun;Choi, Beomhwi;Lee, Hyunah
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.492-495
    • /
    • 2019
  • 휴대전화 메시지로는 결제, 인증번호, 택배, 광고 등의 다양한 문자들이 수신된다. 이 문자들은 서로 섞여 있어 이용자가 찾고자 하는 문자를 찾는 데 어려움이 있다. 본 논문에서는 기계학습과 단어 임베딩을 통해 메시지들을 카테고리로 분류하는 방법을 제안하고, 이를 구현한 안드로이드 앱을 소개한다. 앱에서는 택배, 카드, 인증, 공공기관, 통신사, 대화, 기타의 7개의 분류로 메시지를 분류하며, 자동 분류에서는 수동 태깅한 5802건의 문자메시지를 사용한다. 앱에서는 저장된 문자메시지간 유사도에 기반한 오프라인에 서의 자동 분류를 지원하여 개인정보 노출에 대한 거부감이 있는 사용자의 요구를 반영한다.

  • PDF

Tyue Classification of Korean Characters Considering Relative Type Size (유형의 상대적 크기를 고려한 한글문자의 유형 분류)

  • Kim, Pyeoung-Kee
    • Journal of the Korea Society of Computer and Information
    • /
    • 제11권6호
    • /
    • pp.99-106
    • /
    • 2006
  • Type classification is a very needed step in recognizing huge character set language such as korean characters. Since most previous researches are based on the composition rule of Korean characters, it has been difficult to correctly classify composite vowel characters and problem space was not divided equally for the lack of classification of last consonant which is relatively bigger than other graphemes. In this paper, I Propose a new type classification method in which horizontal vowel is extracted before vortical vowel and last consonants are further classified into one of five small groups based on horizontal projection profile. The new method uses 19 character types which is more stable than previous 6 types or 15 types. Through experiments on 1.000 frequently used character sets and 30.614 characters scanned from several magazines, I showed that the proposed method is more useful classifying Korean characters of huge set.

  • PDF

On-line Handwriting Recognition Based on Substroke HMM (Substroke HMM 기반 온라인 필기체 문자인식)

  • 김춘영;석수영;정호열;정현열
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 한국신호처리시스템학회 2003년도 하계학술대회 논문집
    • /
    • pp.74-77
    • /
    • 2003
  • 본 논문에서는 자연스러운 온라인 필기체 문자 인식을 위하여 획 기반 HMM(Substroke HMM)을 기반으로 한 인식 방법을 채택하고, 획 분류의 정확도 향상을 위한 전처리 과정에 대해 재샘플링 간격 조정을 통한 획 분류실험을 통해 인식률 제고에 관한 실험을 수행하였다 필기체 문자인식을 위한 방법으로 한 문자 전체를 HMM으로 구성하는 Whole-character HMM과 자소단위를 HMM으로 구성하는 character HMM을 주로 이용하였으나, 이러한 방법은 문자의 수에 비례하여 비교적 큰 메모리 용량과 계산량이 요구되는 단점이 있다. 이러한 단점을 개선하기 위한 획 기반 HMM은 문자를 획 단위로 분류한 후 이를 HMM 모델로 구성하므로 소수의 획 기반 HMM 모델만으로 문자를 모두 표현할 수 있는 장점을 가지고 있어, 인식률의 큰 저하 없이 계산량 및 메모리 용량을 크게 줄일 수 있다. PDA상에서 수집한 완성형 한글 데이터베이스를 사용하여 획 분류 실험을 수행한 결과 평활화와 7/100 길이의 재샘플링을 수행한 경우 평활화 과정을 추가하지 않은 기존의 재샘플링 5/100 길이의 경우에 비해 정확도가 평균 3.7% 향상을 나타내었으며, 특히 첨가 에러율이 감소함을 확인할 수 있다.

  • PDF

A Study on Korean Printed Character Type Classification And Nonlinear Grapheme Segmentation (한글 인쇄체 문자의 형식 분류 및 비선형적 자소 분리에 관한 연구)

  • Park Yong-Min;Kim Do-Hyeon;Cha Eui-Young
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 한국해양정보통신학회 2006년도 춘계종합학술대회
    • /
    • pp.784-787
    • /
    • 2006
  • In this paper, we propose a method for nonlinear grapheme segmentation in Korean printed character type classification. The characters are subdivided into six types based on character type information. The feature vector is consist of mesh features, vertical projection features and horizontal projection features which are extracted from gray-level images. We classify characters into 6 types using Back propagation. Character segmentation regions are determined based on character type information. Then, an optimal nonlinear grapheme segmentation path is found using multi-stage graph search algorithm. As the result, a proposed methodology is proper to classify character type and to find nonlinear char segmentation paths.

  • PDF

A Deep Learning Model for Disaster Alerts Classification

  • Park, Soonwook;Jun, Hyeyoon;Kim, Yoonsoo;Lee, Soowon
    • Journal of the Korea Society of Computer and Information
    • /
    • 제26권12호
    • /
    • pp.1-9
    • /
    • 2021
  • Disaster alerts are text messages sent by government to people in the area in the event of a disaster. Since the number of disaster alerts has increased, the number of people who block disaster alerts is increasing as many unnecessary disaster alerts are being received. To solve this problem, this study proposes a deep learning model that automatically classifies disaster alerts by disaster type, and allows only necessary disaster alerts to be received according to the recipient. The proposed model embeds disaster alerts via KoBERT and classifies them by disaster type with LSTM. As a result of classifying disaster alerts using 3 combinations of parts of speech: [Noun], [Noun + Adjective + Verb] and [All parts], and 4 classification models: Proposed model, Keyword classification, Word2Vec + 1D-CNN and KoBERT + FFNN, the proposed model achieved the highest performance with 0.988954 accuracy.

A Study on Machine Printed Character Recognition Based on Character Type Classification (문자형식 분류 기반의 인쇄체 문자인식에 관한 연구)

  • 임길택;김호연
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • 제40권5호
    • /
    • pp.266-279
    • /
    • 2003
  • In this paper, we propose machine printed character recognition methods which utilize the character type information and divide the character clusters. The characters are subdivided into a total of seven types, of which six types are for Hangul according to the grapheme combination fashions and one type for English characters, numerals, and symbols. According to the character type, we separate input character image into several recognition units and recognize them by using the direction angle feature. The recognition for each character type is completed by combining recognition units which are recognized by neural networks respectively For combining a total of seven character recognizers, we implemented seven methods such as switching method, integrating method, and their several variants. As experimental results, we obtained 98.2% recognition rate of simple switching method, 90.54% of integrating one, and between 97.35% and 98.65% of five variants.

Region Analysis of Business Card Images Acquired in PDA Using DCT and Information Pixel Density (DCT와 정보 화소 밀도를 이용한 PDA로 획득한 명함 영상에서의 영역 해석)

  • 김종흔;장익훈;김남철
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • 제29권8C호
    • /
    • pp.1159-1174
    • /
    • 2004
  • In this paper, we present an efficient algorithm for region analysis of business card images acquired in a PDA by using DCT and information pixel density. The proposed method consists of three parts: region segmentation, information region classification, and text region classification. In the region segmentation, an input business card image is partitioned into 8 f8 blocks and the blocks are classified into information and background blocks using the normalized DCT energy in their low frequency bands. The input image is then segmented into information and background regions by region labeling on the classified blocks. In the information region classification, each information region is classified into picture region or text region by using a ratio of the DCT energy of horizontal and vertical edge components to that in low frequency band and a density of information pixels, that are black pixels in its binarized region. In the text region classification, each text region is classified into large character region or small character region by using the density of information pixels and an averaged horizontal and vertical run-lengths of information pixels. Experimental results show that the proposed method yields good performance of region segmentation, information region classification, and text region classification for test images of several types of business cards acquired by a PDA under various surrounding conditions. In addition, the error rates of the proposed region segmentation are about 2.2-10.1% lower than those of the conventional region segmentation methods. It is also shown that the error rates of the proposed information region classification is about 1.7% lower than that of the conventional information region classification method.