• Title/Summary/Keyword: 문자 분류

Search Result 349, Processing Time 0.023 seconds

High Performance Recognition System for Chinese Character (고성능 한자 인식 시스템)

  • An, Seong-Ok;Ju, Gi-Ho
    • The Journal of Engineering Research
    • /
    • v.1 no.1
    • /
    • pp.59-64
    • /
    • 1997
  • More than 2,000 different chinese characters are used daily in Korea newspapers and publications. The large repertoire of character pattern are the main difficulties when machine recognition of chinese characters is concerned. The goal of this paper is to conceive, evaluate and refine techniques for high performance Chinese character recognition. A new character classifier was being developed using prototype creation method.

  • PDF

A Study on the Classification of Hangeul Patterns Using Hierarchical Neural Network (계층적 신경회로망을 이용한 한글 패턴 분류에 관한 연구)

  • Kim, Do-Hyeon;Lee, Byeong-Mo;Cha, Eui-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04a
    • /
    • pp.569-572
    • /
    • 2002
  • 한글을 인식하기 위한 전처리 방법으로 흔히 모음의 종류 및 자음과의 결합 정도에 따라 6가지 유형으로 분류하는 방법을 많이 사용하고 있다. 간 논문에서는 이러한 한글 문자를 인식하기 위한 전처리 과정으로써 한글의 유형을 분류하는 방법에 대한 연구로 계층적인 신경회로망을 도입하여 빠르고 신뢰성 있는 분류 방법을 제안한다. 실험에 사용된 글자는 KS X 1001(KS C 5601) 완성형 글자 2,350개에 대한 굴림, 바탕, 돋움, 궁서 글꼴로 총 9400개의 이미지 파일을 사용하였으며. 이 중 일부는 훈련에 사용하고 나머지는 분류를 위한 테스트 데이터로 사용한 결과 약 94%의 유형 분류율과 개별 패턴을 5.67ms에 분류하는 빠른 분류 속도를 나타내었다.

  • PDF

Introduction of Globally Harmonized System for Agrochemical Products (농약제품을 위한 GHS 제도 도입)

  • Jeong, Sang-Hee;Park, Cheol-Beom;Han, Bum-Seok;Kang, Chang-Soo;Jeong, Mi-Hye;Sung, Ha-Jung
    • The Korean Journal of Pesticide Science
    • /
    • v.15 no.2
    • /
    • pp.201-207
    • /
    • 2011
  • The use of chemical products to enhance and improve life is a widespread worldwide practice. In spite of the benefits of these products, there is the potential of chemicals for adverse effects to people or the environment. The globally harmonized system (GHS) of classifying and labeling chemicals that was recommended by the United Nations in 2003, has been introduced globally since 2008. Compare to the classification criteria of agricultural formulations today, classification criteria of GHS is different partly. One pictogram is removed and 3 pictograms are introduced newly. The classification criteria of GHS will be changed preferentially and implemented gradationally to hazard products.

Using Dynamic Programming for Word Segmentation in OCR (동적 프로그래밍을 이용한 OCR에서의 띄어쓰기 교정)

  • Park, Ho-Min;Kim, Chang-Hyun;Noh, Kyung-Mok;Cheon, Min-Ah;Kim, Jae-Hoon
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.243-245
    • /
    • 2016
  • 광학 문자 인식(OCR)을 통해 문서의 글자를 인식할 때 띄어쓰기 오류가 발생한다. 본 논문에서는 이를 해결하기 위해 OCR의 후처리 과정으로 동적 프로그래밍을 이용한 분절(Segmentation) 방식의 띄어쓰기 오류 교정 시스템을 제안한다. 제안하는 시스템의 띄어쓰기 오류 교정 과정은 다음과 같다. 첫째, 띄어쓰기 오류가 있다고 분류된 어절 내의 공백을 모두 제거한다. 둘째, 공백이 제거된 문자열을 동적 프로그래밍을 이용한 분절로 입력 문자열에 대하여 가능한 모든 띄어쓰기 후보들을 찾는다. 셋째, 뉴스 기사 말뭉치와 그 말뭉치에 기반을 둔 띄어쓰기 확률 모델을 참조하여 각 후보의 띄어쓰기 확률을 계산한다. 마지막으로 띄어쓰기 후보들 중 확률이 가장 높은 후보를 교정 결과로 제시한다. 본 논문에서 제안하는 시스템을 이용하여 OCR의 띄어쓰기 오류를 해결할 수 있었다. 향후 띄어쓰기 오류 교정에 필요한 언어 규칙 등을 시스템에 추가한 띄어쓰기 교정시스템을 통하여 OCR의 최종적인 인식률을 향상에 대해 연구할 예정이다.

  • PDF

An Effective Binarization Method for Character Image (문자 영상을 위한 효율적인 이진화 방법)

  • Kim, Do-Hyeon;Jung, Ho-Young;Cho, Hoon;Cha, Eui-Young
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.10 no.10
    • /
    • pp.1877-1884
    • /
    • 2006
  • Image binarization is an important preprocessing to identify objects of interest by dividing pixels into background and objects. Usually binarization methods are classified into global and local thresholding approaches. In this paper, we propose an efficient and adaptive binarization method for the character segmentation by combining both advantages of the global and the local thresholding methods. Experimental results with the korean character images present that the proposed method binarizes character image faster and better than other local binarization methods.

Dual SMS SPAM Filtering: A Graph-based Feature Weighting Method (듀얼 SMS 스팸 필터링: 그래프 기반 자질 가중치 기법)

  • Hwang, Jae-Won;Ko, Young-Joong
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.95-99
    • /
    • 2014
  • 본 논문에서는 최근 급속히 증가하여 사회적 이슈가 되고 있는 SMS 스팸 필터링을 위한 듀얼 SMS 스팸필터링 기법을 제안한다. 지속적으로 증가하고 새롭게 변형되는 SMS 문자 필터링을 위해서는 패턴 및 스팸 단어 사전을 통한 필터링은 많은 수작업을 요구하여 부적합하다. 그리하여 기계 학습을 이용한 자동화 시스템 구축이 요구되고 있으며, 효과적인 기계 학습을 위해서는 자질 선택과 자질의 가중치 책정 방법이 중요하다. 하지만 SMS 문자 특성상 문장들이 짧기 때문에 출현하는 자질의 수가 적어 분류의 어려움을 겪게 된다. 이 같은 문제를 개선하기 위하여 본 논문에서는 슬라이딩 윈도우 기반 N-gram 확장을 통해 자질을 확장하고, 확장된 자질로 그래프를 구축하여 얕은 구조적 특징을 표현한다. 학습 데이터에 출현한 N-gram 자질을 정점(Vertex)으로, 자질의 출현 빈도를 그래프의 간선(Edge)의 가중치로 설정하여 햄(HAM)과 스팸(SPAM) 그래프를 각각 구성한다. 이렇게 구성된 그래프를 바탕으로 노드의 중요도와 간선의 가중치를 활용하여 최종적인 자질의 가중치를 결정한다. 입력 문자가 도착하면 스팸과 햄의 그래프를 각각 이용하여 입력 문자의 2개의 자질 벡터(Vector)를 생성한다. 생성된 자질 벡터를 지지 벡터 기계(Support Vector Machine)를 이용하여 각 SVM 확률 값(Probability Score)을 얻어 스팸 여부를 결정한다. 3가지의 실험환경에서 바이그램 자질과 이진 가중치를 사용한 기본 시스템보다 F1-Score의 약 최대 2.7%, 최소 0.5%까지 향상되었으며, 결과적으로 평균 약 1.35%의 성능 향상을 얻을 수 있었다.

  • PDF

Korean Character processing: Part II. Terminal Design and History (한글문자의 컴퓨터 처리: II. 터미날 설계와 역사)

  • 정원량
    • Journal of the Korean Institute of Telematics and Electronics
    • /
    • v.16 no.4
    • /
    • pp.1-12
    • /
    • 1979
  • This article is a sequel to " Korean Character Processing: Part I. Theoretical Foundation " and deals with the practical and historical aspects of the same subject. We discuss , in the first half, the functional design of Korean I/O terminals, Korean character generators based on the conversion algorithm and dot matrix fonts, input keyboard configuration ( trade -offs between a key set and the number of key -strokes ), and the conditions to be considered for binary code design. The second half of the article is devoted to the history of Korean Character processing which is seen from the personal viewpoints. The recorded works are classified into 4 groups according to their maj or contents. Then we bring up each problematic issue to give a critical review of articles . Issues related to output (conversion process) and input ( character recognition) are separated. The bibliography is given in a chronological order.cal order.

  • PDF

Using Dynamic Programming for Word Segmentation in OCR (동적 프로그래밍을 이용한 OCR에서의 띄어쓰기 교정)

  • Park, Ho-Min;Kim, Chang-Hyun;Noh, Kyung-Mok;Cheon, Min-Ah;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.243-245
    • /
    • 2016
  • 광학 문자 인식(OCR)을 통해 문서의 글자를 인식할 때 띄어쓰기 오류가 발생한다. 본 논문에서는 이를 해결하기 위해 OCR의 후처리 과정으로 동적 프로그래밍을 이용한 분절(Segmentation) 방식의 띄어쓰기 오류 교정 시스템을 제안한다. 제안하는 시스템의 띄어쓰기 오류 교정 과정은 다음과 같다. 첫째, 띄어쓰기 오류가 있다고 분류된 어절 내의 공백을 모두 제거한다. 둘째, 공백이 제거된 문자열을 동적 프로그래밍을 이용한 분절로 입력 문자열에 대하여 가능한 모든 띄어쓰기 후보들을 찾는다. 셋째, 뉴스 기사 말뭉치와 그 말뭉치에 기반을 둔 띄어쓰기 확률 모델을 참조하여 각 후보의 띄어쓰기 확률을 계산한다. 마지막으로 띄어쓰기 후보들 중 확률이 가장 높은 후보를 교정 결과로 제시한다. 본 논문에서 제안하는 시스템을 이용하여 OCR의 띄어쓰기 오류를 해결할 수 있었다. 향후 띄어쓰기 오류 교정에 필요한 언어 규칙 등을 시스템에 추가한 띄어쓰기 교정시스템을 통하여 OCR의 최종적인 인식률을 향상에 대해 연구할 예정이다.

  • PDF

On the Filtering of Hangul character Element with the Spatial Positioning Modulation (공간 위치 변조에 의한 한글자소의 필터링)

  • 강대수;진용옥
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.17 no.9
    • /
    • pp.1029-1039
    • /
    • 1992
  • This paper presents the filtering method which is processed on the frequency domain among Hangul character recognition methods. It is processed the Hangul character parrern with spatial positioning modulation and mapped the Hangul character element which have spatial position variant feature onto frequency domain, at this time, normalized spatial position and so normalized the character size in frequency domain. And it is grouped the Hangul character element according to the generating position and set the standard pattern, and used each standard character element pattern with character element filter and filtering the character pattern of Hangul character, it is derived the normalized cross correlation function and the coherence function led to the filtering results, and calculated classification threshold.

  • PDF

The Type Clustering for the Multi-Font Hangul Character Recognition (다중 활자체 한글 문자 인식을 위한 유형 분류)

  • Kim, Min-Ki;Kwon, Young-Bin
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.194-199
    • /
    • 1997
  • 본 논문에서는 글꼴의 변화와 잡영을 흡수할 수 있도록 자소의 탐색 영역을 정의 하였으며 이 영역에 나타나는 횡모음과 종모음의 주획을 추출하는 방법을 기술하였다. 종모음 영역에서 추출한 수직획들과 횡모음 영역에서 추출한 수평획들을 각각 종모음과 횡모음의 주획이 될 수 있는 후보들로써 이들로 부터 종모음과 횡모음의 존재를 파악하는 것이 한글 유형 분류의 주된 내용이다. 그러나 다양한 글꼴에 나타나는 수평획들로부터 곧바로 횡모음의 존재를 파악하는 것은 쉬운 문제가 아니다 본 논문에서는 기존의 트리 분류기를 확장하여 복잡하고 다양한 특징을 단계별로 단순화시키고 트리 분류기의 상위 노드에서 결정된 정보와 제약 조건을 이용하여 유형을 분류하는 방법을 제안하였다. 제안된 방법은 한글 상위 빈도 1405자, 3가지 글꼴에 대하여 99.8 %의 유형 분류율을 보이고 있다.

  • PDF