• Title/Summary/Keyword: 한글문자입력

Search Result 172, Processing Time 0.027 seconds

Establishment of the Korean Standard Vocal Sound into Character Conversion Rule (한국어 음가를 한글 표기로 변환하는 표준규칙 제정)

  • 이계영;임재걸
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.41 no.2
    • /
    • pp.51-64
    • /
    • 2004
  • The purpose of this paper is to establish the Standard Korean Vocal Sound into Character Conversion Rule (Standard VSCC Rule) by reversely applying the Korean Standard Pronunciation Rule that regulates the way of reading written Hangeul sentences. The Standard VSCC Rule performs a crucially important role in Korean speech recognition. The general method of speech recognition is to find the most similar pattern among the standard voice patterns to the input voice pattern. Each of the standard voice patterns is an average of several sample voice patterns. If the unit of the standard voice pattern is a word, then the number of entries of the standard voice pattern will be greater than a few millions (taking inflection and postpositional particles into account). This many entries require a huge database and an impractically too many comparisons in the process of finding the most similar pattern. Therefore, the unit of the standard voice pattern should be a syllable. In this case, we have to resolve the problem of the difference between the Korean vocal sounds and the writing characters. The process of converting a sequence of Korean vocal sounds into a sequence of characters requires our Standard VSCC Rule. Making use of our Standard VSCC Rule, we have implemented a Korean vocal sounds into Hangeul character conversion system. The Korean Standard Pronunciation Rule consists of 30 items. In order to show soundness and completeness of our Standard VSCC Rule, we have tested the conversion system with various data sets reflecting all the 30 items. The test results will be presented in this paper.

A Study on the Pattern Recognition of Korean Characters by Syntactic Method (Syntactic법에 의한 한글의 패턴 인식에 관한 연구)

  • ;安居院猛
    • Journal of the Korean Institute of Telematics and Electronics
    • /
    • v.14 no.5
    • /
    • pp.15-21
    • /
    • 1977
  • The syntactic pattern recognition system of Korean characters is composed of three main functional parts; Preprocessing, Graph-representation, and Segmentation. In preprocessing routine, the input pattern has been thinned using the Hilditch's thinning algorithm. The graph-representation is the detection of a number of nodes over the input pattern and codification of branches between nodes by 8 directional components. Next, segmentation routine which has been implemented by top down nondeterministic parsing under the control of tree grammar identifies parts of the graph-represented Pattern as basic components of Korean characters. The authors have made sure that this system is effective for recognizing Korean characters through the recognition simulations by digital computer.

  • PDF

Dual SMS SPAM Filtering: A Graph-based Feature Weighting Method (듀얼 SMS 스팸 필터링: 그래프 기반 자질 가중치 기법)

  • Hwang, Jae-Won;Ko, Young-Joong
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.95-99
    • /
    • 2014
  • 본 논문에서는 최근 급속히 증가하여 사회적 이슈가 되고 있는 SMS 스팸 필터링을 위한 듀얼 SMS 스팸필터링 기법을 제안한다. 지속적으로 증가하고 새롭게 변형되는 SMS 문자 필터링을 위해서는 패턴 및 스팸 단어 사전을 통한 필터링은 많은 수작업을 요구하여 부적합하다. 그리하여 기계 학습을 이용한 자동화 시스템 구축이 요구되고 있으며, 효과적인 기계 학습을 위해서는 자질 선택과 자질의 가중치 책정 방법이 중요하다. 하지만 SMS 문자 특성상 문장들이 짧기 때문에 출현하는 자질의 수가 적어 분류의 어려움을 겪게 된다. 이 같은 문제를 개선하기 위하여 본 논문에서는 슬라이딩 윈도우 기반 N-gram 확장을 통해 자질을 확장하고, 확장된 자질로 그래프를 구축하여 얕은 구조적 특징을 표현한다. 학습 데이터에 출현한 N-gram 자질을 정점(Vertex)으로, 자질의 출현 빈도를 그래프의 간선(Edge)의 가중치로 설정하여 햄(HAM)과 스팸(SPAM) 그래프를 각각 구성한다. 이렇게 구성된 그래프를 바탕으로 노드의 중요도와 간선의 가중치를 활용하여 최종적인 자질의 가중치를 결정한다. 입력 문자가 도착하면 스팸과 햄의 그래프를 각각 이용하여 입력 문자의 2개의 자질 벡터(Vector)를 생성한다. 생성된 자질 벡터를 지지 벡터 기계(Support Vector Machine)를 이용하여 각 SVM 확률 값(Probability Score)을 얻어 스팸 여부를 결정한다. 3가지의 실험환경에서 바이그램 자질과 이진 가중치를 사용한 기본 시스템보다 F1-Score의 약 최대 2.7%, 최소 0.5%까지 향상되었으며, 결과적으로 평균 약 1.35%의 성능 향상을 얻을 수 있었다.

  • PDF

Slant Estimation and Correction for the Off-Line Handwritten Hangul String Using Hough transform (Hough 변환을 이용한 오프라인 필기 한글 문자열의 기울기 추정 및 교정)

  • 이성환;이동준
    • Korean Journal of Cognitive Science
    • /
    • v.4 no.1
    • /
    • pp.243-260
    • /
    • 1993
  • This paper presents an efficient method for estimationg and correcting the slant of off-line handwritten Hangul strings.In the proposed method,after extracting contours from input image.Hough tranform is applied to the contours to detect lines and estimate slants of the lines.When Hough trans form is applied to the contours,pixels which are not parts of the same stroke could be detected as a line.In order to exclude these lines from slant estimation process,detected lines which have the length less than threshold are eliminated.Experiments have been performed with address images which were extracted from live envelopes provided by Seoul Mail Center.Experimental results show that the proposed method is superior to the previous methods,which had been done with handwritten English strings.in estimation the slant of off-line handwritten Hangul strings.

A Word Dictionary Structure for the Postprocessing of Hangul Recognition (한글인식 후처리용 단어사전의 기억구조)

  • ;Yoshinao Aoki
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.19 no.9
    • /
    • pp.1702-1709
    • /
    • 1994
  • In the postprocessing of Hangul recognition system, the storage structure of contextual information is an important matter for the recognition rate and speed of the entire system. Trie in general is used to represent the context as word dictionary, but the memory space efficiency of the structure is low. Therefore we propose a new structure for word dictionary that has better space efficiency and the equivalent merits of trie. Because Hangul is a compound language, the language can be represented by phonemes or by characters. In the representation by phonemes(P-mode) the retrieval is fast, but the space efficiency is low. In the representation by characters(C-mode) the space efficiency is high, but the retrieval is slow. In this paper the two representation methods are combined to form a hybrid representation(H-mode). At first an optimal level for the combination is selected by two characteristic curves of node utilization and dispersion. Then the input words are represented with trie structure by P-mode from the first to the optimal level, and the rest are represented with sequentially linked list structure by C-mode. The experimental results for the six kinds of word set show that the proposed structure is more efficient. This result is based on the fact that the retrieval for H-mode is as fast as P-mode and the space efficiency is as good as C-mode.

  • PDF

Implementation of integrated On-line Hangul recognition system including Gesture recognition system (제스쳐 인식기를 포함한 통합된 온라인 한글인식기의 구현)

  • 정우식;권영빈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.461-463
    • /
    • 1999
  • 컴퓨터 발전되면서 컴퓨터는 소형화 되어져 왔다. 컴퓨터의 소형화란 사람들이 들고 다니면서 어디서든지 쉽게 사용할 수 휴대성이 만족되어져야 한다. 휴대성을 만족하기 위해서 입력장치의 간편화가 요구되는데 가장 널리 알려진 키보드는 너무 크기 때문에 휴대성 만족하기에는 많은 문제를 안고 있다. 이러한 문제를 해결하기 위해서 등장한 것이 전자펜이다. 전자펜은 크기도 작고 사용법도 사람들이 많이 사용하는 펜과 비슷하기 때문에 배우기 쉽다는 장점이 있다. 그러므로 전자펜을 사용하기 위해서는 전자펜을 사용했을 때 컴퓨터가 사람이 쓴 문자나 제스쳐를 인식할 수 있는 기술이 필요하다. 본 논문에서는 온라인 문자인식기술에 대해서 간략히 설명을 한 뒤, 입력한 글자를 편집할 수 있는 제스쳐 인식 기술에 대해서 설명할 것이다.

  • PDF

Development of POS Tagging System Independent to Word Spacing (띄어쓰기 비종속 품사 태깅 시스템 개발)

  • Lee, Kyung-Il;Ahn, Tae-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.69-72
    • /
    • 2003
  • 본 논문에서는 입력된 한국어 문자열로부터 형태소를 분석하고, 품사를 태깅하는 방법에 있어 개선된 통계적 모델을 제안하고, 이에 기반한 띄어쓰기 비종속 형태소 분석 및 태깅 시스템의 개발과 성능 평가에 대한 결과를 소개하고 있다. 제안된 통계 기반품사 태깅 시스템은 입력된 문자열로부터 음절의 띄어쓰기 확률값을 계산하여 유사어절을 생성하고, 유사어절 단위로 사용자 띄어쓰기와 상관없이 형태소 후보 리스트를 생성하며, 인접한 후보 형태소들의 접속 확률 계산에 있어 어절 간 접속 확률과 어절 내 접속 확률을 모두 사용함으로, 최적의 형태소 리스트를 결정하는 모델을 사용하고 있다. 특히, 형태소들의 접속 확률 계산 시 어절 간 접속 확률과 어절 내 접속 확률의 결합 비율이 음절의 띄어쓰기 확률 값과 사용자의 띄어쓰기 여부에 따라 자동으로 조절되는 특징을 가지고 있으며, 이를 통해 극단적으로 띄어 쓰거나 붙여 쓴 문장에 대해서도 평균 90%수준의 품사 태깅 성능을 달성할 수 있었다.

  • PDF

Using of The Korean Language Voice Synthesis For E-Mail Manager System (한국어 음성 합성을 이용한 이메일 매니저)

  • Jo, Gyu-Sang;Lee, Young-Hoon;Lee, Byeong-Ryeol;Seo, Dae-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.266-270
    • /
    • 2009
  • IT 관련 산업의 발전에 의한 저변의 확대로 장애우들의 IT 사용 수요가 늘고 있다. 본 논문에서는 IT분야에서 가장 기초적으로 활용되는 E-Mail을 시각 장애우가 활용 하는 데에 불편함이 없도록 하는 이메일 매니저 개발에 관련된 기법에 대해 논하고자 한다. TTS(Text-To Speech : 문자 텍스트를 음성으로 전환하여 들려줌)와 음성키보드(키보드 입력 시 입력한 문자를 음성으로 알려줌) 기능으로 시각 장애우가 이메일을 사용함에 있어 불편함을 느끼지 않도록 하였으며 본 시스템의 TTS 알고리즘은 국어 표준발음법을 참고로 하여 자바로 구현 하였다.

  • PDF

Distinction of the Korean and English Character Using the Stroke Density (획 밀도를 이용한 한영 구분)

  • Won, Nam-Sik;Jeon, Il-Soo;Lee, Doo-Han
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.7
    • /
    • pp.1873-1880
    • /
    • 1997
  • It is an important factor to distinguish the kind of the character for increasing recognition rate before the character recognition in the document recognition system composed of the multi-font and multi-letters. All the letters of each country have a various unique characteristic in the each composition. In this paper, we used the stroke density as a method to distinguish the letter, and it has been adopted only Korean and English character. Input data is processed by the normalization to adopt multi-font document. Proposed method has been proved by the results of experiment the fact that the distinction probability of the Korean and English is more than 90%.

  • PDF

Implementation of Industrial Information Display System (산업용 정보표시 시스템 구현)

  • Kim, Whi-Young;Hong, Jung-Hwan;Gang, Uk;Park, Seong-Jun;Kim, Hee-Je
    • Proceedings of the KIEE Conference
    • /
    • 2001.07d
    • /
    • pp.2048-2050
    • /
    • 2001
  • 기존의 생산관리 현황반, 각종 산업용 판넬의 Faul Indicator, 각종 기계의 상태표시, 엘리베이터 정보출력장치, 주차타워 안내표시, 버스 행선지 안내표시, 병원, 은행 등 각종 광고용에서 사용되는 정보표시장치를 휘도와 안정성이 우수한 40mm 3 Color LED Dot Matrix Module을 이용한 Message 표시장치로서, 각종 Panel 및 기계 장치에 부착되거나 단독 설치되어 Parallel 또는 Serial Port로 입력을 받아 그 입력에 해당되는 Message를 출력 하며 User에 의해 제작되는 Graphic과 Text 형태가 있으며 외부입력에 의해 선택되는 Text Message와 출력 형태는 User에 의해 제작되는 Program에 의해 출력되는 방식으로 구현하여 영문, 숫자는 물론 한글 및 한자 표현도 가능 하도록 하여, 문자의 크기가 5${\times}$7 LED Dot Matrix에 비해 상대적으로 크고 미려하여 현장에서 상황의 인지도를 높이고 ASC-II 및 KS-5601의 Hex Code 입력방식보다 일반사용자가 Programming 하기 쉬우며 Message를 Graphic Symbol형태 및 문자로 작성하여 Message출력 형태를 선택할 수 있는 Mode Programming방식을 적용해 사용자의 용이이성이 배가 되도륵 하여 비교 검토한 결과 사용에 있어 편리성을 입증할 수 있었다.

  • PDF