• Title/Summary/Keyword: 한글의 통계적 특성

Search Result 30, Processing Time 0.023 seconds

Off-line recognition of Hanguls handprinted in sammool style with statistical feature extraction method (통계적 특징 추출 방법을 이용한 샘물체 필기 한글의 오프라인 인식)

  • Lee, Seong-Whan;Park, Jeong-Seon
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.237-248
    • /
    • 1992
  • 본 논문에서는 통계적인 특징 추출 방법을 사용하여 샘물체로 필기된 한글을 고속으로 인식하는 방법을 소개한다. 대부분이 직선 성분으로 이루어진 한글의 특성을 이응하기 위하여 입력 영상으로부터 수평, 수직, 사선, 역사선의 방향 성분을 추출하며, 검은 화소의 밀도에 따라 동적으로 그물을 결정함으로써 획 간의 접촉 변형에 무관한 특징 벡터를 추출한다. 이와 같은 통계적 특징 추출 방법은 크기 정규화나 세선화 과정이 필요없으며, 또한 샘물체라는 필기 형태의 제약에 의해 정합 대상 부류의 수가 현저히 줄어들기 때문에 인식에 소요되는 시간을 상당히 줄일 수 있음은 물론, 인식률을 향상시켰다. 제안된 방법의 타당성을 검증하기 위하여 샘물체로 필기된 KS 완성형 한글 2,350자에 대해 실험한 결과, 평균 90% 이상의 인식률을 보이며, IBM PC 486(33MHz)상에서 문자당 평균 0.17초의 인식 속도를 보임으로써, 실용적인 고속 OCR 시스템의 개발 가능성을 확인할 수 있었다.

  • PDF

A Study on the Statistical characteristics of Hagul Graphic Image Date (한글 Graphic Image Date의 통계적 특성에 관한 연구)

  • 김재석;김재균
    • Journal of the Korean Institute of Telematics and Electronics
    • /
    • v.17 no.2
    • /
    • pp.15-22
    • /
    • 1980
  • For efficient coding of graphic image data, the statistical characteristics for both Korean lettered images and English lettered images are measurpd and co mpared. Also, the measured run length distribution is compared with the run length distribution hased on Markov model. It is shown that the measured white run length distribution is more Bike a negative - power distribution than an exponential distribution . This fact is stronger in the Korean lettered images than is the English lettered images, The performances of four typical run length codes are compared for the same set of graphic data files,, and it is shown that the codes perform better in the Korean ]entered images :hart In Eng]isle lettered images.

  • PDF

Handwritten Hangul Recognition using Extended Hierarchical Random Graph (확장된 계층적 랜덤 그래프를 이용한 필기 한글 인식)

  • Kim, Ho-Yon;Kim, Jin-Hyung
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.200-207
    • /
    • 1997
  • 본 논문에서는 계층적 랜덤 그래프를 이용한 필기 한글 인식 방법론을 제안한다. 한글은 다른 문자와 달리 기본 자소의 조합으로 이루어진 문자로서 2차원 평면상에 표현된다. 이러한 한글의 특성과 필기된 한글에서 나타나는 다양한 변형을 통계적으로 모델링하기 위해서 계층 그래프를 이용하였다. 특히, 계층 그래프의 최 하위 계층에서는 필기된 획의 변형을 흡수할 수 있도록 확장된 랜덤 그래프를 적용하였다. 제안된 모델은 통계적 모델이기 때문에 필기 데이터베이스로부터 모델의 파라미터를 구할 수 있다는 장점이 있다. 실험에서 제안된 모델을 필기 한글 인식 문제에 적용하여 자소간 접촉된 문자나 어느 정도의 흘려 쓴 문자도 잘 인식할 수 있음을 보였다.

  • PDF

Ortho-Phonics Alpabetic One Hand Strock Keyboad's Structure and Design for Intergation of Language and Scription (어문결합을 지향하는 정음한손자판의 배치와 설계)

  • Kim Yong-Gi;Chin Yong-Ohk
    • The KIPS Transactions:PartB
    • /
    • v.11B no.7 s.96
    • /
    • pp.861-866
    • /
    • 2004
  • Keyboard is a link between human and terminal, so we can input knowledge to information device. The misstyping is occured or the speed is reduced if there would be transmission error. We always have to consider human interface and behavior effect, because the keyboard system is the harmony of human and machine. This paper is designed for representation of ortho-phonics alpabetic one hand strock keyboard which is enable to correct error and to edit word.

A Chinese-Korean E-Mail Translation System (중한 이메일 자동번역시스템)

  • Jin, Yun;Kwon, Oh-Woog;Wu, Ying-Sun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.225-230
    • /
    • 2009
  • 본 논문에서는 중국어의 이메일 특성을 이용한 중한 대화체 자동번역 방법에 대하여 기술한다. 본 논문에서는 중국어와 한국어와 같이 언어 간의 어순이 다르고 이메일과 같이 특정한 도메인의 언어적 자원도 제한적인 특성을 고려하여 중국어 이메일 특성을 이용한 규칙 기반의 번역 방법을 시도하였다. 이를 위해, 본 논문에서는 중국어의 굳어진 표현이 많고, 한글자 단어 많으며, 입력 오류 많고, 청유 및 경어가 많은 이메일 특성 분석을 통해 그에 대응되는 처리 방법을 제안하였다. 그리고, 그 방법의 타당성을 증명하기 위해 규칙기반의 중한 뉴스 자동번역 시스템과 비교 실험을 하였으며, 규칙기반과 통계적 방법의 타당성 실험을 위해 Gmail과도 비교 실험을 하였다. 두 가지 비교 실험 결과, 본 논문에서 접근한 방법이 모두 우수하였으며, 그 타당성을 증명하였다.

  • PDF

Feature Extraction by Neural Network for On-line Recognition of Korean Characters (온라인 한글인식을 위한 특징추출 신경망에 관한 연구)

  • Kim, Gil-Jung;Choi, Sug;Nam, Ki-Gon;Yoon, Tae-Hoon;Kim, Jae-Chang;Park, Ui-Yul;Lee, Yang-Sung
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.17 no.2
    • /
    • pp.159-167
    • /
    • 1992
  • This paper describes a feature extraction process by using a multi-layer neural network and is applied to the Korean stroke pattern for on line hand written character recognition, In the first layer the features are detected during the writing process and in the second layer the stroke specific features are extracted. A modified Masking field algorithm for direction co9nstancy has been used in this neural network and the resulting action potential of stroke specific features represents statistical distribution of the features in the on-line input stroke pattern and these results can be used in the recognition of on-line hand written Korean characters successfully.

  • PDF

Comparison of Feature Performance in Off-line Hanwritten Korean Alphabet Recognition (오프라인 필기체 한글 자소 인식에 있어서 특징성능의 비교)

  • Ko, Tae-Seog;Kim, Jong-Ryeol;Chung, Kyu-Sik
    • Korean Journal of Cognitive Science
    • /
    • v.7 no.1
    • /
    • pp.57-74
    • /
    • 1996
  • This paper presents a comparison of recognition performance of the features used inthe recent handwritten korean character recognition.This research aims at providing the basis for feature selecion in order to improve not only the recognition rate but also the efficiency of recognition system.For the comparison of feature performace,we analyzed the characteristics of theose features and then,classified them into three rypes:global feature(image transformation)type,statistical feature type,and local/ topological feature type.For each type,we selected four or five features which seem more suitable to represent the characteristics of korean alphabet,and performed recongition experiments for the first consonant,horizontal vowel,and vertical vowel of a korean character, respectively.The classifier used in our experiments is a multi-layered perceptron with one hidden layer which is trained with backpropagation algorithm.The training and test data in the experiment are taken from 30sets of PE92. Experimental results show that 1)local/topological features outperform the other two type features in terms of recognition rates 2)mesh and projection features in statical feature type,walsh and DCT features in global feature type,and gradient and concavity features in local/topological feature type outperform the others in each type, respectively.

  • PDF

An Analysis of Current States and Information Content of Author Abstracts in the Field of Social Sciences (한글 초록의 현황과 내용분석 - 사회과학분야 저자초록을 중심으로 -)

  • Chang Hye-Rhan
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.30 no.1
    • /
    • pp.35-48
    • /
    • 1996
  • To understand the present states of abstracting and to investigate contents of abstracts, a survey content analysis was done in the field sciences. Of the 102 nation wide scholarly journals examined $54(53\%)$ included abstracts with articles. 33 had abstracts in Korea Among the 34 journals with editorial statements about abstracting only 13 had suggestions about abstract contents. Based on the investigation, 4 disciplines having abstracts mostly was selected and 149 abstracts in the 4 major journals in each discipline were sampled. Complete abstracts were ama;uzed according to 12 variables covering required content elements, unnecessary statements, and writing styles. Statistical characteristics of the abstracts is varied among disciplines and the scope is very wide. Particularly number of paragraph and number of character per abstract is much different from the standards. The content analysis showed $51\%$ of the abstracts were incomplete. $39\%$ of the abstracts did not mention research method used. 59 abstracts included unnecessary statements. Writing stle analysis also showed many faults both in the pronoun abuse and the misuse of voice or tense. Korean author abstracts in social science scholarly journals have deficiencies in linguistic structures as well as in contents and style.

  • PDF

Post-processing for Korean OCR Using Cohesive Feature between Syllables and Syntactic Lexical Feature (한국어의 음절 결합 특성 및 통사적 어휘 특성을 이용한 문자인식 후처리 시스템)

  • Hwang, Young-Sook;Park, Bong-Rae;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.175-182
    • /
    • 1997
  • 지금까지의 한글 문자인식 후처리 연구분야에서 미등록어와 비문맥적 오류 문제는 아직까지 잘 해결하지 못하고 있는 문제이다. 본 논문에서는 단어로서 가능한지를 결정하는 기준으로 확률적 음절 결합 정보를 사용하여 형태소 분석 기법만을 사용했을 때 발생할 수 있는 미등록어 문제를 해결하고, 통사적 기능의 어말 어휘를 고려한 문맥 결합 정보를 이용함으로써 다수의 후보 어절 가운데에서 최적의 후보 어절을 선택하는 방법을 제안한다. 제안된 시스템은 인식기에서 내보낸 후보 음절과 학습된 혼동 음절을 조합하여 하나 이상의 후보 어절을 생성하는 모듈과 통계적 언어 정보를 이용하여 최적의 후보 어절을 선정하는 모듈로 구성되었다. 실험은 1000만 원시 코퍼스에서 추출한 음절 결합 정보와 17만 태깅된 코퍼스에서 추출한 어절 결합 정보를 사용하였으며, 실제 인식 결과에 적용한 결과 문자 단위에서는 94.1%의 인식률을 97.4%로, 어절 단위에서는 87.6%를 96.6%로 향상시켰다. 교정률과 오교정률은 각각 문자 단위에서 56%와 0.6%, 어절 단위에서 83.9%와 1.66%를 보였으며, 전체 실험 어절의 3.4%를 차지한 미등록어 중 87.5%를 올바로 인식하는 한편, 전체 오류의 20.3%인 비문맥 오류에 대해서 91.6%를 올바로 교정하는 후처리 성능을 보였다.

  • PDF

A clustering algorithm of statistical langauge model and its application on speech recognition (통계적 언어 모델의 clustering 알고리즘과 음성인식에의 적용)

  • Kim, Woo-Sung;Koo, Myoung-Wan
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.145-152
    • /
    • 1996
  • 연속음성인식 시스템을 개발하기 위해서는 언어가 갖는 문법적 제약을 이용한 언어모델이 요구된다. 문법적 규칙을 이용한 언어모델은 전문가가 일일이 문법 규칙을 만들어 주어야 하는 단점이 있다. 통계적 언어 모델에서는 문법적인 정보를 수작업으로 만들어 주지 않는 대신 그러한 모든 정보를 학습을 통해서 훈련해야 하기 때문에 이를 위해 요구되는 학습 데이터도 엄청나게 증가한다. 따라서 적은 양의 데이터로도 이와 유사한 효과를 보일 수 있는 것이 클래스에 의거한 언어 모델이다. 또 이 모델은 음성 인식과 연계시에 탐색 공간을 줄여 주기 때문에 실시간 시스템 구현에 매우 유용한 모델이다. 여기서는 자동으로 클래스를 찾아주는 알고리즘을 호텔예약시스템의 corpus에 적용, 분석해 보았다. Corpus 자체가 문법규칙이 뚜렷한 특성을 갖고 있기 때문에 heuristic하게 클래스를 준 것과 유사한 결과를 보였지만 corpus 크기가 커질 경우에는 매우 유용할 것이며, initial map을 heuristic하게 주고 그 알고리즘을 적용한 결과 약간의 성능향상을 볼 수 있었다. 끝으로 음성인식시스템과 접합해 본 결과 유사한 결과를 얻었으며 언어모델에도 음향학적 특성을 반영할 수 있는 연구가 요구됨을 알 수 있었다.

  • PDF