DOI QR코드

DOI QR Code

Language Model based on VCCV and Test of Smoothing Techniques for Sentence Speech Recognition

문장음성인식을 위한 VCCV 기반의 언어모델과 Smoothing 기법 평가

  • 박선희 (성균관대학교 대학원 정보통신공학부) ;
  • 노용완 (성균관대학교 대학원 정보통신공학부) ;
  • 홍광석 (성균관대학교 정보통신공학부)
  • Published : 2004.04.01

Abstract

In this paper, we propose VCCV units as a processing unit of language model and compare them with clauses and morphemes of existing processing units. Clauses and morphemes have many vocabulary and high perplexity. But VCCV units have low perplexity because of the small lexicon and the limited vocabulary. The construction of language models needs an issue of the smoothing. The smoothing technique used to better estimate probabilities when there is an insufficient data to estimate probabilities accurately. This paper made a language model of morphemes, clauses and VCCV units and calculated their perplexity. The perplexity of VCCV units is lower than morphemes and clauses units. We constructed the N-grams of VCCV units with low perplexity and tested the language model using Katz, absolute, modified Kneser-Ney smoothing and so on. In the experiment results, the modified Kneser-Ney smoothing is tested proper smoothing technique for VCCV units.

본 논문에서는 언어모델의 언어처리 단위로 VCCV(vowel consonant consonant vowel) 단위를 제안하구 기존의 언어처리 단위인 어적 형태소 단위와 비교한다. 어절과 형태소는 어휘수가 많고 높은 복잡도를 가진다. 그러나 VCCV 단위는 작은 사전과 제한된 어휘를 가지므로 복잡도가 적다. 언어모델 구성에 smoothing은 반드시 필요하다. smoothing 기법은 정확한 확률 예측이 불확실한 데이터가 있을 때 더 나은 확률 예측을 위해 사용된다. 본 논문에서는 형태소, 어절, VCCV 단위에 대해 언어모델을 구성하여 복잡도를 계산하였다. 그 결과 VCCV 단위의 복잡도가 형태소나 어절보다 적게 나오는 것을 볼 수 있었다. 복잡도가 적게 나온 VCCV를 기반으로 N-gram을 구성하고 Katz. Witten-Bell, absolute, modified Kneser-Ney smoothing 등의 방법을 이용한 언어 모델에 대해 평가하였다. 그 결과 VCCV 단위의 언어모델에 적합한 smoothing 기법은 modified Kneser-Ney 방법으로 평가되었다.

Keywords

References

  1. R. lyer and M. Ostendorf, 'Relevance weighting for combining multi-domain data for n-gram language modeling,' Computer Speech and Language, 13, pp.267-282, 1999 https://doi.org/10.1006/csla.1999.0124
  2. 오영환, '음성언어정보처리', 홍릉과학출판사, 1997
  3. 이건상, 양성일, 권성헌 공저, '음성인식', 한양대학교 출판부, 2001
  4. Stanley F. Chen and Joshua Goodman, 'An Emperical Study of Smoothing Techniques for language modeling,' Technical Report TR-10-98, Computer Science Group, Harvard University, 1998
  5. Huang X., Acero A., Hon H.-W., 'Spoken language processing,' Prentice Hall PTR, October, 2001
  6. Laurence Rabiner and Bing-Hwang Jang, 'Fundamantals of Speech Recognition,' Printice-Hall EngleWood Cliffs, NJ., 1993
  7. P. R. Clarkson and R. Rosenfeld, 'Statistical Language Modeling using The CMU-Cambridge Toolkit,' ESCA Eurospeech, 1997
  8. 이진석, 박재득, 이근배, 'K-SLM toolkit을 이용한 한국어의 통계적 언어 모델링 비교', 한국전자통신연구원, 1999
  9. 윤재선, '한국어 음성 인식 dictation system의 구현', 성균관대학교 정보통신공학과 박사학위논문, 2001
  10. 남지순, '한국어 전자사전' 전자공학회지, 제24권 제9호 pp.1103-1125, Sep., 1997
  11. 北硏二, '音聲言語處理', 森北 出版株式會社, 1998
  12. Jelinek and Frederick, 'Statistical Methods for Speech Recoginition,' MIT press, 1997
  13. Steve Young and Gerrit Bloothooft, 'Corpus-Based Methods in Language andspeech processing,' Kluwer Academic Publishers, 1997