A Study on Pseudo N-gram Language Models for Speech Recognition

음성인식을 위한 의사(疑似) N-gram 언어모델에 관한 연구

  • 오세진 (영남대학교 전자공학과) ;
  • 황철준 (대구과학대학 정보전자통신계열) ;
  • 김범국 (대구과학대학 정보전자통신계열) ;
  • 정호열 (영남대학교 전자정보공학부) ;
  • 정현열 (미국 Qaulcomm Inc. 수석 엔지니어)
  • Published : 2001.07.01

Abstract

In this paper, we propose the pseudo n-gram language models for speech recognition with middle size vocabulary compared to large vocabulary speech recognition using the statistical n-gram language models. The proposed method is that it is very simple method, which has the standard structure of ARPA and set the word probability arbitrary. The first, the 1-gram sets the word occurrence probability 1 (log likelihood is 0.0). The second, the 2-gram also sets the word occurrence probability 1, which can only connect the word start symbol and WORD, WORD and the word end symbol . Finally, the 3-gram also sets the ward occurrence probability 1, which can only connect the word start symbol , WORD and the word end symbol . To verify the effectiveness of the proposed method, the word recognition experiments are carried out. The preliminary experimental results (off-line) show that the word accuracy has average 97.7% for 452 words uttered by 3 male speakers. The on-line word recognition results show that the word accuracy has average 92.5% for 20 words uttered by 20 male speakers about stock name of 1,500 words. Through experiments, we have verified the effectiveness of the pseudo n-gram language modes for speech recognition.

본 논문에서는 대어휘 음성인식에서 널리 사용되고 있는 N-gram 언어모델을 중규모 어휘의 음성인식에서도 사용할 수 있는 의사(疑似) N-gram 언어모델을 제안한다. 제안방법은 ARPA 표준형식 N-gram 언어모델의 구조를 가지면서 각 단어의 확률을 임의로 부여하는 비교적 간단한 방법으로 1-gram은 모든 단어의 출현확률을 1로 설정하고, 2-gram은 허용할 수 있는 단어시작기호 와 WORD 및 WORD와 단어종료기호 의 접속확률만을 1로 설정하며, 3-gram은 단어 시작기호 와 WORD, 단어종료기호 만의 접속을 허용하며 접속확률을 1로 설정한다. 제안방법의 유효성을 확인하기 위해 사전실험으로서 국어공학센터(KLE) 단어음성에 대해 오프라인으로 평가한 견과, 남성 3인의 452 단어에 대해 평균 97.7%의 단어인식률을 구하였다. 또한 사전실험결과를 바탕으로 1,500단어의 중규모 어휘의 증권명을 대상으로 온라인 인식실험을 수행한 결과, 남성 20명이 발성한 20단어에 대해 평균 92.5%의 단어인식률을 얻어 제안방법의 유효성을 확인하였다.

Keywords

References

  1. 정보과학지 v.16 no.2 음성언어 정보처리 연구의 동향 오영환
  2. 2000년도 한국음향학회 정기총회 및 학술대회 논문집 v.19 no.2(s) 음성인식 기술의 현황과 연구동향 김순협
  3. Spoken Language Processing:a guide to theory, algorithm, and system development X. Huang;A. Acero;H-W. Hon
  4. 確率モデルによる音聲認識 中川聖一
  5. Proc. of second European Conference on speech Communication and Tech. A Parser for Speech Lattices Using a UCG Grammar F. Andry;s. Thornton
  6. Proc. of ICASSP'91 The Forward Backward Search Algorithm S. austin;R. Schwartz(et al.)
  7. Fundamentals of Speech Recognition L. R. Rabiner;B. H. Juang
  8. Proc. of Eurospeech '97 Statistical Language Modeling Using the CMU-Cambridge Toolkit P. Clarkson;R. Rosenfeld
  9. Speech and Language Processing:and introduction to natural language processing, computational linguistic and speech recognition D. Jurafsky;J. Martin
  10. The HTK Book S. J. Young(et al.)
  11. 한국음향학회지 v.15 no.3 한국어 문서 음성변환 시스템을 위한 문서 분석기 이상호;오영환;서정연
  12. IEICE v.J82-D-Ⅱ no.1 Large Vocabulary Continuous Speech Recognition based on Multi Pass Search Using Word Trellis Index A. Lee;T. Kawahara;S. Doshita
  13. Ph. D. thesis, Yamagata University A Study on Large Vacabulary Continuous Speech Recognition T. Hori
  14. Technical Report of IEICE Speech Understanding Based on Key Phase Spotting and Combined Language Models H. Kashima;T. Kawahara
  15. 한국음향학회지 v.19 no.6 반복학습법에 의해 작성한 N-gram을 이용한 연속음성인식에 관한 연구 오세진;황철준;김범국;정호열;정현열
  16. 한국음향학회 하계학술발표대회 논문집 v.20 no.1(s) 의사 N-gram 언어모델을 이용한 단어인식에 관한 연구 오세진;황철준;김범국;정호열;정현열