DSR 환경에서의 다 모델 음성 인식시스템의 성능 향상 방법에 관한 연구

A Study on Performance Improvement Method for the Multi-Model Speech Recognition System in the DSR Environment

  • 투고 : 2010.03.02
  • 심사 : 2010.04.29
  • 발행 : 2010.04.30

초록

다 모델 음성인식기는 잡음환경에서 매우 우수한 성능을 보이는 것으로 평가되고 있다. 그러나 지금까지 다 모델 기반인식기의 성능시험에는 잡음에 대한 적응을 고려하지 않은 일반적인 전처리 방식이 주로 활용하였다. 본 논문에서는 보다 정확한 다 모델 기반인식기에 대한 성능 평가를 위해서 잡음에 대한 강인성이 충분히 고려된 전처리 방식을 채택하였다. 채택된 전처리 알고리듬은 ETSI (European Telecommunications Standards Institute)에서 DSR (Distributed Speech Recognition) 잡음환경을 위해서 제안된 AFE (Advanced Front-End) 방식이며 성능비교를 위해서 DSR 환경에서 좋은 성능을 나타낸 것으로 알려진 MTR (Multi-Style Training)을 사용하였다. 또한, 본 논문에서는 다 모델 기반인식기의 구조를 개선하여 인식성능의 향상을 이루고자 하였다. 기존의 방식과 달리 잡음음성과 가장 가까운 N개의 기준 HMM을 사용하여 기준 HMM의 선택시에 발생할 수 있는 오류 및 잡음신호의 변이에 대한 대비를 하도록 하였으며 각각의 기준 HMM을 훈련을 위해서 다수의 SNR 값을 이용함으로서 구축된 음향모델의 강인성을 높일 수 있도록 하였다. Aurora 2 데이터베이스에 대한 인식실험결과 개선된 다 모델기반인식기는 기존의 방식에 비해서 보다 향상된 인식성능을 보임을 알 수 있었다.

Although multi-model speech recognizer has been shown to be quite successful in noisy speech recognition, the results were based on general speech front-ends which do not take into account noise adaptation techniques. In this paper, for the accurate evaluation of the multi-model based speech recognizer, we adopted a quite noise-robust speech front-end, AFE, which was proposed by the ETSI for the noisy DSR environment. For the performance comparison, the MTR which is known to give good results in the DSR environment has been used. Also, we modified the structure of the multi-model based speech recognizer to improve the recognition performance. N reference HMMs which are most similar to the input noisy speech are used as the acoustic models for recognition to cope with the errors in the selection of the reference HMMs and the noise signal variability. In addition, multiple SNR levels are used to train each of the reference HMMs to improve the robustness of the acoustic models. From the experimental results on the Aurora 2 databases, we could see better recognition rates using the modified multi-model based speech recognizer compared with the previous method.

키워드

참고문헌

  1. Gales, M. J. F., Model Based Techniques for Noise-Robust Speech Recognition, Ph.D. Dissertation, University of Cambridge. 1995.
  2. Moreno, P. J., Speech Recognition in Noisy Environments, Ph.D. Dissertation, Carnegie Mellon University, 1996.
  3. Ball, S. F., "Suppression of Acoustic Noise in Speech Using spectral subtraction", IEEE Trans. Acoust., Speech, Signal Process., vol.27, pp.113-120, 1979. https://doi.org/10.1109/TASSP.1979.1163209
  4. Xu, H, Tan, Z.-H., Dalsgaard, P., Lindberg, B., "Robust Speech Recognition on Noise and SNR Classification-a Multiple-Model Framework", Proc. Interspeech, 2005.
  5. ETSI Draft Standard Doc. Speech Processing, Transmission and Quality Aspects (STQ); Distributed Speech Recognition; Front-End Feature Extraction Algorithm; Compression Algorithm, ETSI Standard ES 202 108, 2000.
  6. ETSI Draft Standard Doc. Speech Processing, Transmission and Quality Aspects (STQ); Distributed Speech Recognition; Advanced Front-End Feature Extraction Algorithm; Compression Algorithm, ETSI Standard ES 202 050,2002.
  7. Macho, D., Mauuary, L., Noe, B., Cheng, Y., Eahey, D., Jouvet, D., Kelleher, H, Pearce, D., Saadoun, F., "Evaluation of a Noise-Robust DSR Front-End on Aurora Databases", Proc. ICSLP, pp.17-20, 2002.
  8. Juang, B. H. and Rabiner, L. R, "A Probabilistic Distance Measure for Hidden Markov Models", AT&T Technology Journal, pp. 391-408, 1984.
  9. 정용주, "연속 잠음 음성 인식을 위한 다 모델 기반 인식기의 성능 향상에 대한 연구", 음성과학, 제15권 제2호, pp.55-65, 2008.
  10. 김희근, 정용주, "AURORA DB를 이용한 잠음 음성 인식실험을 위한 Segmental K-means 훈련방식의 기반인식기의 구현", 말소리, 제57호, pp. 113-122, 2006.