DOI QR코드

DOI QR Code

IMM 기반 특징 보상 기법과 불확실성 디코딩의 결합

Incorporation of IMM-based Feature Compensation and Uncertainty Decoding

  • 강신재 (서울대학교 전기.컴퓨터공학부 뉴미디어통신공동연구소 휴먼인터페이스 연구실) ;
  • 한창우 (서울대학교 전기.컴퓨터공학부 뉴미디어통신공동연구소 휴먼인터페이스 연구실) ;
  • 권기수 (서울대학교 전기.컴퓨터공학부 뉴미디어통신공동연구소 휴먼인터페이스 연구실) ;
  • 김남수 (서울대학교 전기.컴퓨터공학부 뉴미디어통신공동연구소 휴먼인터페이스 연구실)
  • 투고 : 2012.04.02
  • 심사 : 2012.06.05
  • 발행 : 2012.06.30

초록

본 논문은 잡음이 많이 존재할 경우 특징 보상 기법들의 불완전한 추정 방법으로 인하여 발생할 수 있는 불확실성 정보를 음성 인식의 디코딩에 반영해 줌으로써 좀 더 인식 성능을 향상시킬 수 있는 방법에 대한 연구이다. 기존의 특징 보상 기법들은 현재 시간에서의 깨끗한 특징 파라미터를 추정하는 단일점 추정 기법들이 대부분이다. 하지만 낮은 SNR 환경에서의 잘못된 추정 파라미터들이 음성 인식 엔진의 입력으로 사용될 경우 성능이 저하되기 때문에 추정된 파라미터의 불확실성 정보를 이용하여 디코딩을 해주면 추정 오류를 보완해줄 수 있다. 본 논문에서는 대표적인 Aurora-2 DB를 활용하여 적용된 기법의 성능 향상을 확인한다.

This paper presents a decoding technique for speech recognition using uncertainty information from feature compensation method to improve the speech recognition performance in the low SNR condition. Traditional feature compensation algorithms have difficulty in estimating clean feature parameters in adverse environment. Those algorithms focus on the point estimation of desired features. The point estimation of feature compensation method degrades speech recognition performance when incorrectly estimated features enter into the decoder of speech recognition. In this paper, we apply the uncertainty information from well-known feature compensation method, such as IMM, to the recognition engine. Applied technique shows better performance in the Aurora-2 DB.

키워드

참고문헌

  1. N. S. Kim, "Feature domain compensation of nonstationary noise for robust speech recognition," Speech Communication, Vol. 37, pp. 231-248, Jul. 2002. https://doi.org/10.1016/S0167-6393(01)00013-9
  2. R. F. Astudillo and D. Kolossa, "Uncertainty propagation," in Robust Speech Recognition of Uncertain or Missing Data: Theory and Applications, D. Kolossa and R. Haeb-Umbach, Eds. Springer, Jul. 2011.
  3. L. Deng, "Front-end, back-end, and hybrid techniques for noise-robust speech recognition," in Robust Speech Recognition of Uncertain or Missing Data: Theory and Applications, D. Kolossa and R. Haeb-Umbach, Eds. Springer, Jul. 2011.
  4. L. Deng, J. Droppo and A. Acero, "Dynamic compensation of HMM variances using the feature enhancement uncertainty computed from a parametric model of speech distortion," IEEE Trans. Speech and Audio Processing, Vol. 13, No. 3, pp. 412-421, May 2005. https://doi.org/10.1109/TSA.2005.845814
  5. 강신재, 한창우, 권기수, 김남수, "IMM 기반 특징 보상 기법의 추정된 분산을 이용한 불확실성 디코딩," 한국통신학회 동계종합학술발표회 논문집, 2012년 2월.
  6. Q. Hue and C. Lee, "A Bayesian predictive classification approach to robust speech recognition," IEEE Trans. Speech and Audio Processing, Vol. 8, No. 8, pp. 200-204, Nov. 2000. https://doi.org/10.1109/89.824706
  7. Speech Processing, Transmission and Quality Aspects (STQ); Distributed Speech Recognition; Front-End Feature Extraction Algorithm; Compression Algorithm, ETSI ES 201108 V1.1.3, Sep. 2003, ETSI Std. Doc..
  8. S. Young, The HTK Book. Cambridge, U.K.: Eng. Dept. Cambridge Univ. 2006.