Independent Component Analysis on a Subband Domain for Robust Speech Recognition

음성의 특징 단계에 독립 요소 해석 기법의 효율적 적용을 통한 잡음 음성 인식

  • Park, Hyeong-Min (Dept. of Electronic Computer Science, Korea Advanced Institute of Science and Technology) ;
  • Jeong, Ho-Yeong ;
  • Lee, Tae-Won (Institute for Neural Computation, University of California, San Diego) ;
  • Lee, Su-Yeong (Dept. of Electronic Computer Science, Korea Advanced Institute of Science and Technology)
  • Published : 2000.11.01

Abstract

In this paper, we propose a method for removing noise components in the feature extraction process for robust speech recognition. This method is based on blind separation using independent component analysis (ICA). Given two noisy speech recordings the algorithm linearly separates speech from the unwanted noise signal. To apply ICA as closely as possible to the feature level for recognition, a new spectral analysis is presented. It modifies the computation of band energies by previously averaging out fast Fourier transform (FFT) points in several divided ranges within one met-scaled band. The simple analysis using sample variances of band energies of speech and noise, and recognition experiments showed its noise robustness. For noisy speech signals recorded in real environments, the proposed method which applies ICA to the new spectral analysis improved the recognition performances to a considerable extent, and was particularly effective for low signal-to-noise ratios (SNRs). This method gives some insights into applying ICA to feature levels and appears useful for robust speech recognition.

본 논문에서는 잡음이 섞인 음성 신호로부터 특징을 추출하는 과정에서 잡음의 영향이 배제된 음성의 특징을 추출하는 방법을 제안한다. 이 방법은 여러 개의 마이크로폰으로 녹음된 잡음 음성 신호에 독립 요소해석 (Independent Component Analysis) 기법을 사용한 암묵 신호 분리를 적용하여 잡음 성분을 제거하게 된다. 또한, 새로운 스펙트럼 분석법을 제안하여 음성 인식을 위한 특징에 가까운 단계에서 독립 요소 해석 기법을 효율적으로 적용할 수 있도록 한다. 이 스펙트럼 분석법은 기존의 대역 에너지 계산 방법을 수정하여 하나의 대역을 몇 개의 영역으로 구분하고 그 영역내의 Fast Fourier Transform (FFT) 포인트 값들의 평균을 먼저 구한 후 대역 에너지를 계산하게 된다. 음성과 잡음에 대한 대역 에너지의 표본 분산을 사용한 해석과 인식 실험을 통해 이 스펙트럼 분석법이 잡음에 둔감한 방법임을 보였다. 또, 실세계에서 녹음된 잡음 음성 신호에 대해 새로운 스펙트럼 분석법에 독립 요소 해석 기법을 적용한 방법은 인식 성능을 크게 향상시켰으며, 특히 낮은 신호 대 잡음비에 대하여 효과적이었다. 이 방법은 음성 인식을 위한 특징 단계에 독립 요소 해석 기법을 효율적으로 적용 가능할 수 있도록 하는 방안을 제시한다.

Keywords

References

  1. D.-S. Kim, S.-Y. Lee, and R.-M. Kil, Auditory processing of speech signals for robust speech recognition in real-world noisy environments, IEEE Trans. Speech and Audio Processing, Vol. 7, No. 1, pp. 55-69, Jan. 1999 https://doi.org/10.1109/89.736331
  2. H. Hcrmansky, N. Morgan, and H. Hirsch, Recognition of speech in additive and convolutional noise based on RASTA spectral processing, in Proc. ICASSP, Vol. 2, pp. 83-86, Apr. 1993 https://doi.org/10.1109/ICASSP.1993.319236
  3. S. F. BOLL, 'Suppression of acoustic noise in speech using spectral subtraction,' IEEE Trans. Acoust., Speech, Signal Processing, Vol.27, No.2, pp. 113-120, 1979 https://doi.org/10.1109/TASSP.1979.1163209
  4. A. P. Varga and R. K. Moore, Hidden Markov model decomposition of speech and noise, in Proc. ICASSP, pp. 845-848, Apr. 1990 https://doi.org/10.1109/ICASSP.1990.115970
  5. ?T.-W. Lee, A. J. Bell, and R. Orglmeister, Blind source separation of real world signals, in Proc. ICNN, pp. 2129-2135, 1997 https://doi.org/10.1109/ICNN.1997.614235
  6. A. Bell and T. Sejnowski, An information-maximization approach to blind separation and blind deconvolution, Neural Computation 7, pp. 1129-1159, 1995
  7. S. Amari, A. Cichocki, and H. Yang, A new learning algorithm for blind signal separation, Neural Information Processing Systems 8, pp. 757-763, 1996
  8. P. Smaragdis, Information Theoretic Approaches to Sources Separartion, Masters Thesis, MIT Media Arts and Sciences Dept., 1997
  9. J. R. Deller, J. G. Proakis, and J. H. Hanson, Discrete-Time Processing of Speech Signals, Macmillan Publishing Company, 1993
  10. X. Huang, Y. Ariki, and M. Jack, Hidden Markov Models for Speech Recognition, Edinburgh University Press, 1990