분리된 고유공간을 이용한 잡음환경에 강인한 특징 정규화 기법

Robust Feature Normalization Scheme Using Separated Eigenspace in Noisy Environments

  • 이윤재 (고려대학교 전자컴퓨터공학과) ;
  • 고한석 (고려대학교 전자컴퓨터공학과)
  • 발행 : 2005.05.01

초록

본 논문에서는 잡음에 강인한 음성인식을 위하여 고유공간에 기반을 둔 새로운 특징 정규화 기법을 제안한다. 일반적으로 평균과 분산의 정규화 (MVN)는 켑스트럼 상에서 수행된다. 그러나 최근에 고유공간을 이용한 MVN기법이 소개되었고, 그 고유공간 정규화 기법에서는 하나의 고유공간을 이용하였다. 이 과정에는 켑스트럼 상의 특징 벡터를 선형 주성분 분석 (PCA)행렬을 통하여 고유공간으로 변환시킨 후 MVN을 수행하는 과정이 포함된다. 이 방법에서는 전체 39차의 특징분포를 하나의 고유공간으로 표현하였다. 그러나 이 기법의 경우 전체 특징 분포를 표현함에 세밀함이 떨어지기 때문에 더욱 세밀한 분포의 표현을 위해 본 논문에서는 static 특징, 1차 미분 계수, 2차 미분계수에 각각 유일하고 독립적인 분리된 고유공간을 적용하는 것을 제안하였다. 또한 고유공간에서 정규화 된 훈련 데이터를 이용하여 모델을 만든다. 마지막으로 훈련 데이터의 분포와 잡음환경에서의 테스트 데이터의 분포 특성의 차이를 줄이기 위해 켑스트럼 상에서의 회전 기법을 적용시킨다. 그 결과, 기본적인 고유공간 정규화 기법보다 향상된 성능을 얻을 수 있었다.

We Propose a new feature normalization scheme based on eigenspace for achieving robust speech recognition. In general, mean and variance normalization (MVN) is Performed in cepstral domain. However, another MVN approach using eigenspace was recently introduced. in that the eigenspace normalization Procedure Performs normalization in a single eigenspace. This Procedure consists of linear PCA matrix feature transformation followed by mean and variance normalization of the transformed cepstral feature. In this method. 39 dimensional feature distribution is represented using only a single eigenspace. However it is observed to be insufficient to represent all data distribution using only a sin91e eigenvector. For more specific representation. we apply unique na independent eigenspaces to cepstra, delta and delta-delta cepstra respectively in this Paper. We also normalize training data in eigenspace and get the model from the normalized training data. Finally. a feature space rotation procedure is introduced to reduce the mismatch of training and test data distribution in noisy condition. As a result, we obtained a substantial recognition improvement over the basic eigenspace normalization.

키워드

참고문헌

  1. X. Huang, A. Acero and H. Hon, Spoken Language Processing, (Prentice Hall PTR, 2001)
  2. P. Jain and H. Hermansky, 'Improved Mean and Variance Normalization for Robust Speech Recognition', Proc. of ICASSP, 2001
  3. Kaisheng Yao, Erik Visser, Oh-Wook Kwon, and Te-Won Lee, 'A Speech Processing Front-End with Eigenspace Normalization for Robust Speech Reconition in Noisy Automobile Environments', Eurospeech 2003, 9-12, 2003
  4. A. Vinciarelli and S. Bengio 'Offline Cursive Word Recognition using Continuous Density Hidden Markov Models trained with PCA or ICA Features', Proc. of 16th International Conference on Pattern Recognition, 3, 81-84, 2002
  5. Sirko Molau, Daniel Keysers and Hermann Ney, 'Matching Training and Test data Distributions for Robust Speech Reconnition', Speech Communication, 41 (4), 579-601, 2003 https://doi.org/10.1016/S0167-6393(03)00085-2
  6. H. G. Hirsch and D.Pearce, 'The AURORA Experimental Framework for the Performance Evaluations of Speech Recognition Systems under Noisy Conditions', ISCA ITRW ASR2000, 2000
  7. ETSI standard document, Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms, ETSI ES 201 108 v1.1.3 (2000-04), 2000