English Phoneme Recognition using Segmental-Feature HMM

분절 특징 HMM을 이용한 영어 음소 인식

  • 윤영선 (한남대학교 정보통신·멀티미디어공학부)
  • Published : 2002.04.01

Abstract

In this paper, we propose a new acoustic model for characterizing segmental features and an algorithm based upon a general framework of hidden Markov models (HMMs) in order to compensate the weakness of HMM assumptions. The segmental features are represented as a trajectory of observed vector sequences by a polynomial regression function because the single frame feature cannot represent the temporal dynamics of speech signals effectively. To apply the segmental features to pattern classification, we adopted segmental HMM(SHMM) which is known as the effective method to represent the trend of speech signals. SHMM separates observation probability of the given state into extra- and intra-segmental variations that show the long-term and short-term variabilities, respectively. To consider the segmental characteristics in acoustic model, we present segmental-feature HMM(SFHMM) by modifying the SHMM. The SFHMM therefore represents the external- and internal-variation as the observation probability of the trajectory in a given state and trajectory estimation error for the given segment, respectively. We conducted several experiments on the TIMIT database to establish the effectiveness of the proposed method and the characteristics of the segmental features. From the experimental results, we conclude that the proposed method is valuable, if its number of parameters is greater than that of conventional HMM, in the flexible and informative feature representation and the performance improvement.

본 논문에서는 여러 프레임 특징으로 표현되는 분절 특징(segmental feature) 표현 방법을 제안하고, HMM 개념 위에서 음향학적 모델과 그 알고리즘을 개발하여 HMM의 약점으로 지적되는 독립관측 가정을 완화시키고자 한다. 제안된 특징 표현은 단일 프레임 특징이 음성 신호의 시간적 동적 특성 (temporal dynamics)을 제대로 표현하지 못하기 때문에, 여러 프레임을 이용하여 음성 특징을 표현하도록 한다. 분절 특징은 다항식의 회귀 함수(polynomial regression function)에 의하여 관측 벡터의 궤적으로 표현되고, 이 특징을 패턴 분류에 사용하기 위하여 음성 신호의 궤적을 효과적으로 표현하는 분절 HMM(segmental HMM)을 이용한다. SHMM은 상태에서의 관측 확률을 외적 분절 변이와 내적 분절 변이로 세분하며, 외적 분절 변이는 장기적인 변화를, 내적 분절 변이는 단기적인 변화를 나타낸다. 음향학적 모델에서 분절 특성을 고려하기 위하여 외적 분절 변이는 분절의 확률 분포로 표현하고, 내적 분절 변이는 궤적의 추정 오차로 표현하도록 SHMM을 수정한 분절 특징 HMM(SFHMM; segmental-feature HMM)을 제안한다. SFHMM에서는 분절의 관측 확률을 분절 우도와 궤적의 추정 오차의 관계로써 표현하며, 추정오차는 특정 상태에서의 분절의 우도에 대한 가중치로 고려될 수 있다. 제안된 방법의 유효성과 분절 특징의 특성을 살펴보기 위하여 TIMIT 자료를 이용하여 몇 가지 실험을 하였다. 이들 실험 결과에서, 제안된 방법이 기존의 HMM보다 매개 변수가 많더라도, 성능의 향상과 제안된 특징이 유연하고 정보를 많이 가진다는 점에서 의미가 있다고 하겠다.

Keywords

References

  1. Holmes, W.J, and Russell, M.J., 'Probabilistic-trajectory segmental HMMs,' Computer Speech and Language, vol 13, pp. 3-37, 1999 https://doi.org/10.1006/csla.1998.0048
  2. Deng, L. and Aksmanovic, M. and Sun, Du. and Wu, J., 'Speech recognition using hidden Markov models with polynomial regression functions as non-stationary states,' IEEE Trans. on Speech and Audio Proc., vol. 2, no. 4, pp, 507-520, 1994 https://doi.org/10.1109/89.326610
  3. Furui, S. 'Speaker-Independent Isolated Word Recognition Using Dynamic Features of Speech Spectrum,' IEEE Trans. on Acoustics, Speech and Signal Processing, vol. 34, no. 1, pp. 52-59, 1986 https://doi.org/10.1109/TASSP.1986.1164788
  4. Deng, L. 'A generalized hidden Markov model with state-conditioned trend functions of time for speech signal,' Signal Processing, vol. 27, pp. 65-78, 1992 https://doi.org/10.1016/0165-1684(92)90112-A
  5. Gish, H. and Ng, K. 'A segmental speech model with application to word spotting,' In International Conference on Acoustics, Speech and Signal Processing 1993, vol. 2, pp. 447-450, Minneapolis, Minnesota, 1993 https://doi.org/10.1109/ICASSP.1993.319337
  6. Russell, M. 'A segmental HMM for speech pattern modeling,' In International Conference on Acoustics, Speech and Signal Processing 1993, vol. 2, pp. 499-502, Minneapolis, Minnesota, 1993 https://doi.org/10.1109/ICASSP.1993.319351
  7. Gales, M.J.F. and Young, S.J. 'The Theory of Segmental Hidden Markov Models,' CUED/FlNFENG/TR 133, Cambridge University Engineering Department, Trumpington Street, Cambridge CB2 IPZ, England, 1993
  8. Ostendorf, M. and Roukos, S. 'A stochastic segment model for phoneme-based continuous speech recognition,' IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 37, no. 2, pp. 1857-1869, 1989 https://doi.org/10.1109/29.45533
  9. Ostendorf, M. and Digalakis, V. and Kimball, O.A 'From HMM's to Segmental Models: A Unified View of Stochastic Modeling for Speech Recognition,' IEEE Trans. on Speech and Audio Processing, vol. 4, no. 5, pp, 360-378, 1996 https://doi.org/10.1109/89.536930
  10. Press, W.H. and Teukolsky, A.A. and Vetterling, W.T. and Flannery, B.P. Numerical Recipes in C, 2nd Ed. Cambridge University Press, pp. 671-680, 1992
  11. Gish, H. and Ng, K. Parametric trajectory models for speech recognition. In International Conference on Spoken Language Processing 1996, pp. 466469, Philadelphia, Oct. 1996 https://doi.org/10.1109/ICSLP.1996.607155
  12. Lee, K. and Hon, H. Speaker-independent phone recognition using hidden Markov models, IEEE Trans. On Acoustics, Speech and Signal Processing, vol. 37, no 11, pp.1661-1648, Nov. 1989 https://doi.org/10.1109/29.46546
  13. Fukada, T. and Sagisaka, Y. and Paliwal, K. Model Parameter Estimation For Mixture Density Polynomial Segment Models, In International Conference on Acoustics, Speech and Signal Processing 1997, Munich, Germany, pp, 1403-1406, April 1997 https://doi.org/10.1109/ICASSP.1997.596210
  14. 최인정, HMM에 기반한 음성 인식에서 음향학적 문맥 정보의 결합, 박사학위 논문, KAIST, 1999