DOI QR코드

DOI QR Code

A Study on the Removal of Unusual Feature Vectors in Speech Recognition

음성인식에서 특이 특징벡터의 제거에 대한 연구

  • 이창영 (동서대학교 산업경영공학과)
  • Received : 2013.02.01
  • Accepted : 2013.04.25
  • Published : 2013.04.30

Abstract

Some of the feature vectors for speech recognition are rare and unusual. These patterns lead to overfitting for the parameters of the speech recognition system and, as a result, cause structural risks in the system that hinder the good performance in recognition. In this paper, as a method of removing these unusual patterns, we try to exclude vectors whose norms are larger than a specified cutoff value and then train the speech recognition system. The objective of this study is to exclude as many unusual feature vectors under the condition of no significant degradation in the speech recognition error rate. For this purpose, we introduce a cutoff parameter and investigate the resultant effect on the speaker-independent speech recognition of isolated words by using FVQ(Fuzzy Vector Quantization)/HMM(Hidden Markov Model). Experimental results showed that roughly 3%~6% of the feature vectors might be considered as unusual, and therefore be excluded without deteriorating the speech recognition accuracy.

음성 인식을 위해 추출되는 특징벡터 중 일부는 드물게 나타나는 특이 패턴이다. 이들은 음성인식 시스템의 훈련에서 파라미터의 과도맞춤을 일으키며, 그 결과 새로운 입력 패턴의 인식을 저해하는 구조적 위험을 초래한다. 본 논문에서는 이러한 특이 패턴을 제거하는 하나의 방법으로서, 어느 크기 이상의 벡터를 제외시켜 음성인식 시스템의 훈련을 수행하는 방법에 대해 연구한다. 본 연구의 목적은 인식률을 저해시키지 않는 한도에서 가장 많은 특이 특징벡터를 제외시키는 것이다. 이를 위하여 우리는 하나의 절단 파라미터를 도입하고, 그 값의 변화가 FVQ(Fuzzy Vector Quantization)/HMM(Hidden Markov Model)을 사용한 화자독립 음성 인식에 미치는 영향을 조사하였다. 실험 결과, 인식률을 저하시키지 않는 특이 특징벡터의 수가 3%~6% 정도임을 확인하였다.

Keywords

References

  1. G. Kaplan, "Words Into Action I," IEEE Spectrum, Vol. 17, pp. 22-26, 1980.
  2. Y. Chang, S. Hung, N. Wang, & B. Lin, "CSR: A Cloud-Assisted Speech Recognition Service for Personal Mobile Device," International Conference on Parallel Processing (ICPP), pp. 305-314. 2011.
  3. 김범준, "와이브로 네트워크를 통한 음성 서비스의 측정 기반 품질 기준 수립," 한국전자통신학회논문지, 6권, 6호, pp. 823-829, 2011.
  4. 김영표, 이한영, "음성 인식률 개선 방법에 관한 연구," 한국전자통신학회논문지, 8권, 1호, pp. 77-83, 2013. https://doi.org/10.13067/JKIECS.2013.8.1.077
  5. J.-C. Wang, J.-F. Wang, & Y. Weng, "Chip design of MFCC extraction for speech recognition," The VLSI Journal, Vol. 32, pp. 111-131, 2002. https://doi.org/10.1016/S0167-9260(02)00045-7
  6. L. Rabiner & B. Juang, "Fundamentals of Speech Recognition," Prentice Hall, pp. 143-149, 1993.
  7. V. Vapnik, "Principles of Risk Minimization for Learning Theory," Advances in Neural Information Processing Systems, Vol. 4, pp. 831-838., 1992.
  8. L. Fausett, "Fundamentals of Neural Networks," Prentice-Hall, p. 298, 1994.
  9. J. R. Deller, J. G. Proakis, & J. H. L. Hansen, "Discrete-Time Processing of Speech Signals," Macmillan, New York, pp. 143-145, 1994.
  10. W. Xu, et. al., "A Noise Robust Front-End Using Wiener Filter, Probability Model and CMS for ASR," International Conference on Natural Language Processing and Knowledge Engineering, pp. 102-105, 2005.
  11. M. D. Emmerson, & R. I. Damper, "Relations between fault tolerance and internal representations for multi-layer perceptrons," IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Vol. 2, pp. 281-284. 1992.
  12. 최재승, "신경회로망에 의한 음성 및 잡음 인식 시스템," 한국전자통신학회논문지, 5권, 4호, pp. 357-362, 2010.
  13. M. Dehghan, K. Faez, M. Ahmadi, & M. Shridhar, "Unconstrained Farsi Handwritten Word Recognition Using Fuzzy Vector Quantization and Hidden Markov models," Pattern Recognition Letters, Vol. 22, pp. 209-214. 2001. https://doi.org/10.1016/S0167-8655(00)00090-8