DOI QR코드

DOI QR Code

Phonetic Transcription based Speech Recognition using Stochastic Matching Method

확률적 매칭 방법을 사용한 음소열 기반 음성 인식

  • 김원구 (군산대학교 전자정보공학부 생체인식연구센터)
  • Published : 2007.10.25

Abstract

A new method that improves the performance of the phonetic transcription based speech recognition system is presented with the speaker-independent phonetic recognizer. Since SI phoneme HMM based speech recognition system uses only the phoneme transcription of the input sentence, the storage space could be reduced greatly. However, the performance of the system is worse than that of the speaker dependent system due to the phoneme recognition errors generated from using SI models. A new training method that iteratively estimates the phonetic transcription and transformation vectors is presented to reduce the mismatch between the training utterances and a set of SI models using speaker adaptation techniques. For speaker adaptation the stochastic matching methods are used to estimate the transformation vectors. The experiments performed over actual telephone line shows that a reduction of about 45% in the error rates could be achieved as compared to the conventional method.

본 논문에서는 화자 독립 음소 인식기를 사용하는 음소열 기반 음성 인식 시스템의 성능을 향상시키는 새로운 방법을 제안하였다. 화자독립 음소 HMM을 사용하는 음성 인식 시스템은 입력 문장에 대한 음소열만을 사용하므로 저장 공간은 크게 줄일 수 있다. 그러나 시스템의 성능은 화자독립 모델을 사용하므로 발생하는 음소 오차 때문에 화자 종속 시스템보다 저하된다. 여기에서는 화자 적응 기술을 사용하여 화자독립 모델과 학습 데이터간의 불일치를 감소시키도록 음소열과 변환 벡터를 반복적으로 추정하는 학습 방법을 제안하였다. 화자 적응을 위한 변환 벡터를 추정하기 위하여 확률적 매칭 방법이 사용되었다. 실험은 전화선을 통하여 얻어진 데이터를 사용한 실험에서 기존 방법에 비하여 약 45%정도 오차가 감소되었다.

Keywords

References

  1. Jain, N., Cole, R Barnard, E., 'Creating Speaker Specific Phonetic Templates with a Speaker-Independent Phonetic Recognizer: Implications for Voice Dialing', Proc. of ICASSP, pp. 881884, 1996
  2. Fontaine, V., Bourlard, H., 'Speaker-Dependent Speech Recognition Based on Phone-Like Units Models-Application to Voice Dialing', Proc. of ICASSP, pp. 15271530, 1997
  3. Ramabhadran, B., Bahl, L.R., deSouza, P.V., Padmanabhan, M., 'Acoustic-Only Based Automatic Phonetic Baseform Generation', Proc. of ICASSP, pp. 22752278, 1998
  4. Deligne, S., Mangu, L., 'On the use of Lattices for Automatic Generation of Pronunciations', Proc. of ICASSP, pp. 204207, 2003
  5. Sankar, A., Lee, C.H, 'A Maximum-Likelihood Approach to Stochastic Matching for Robust Speech Recognition', IEEE Trans. on Speech and Audio Processing, Vol. 4., pp. 190202, 1996 https://doi.org/10.1109/89.496215
  6. Sukkar, R.A., Lee, C.H., 'Vocabulary Independent Discriminative Utterance Verification for Non-keyword Rejection in Subword based Speech Recognition', IEEE Trans. on Speech and Audio Processing, Vol. 4., pp. 420429, 1996 https://doi.org/10.1109/89.544527