On the Development of a Continuous Speech Recognition System Using Continuous Hidden Markov Model for Korean Language

연속분포 HMM을 이용한 한국어 연속 음성 인식 시스템 개발

  • Kim, Do-Yeong (Communications Research Laboratory Department of Electrical Engineering Korea Advanced Institute of Science and Technology) ;
  • Park, Yong-Kyu (Communications Research Laboratory Department of Electrical Engineering Korea Advanced Institute of Science and Technology) ;
  • Kwon, Oh-Wook (Communications Research Laboratory Department of Electrical Engineering Korea Advanced Institute of Science and Technology) ;
  • Un, Chong-Kwan (Communications Research Laboratory Department of Electrical Engineering Korea Advanced Institute of Science and Technology) ;
  • Park, Seong-Hyun
  • 김도영 (한국과학기술원 전기 및 전자공학과 통신연구실) ;
  • 박용규 (한국과학기술원 전기 및 전자공학과 통신연구실) ;
  • 권오욱 (한국과학기술원 전기 및 전자공학과 통신연구실) ;
  • 은종관 (한국과학기술원 전기 및 전자공학과 통신연구실) ;
  • 박성현 (금성 정보 통신 주식회사)
  • Published : 1994.02.01

Abstract

In this paper, we report on the development of a speaker independent continuous speech recognition system using continuous hidden Markov models. The continuous hidden Markov model consists of mean and covariance matrices and directly models speech signal parameters, therefore does not have quantization error. Filter bank coefficients with their 1st and 2nd-order derivatives are used as feature vectors to represent the dynamic features of speech signal. We use the segmental K-means algorithm as a training algorithm and triphone as a recognition unit to alleviate performance degradation due to coarticulation problems critical in continuous speech recognition. Also, we use the one-pass search algorithm that Is advantageous in speeding-up the recognition time. Experimental results show that the system attains the recognition accuracy of $83\%$ without grammar and $94\%$ with finite state networks in speaker-indepdent speech recognition.

본 논문에서는 연속분포 hidden Markov모델을 이용한 화자독립 연속 음성 인식 시스템에 관해 기술한다. 연속분포 모델은 평균과 분산 벡터로 구성되며 음성신호를 직접 모델링하여 양자화 왜곡이 없어진다. 특징벡터는 filter bank 계수 및 그 1, 2차 미분계수를 사용하여 음성신호의 동적 특성을 반영하였다. Segmental K-means 알고리즘을 이용하여 학습하였으며, 연속어 인식에서 가장 문제가 되는 조음화 현상으로 인한 인식률 저하를 막기 위해 앞뒤의 음소를 고려해주는 triphone을 인식단위로 사용하였다. Search 알고리즘으로는 시간 면에서 효율이 좋은 one-pass search 알고리즘을 사용하였다 성능 평가를 위한 회자 독립인식 실험에서 문법이 없을 경우 $83\%$, finite state network을 적용한 경우에는 $94\%$의 인식률을 나타내었다.

Keywords