A Study on Construction of Acoustical Phoneme Models Using Hidden Markov Network

Hidden Markov Network를 이용한 음향학적 음소모델 작성에 관한 검토

  • Oh Se-Jin (School of Electrical Eng., & Computer Science, Yeungnam University) ;
  • Lim Young-Choon (School of Electrical Eng., & Computer Science, Yeungnam University) ;
  • Hwang Cheol-Jun (Informational Electronics & Communication Div., Taegu Science College) ;
  • Kim Bum-Koog (Informational Electronics & Communication Div., Taegu Science College) ;
  • Chung Hyun-Yeol (School of Electrical Eng., & Computer Science, Yeungnam University)
  • 오세진 (영남대학교 전자정보공학부) ;
  • 임영춘 (영남대학교 전자정보공학부) ;
  • 황철준 (대구과학대학 정보전자통신계열) ;
  • 김범국 (대구과학대학 정보전자통신계열) ;
  • 정현열 (영남대학교 전자정보공학부)
  • Published : 2000.11.01

Abstract

본 논문에서는 음성인식 시스템의 음향모델 개선을 위한 기초적 연구로서, 문맥적인 요소를 필요로 하는 SSS(Successive State Splitting)와 필요로 하지 않는 SSS-free 알고리즘을 이용한 HMnet(Hidden Markov Network) 음향모델 작성방법에 대해 검토하고 작성한 음향모델을 한국어에 적용하여 그 유효성을 확인하였다. HMnet을 이용한 음소모델의 작성방법은 전체 학습 데이터에 대해서 각각 2개의 상태를 가지는 초기 모델을 작성한 후, 이를 시간과 문맥방향으로의 최대 분포를 가지는 상태를 재분할한 후 임의의 상태수가 될 때까지 상태분할을 계속적으로 수행케 하여 각 음소모델을 작성하게 된다. 작성한 HMnet 음향모델의 유효성을 확인하기 위해 ETRI 445 단어의 3인에 대한 화자종속 음소인식 실험을 수행하였다. 인식실험 결과, SSS 알고리즘을 이용한 화자종속실험의 경우 상태수 520에서 평균 $62.8\%$의 인식률을, SSS-free 알고리즘의 경우 상태수 420에서 평균 $64.2\%$의 인식률을 얻었다. 이 결과는 HMM을 이용한 경우(약$43.4\%$)보다 $20\%$이상의 인식률 향상을 보여 이 알고리즘의 유효성을 확인할 수 있었다. SSS와 SSS-free를 비교한 경우, SSS-free가 SSS보다 낮은 상태수에서 평균 $1.4\% 향상된 인식률을 보였다.

Keywords