Speech Recognition in the Pager System displaying Defined Sentences

문자출력 무선호출기를 위한 음성인식 시스템

  • Park, Gyu-Bong (Language Understanding Lab. of Natural Language Information Processing Dept. Systems Engineering Research Institute) ;
  • Park, Jeon-Gue (Language Understanding Lab. of Natural Language Information Processing Dept. Systems Engineering Research Institute) ;
  • Suh, Sang-Weon (Language Understanding Lab. of Natural Language Information Processing Dept. Systems Engineering Research Institute) ;
  • Hwang, Doo-Sung (Language Understanding Lab. of Natural Language Information Processing Dept. Systems Engineering Research Institute) ;
  • Kim, Hyun-Bin (Language Understanding Lab. of Natural Language Information Processing Dept. Systems Engineering Research Institute) ;
  • Han, Mun-Sung (Language Understanding Lab. of Natural Language Information Processing Dept. Systems Engineering Research Institute)
  • 박규붕 (시스템공학연구소 자연어정보처리연구부 언어이해연구실) ;
  • 박전규 (시스템공학연구소 자연어정보처리연구부 언어이해연구실) ;
  • 서상원 (시스템공학연구소 자연어정보처리연구부 언어이해연구실) ;
  • 황두성 (시스템공학연구소 자연어정보처리연구부 언어이해연구실) ;
  • 김현빈 (시스템공학연구소 자연어정보처리연구부 언어이해연구실) ;
  • 한문성 (시스템공학연구소 자연어정보처리연구부 언어이해연구실)
  • Published : 1996.10.11

Abstract

본 논문에서는 문자출력이 가능한 무선호출기에 음성인식 기술을 접목한, 특성화된 한 음성인식 시스템에 대하여 설명하고자 한다. 시스템 동작 과정은, 일단 호출자가 음성인식 서버와 접속하게 되면 서버는 호출자의 자연스런 입력음성을 인식, 그 결과를 문장 형태로 피호출자의 호출기 단말기에 출력시키는 방식으로 되어 있다. 본 시스템에서는 통계적 음성인식 기법을 도입하여, 각 단어를 연속 HMM으로 모델링하였다. 가우시안 혼합 확률밀도함수를 사용하는 각 모델은 전통적인 HMM 학습법들 중의 하나인 Baum-Welch 알고리듬에 의해 학습되고 인식시에는 이들에 비터비 빔 탐색을 적용하여 최선의 결과를 얻도록 한다. MFCC와 파워를 혼용한 26 차원 특징벡터를 각 프레임으로부터 추출하여, 최종적으로, 83 개의 도메인 어휘들 및 무음과 같은 특수어휘들에 대한 모델링을 완성하게 된다. 여기에 구문론적 기능과 의미론적 기능을 함께 수행하는 FSN을 결합시켜 자연발화음성에 대한 연속음성인식 시스템을 구성한다. 본문에서는 이상의 사항들 외에도 음성 데이터베이스, 레이블링 등과 갈이 시스템 성능과 직결되는 시스템의 외적 요소들에 대해 고찰하고, 시스템에 구현되어 있는 다양한 특성들에 대해 밝히며, 실험 결과 및 앞으로의 개선 방향 등에 대해 논의하기로 한다.

Keywords