An Analysis on Phone-Like Units for Korean Continuous Speech Recognition in Noisy Environments

잡음환경하의 연속 음성인식을 위한 유사음소단위 분석

  • Shen Guang-Hu (Dept. of Information and Communication Eng., Yeungnam University) ;
  • Lim Soo-Ho (Dept. of Information and Communication Eng., Yeungnam University) ;
  • Seo Jun-Bae (Dept. of Information and Communication Eng., Yeungnam University) ;
  • Kim Joo-Gon (Dept. of Information and Communication Eng., Yeungnam University) ;
  • Jung Ho-Youl (Dept. of Information and Communication Eng., Yeungnam University) ;
  • Chung Hyun-Yeol (Dept. of Information and Communication Eng., Yeungnam University)
  • 신광호 (영남대학교 정보통신공학과) ;
  • 임수호 (영남대학교 정보통신공학과) ;
  • 서준배 (영남대학교 정보통신공학과) ;
  • 김주곤 (영남대학교 정보통신공학과) ;
  • 정호열 (영남대학교 정보통신공학과) ;
  • 정현열 (영남대학교 정보통신공학과)
  • Published : 2004.11.01

Abstract

본 논문은 잡음환경 하에서의 효율적인 문맥의존 음향 모델 구성에 대한 기초연구로서 잡음환경 하에서의 유사 음소단위 수에 따른 연속 음성인식 성능을 비교, 평가한 결과에 대한 보고이다. 기존의 연구[1,2]로부터 연속음성 인식의 경우 문맥종속모델은 변이음을 고려한 39유사음소를 이용한 경우가 48유사음소를 이용하는 것보다 더 좋은 인식성능을 나타냄을 알 수 있었다. 이 연구 결과를 바탕으로 본 연구에서는 잡음환경에서도 효율적인 문맥 의존 음향모델을 구성하기 위한 기초 연구를 수행하였다. 다양한 잡음환경을 고려하기 위해 White, Pink, LAB 잡음을 신호 대 잡음비(Signal to Noise Ratio) 5dB, 10dB, 15dB 레벨로 음성에 부가한 후 각 유사음소단위 수에 따른 연속음성인식 실험을 수행하였다. 그 결과, 39유사음소를 이용한 경우가 48유사음소를 이용한 경우보다 clear 환경인 경우에 약 $7\%$$17\%$ 향상된 단어인식률과 문장 인식률을 얻을 수 있었으며, 각 잡음환경에서도 39유사음소를 이용한 경우가 48유사음소를 이용한 경우보다 평균 적으로 $17\%$$28\%$ 향상된 단어인식률과 문장인식률을 얻을 수 있어 39유사음소 단위가 한국어 연속음성인식에 더 적합하고 잡음환경에서도 유효함을 확인할 수 있었다.

Keywords