DOI QR코드

DOI QR Code

Factored MLLR Adaptation for HMM-Based Speech Synthesis in Naval-IT Fusion Technology

인자화된 최대 공산선형회귀 적응기법을 적용한 해양IT융합기술을 위한 HMM기반 음성합성 시스템

  • 성준식 (서울대학교 전기컴퓨터공학부 뉴미디어통신공동연구소) ;
  • 홍두화 (서울대학교 전기컴퓨터공학부 뉴미디어통신공동연구소) ;
  • 정민아 (목포대학교) ;
  • 이연우 (목포대학교) ;
  • 이성로 (목포대학교) ;
  • 김남수 (서울대학교 전기컴퓨터공학부)
  • Received : 2013.01.14
  • Accepted : 2013.02.19
  • Published : 2013.02.28

Abstract

One of the most popular approaches to parameter adaptation in hidden Markov model (HMM) based systems is the maximum likelihood linear regression (MLLR) technique. In our previous study, we proposed factored MLLR (FMLLR) where each MLLR parameter is defined as a function of a control vector. We presented a method to train the FMLLR parameters based on a general framework of the expectation-maximization (EM) algorithm. Using the proposed algorithm, supplementary information which cannot be included in the models is effectively reflected in the adaptation process. In this paper, we apply the FMLLR algorithm to a pitch sequence as well as spectrum parameters. In a series of experiments on artificial generation of expressive speech, we evaluate the performance of the FMLLR technique and also compare with other approaches to parameter adaptation in HMM-based speech synthesis.

은닉 마코프 모델 (hidden Markov Model, HMM) 기반 음성 합성 시스템에서 파라미터 적응을 위해 널리 쓰이는 기법으로 최대 공산 선형 회귀 (maximum likelihood linear regression, MLLR)이 있다. 이전 연구에서 우리는 각 MLLR 파라미터를 인자화된 MLLR (Factored MLLR, FMLLR) 형태로 확장하는 형태를 제안하였다. FMLLR 파라미터를 기존의 EM 알고리즘 형태로 구하는 기법 역시 제안하였고, 이를 통해 보완 정보를 활용하여 적응 학습을 수행할 수 있게 하였다. 본 논문에서는, FMLLR 기법을 스펙트럼 파라미터에 사용하는 것뿐 아니라 피치에도 적용하여 그 성능을 향상시키는 것에 대한 탐구를 수행하였다. 감정 음성을 생성하는 여러 실험을 통해, 우리는 제안하는 기법이 피치 및 스펙트럼에 대해 효과적으로 작용하는 것을 확인하였다.

Keywords

References

  1. C. J. Leggetter and P. C. Woodland, "Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models," Comput. Speech Lang., vol. 9, no. 2, pp. 171-185, Apr. 1995. https://doi.org/10.1006/csla.1995.0010
  2. Y. Sung, C. Boulis, and D. Jurafsky, "Maximum conditional likelihood linear regression and maximum a posteriori for hidden conditional random fields speaker adaptation," in Proc. ICASSP, Las Vegas, NV, 2008, pp. 4293-4296
  3. J. Yamagishi et al., "Analysis of speaker adaptation algorithms for HMM-based speech synthesis and a constrained SMAPLR adaptation algorithm," IEEE Trans. Audio, Speech Lang. Process., vol. 17, no. 1, pp. 66-83, Jan. 2009. https://doi.org/10.1109/TASL.2008.2006647
  4. T. Nose, Y. Kato, and T. Kobayashi, "A speaker adaptation technique for MRHSMM-based style control of synthetic speech," in Proc. ICASSP, Honolulu, HI, 2007, pp. 833-836.
  5. J. Sundberg, "The acoustics of the singing voice," Sci. Amer., pp. 82-91, Mar. 1977
  6. N. S. Kim, J. S. Sung and D. H. Hong, "Factored MLLR adaptation," IEEE Signal Processing Letters, vol. 18, no. 2, pp. 99-102, Feb. 2011. https://doi.org/10.1109/LSP.2010.2097591
  7. J. S. Sung, D. H. Hong, H. W. Koo and N. S. Kim, "Factored MLLR Adaptation Algorithm for HMM-based Expressive TTS," in Interspeech2012, Portland, Sep. 2012.
  8. J. S. Sung, S. J. Kang, J.-H. Chang, and N. S. Kim, "Factored MLLR Adaptation for HMM-based Singing Voice Synthesis", in Proc. KICS Int. Conf. Commun. 2011, Jeju Island, Korea, June, 2011.
  9. H. Zen et al., "The HMM-based speech synthesis system version 2.0," in Proc. of ISCA SSW6, Bonn, Germany, Aug. 2007.