DOI QR코드

DOI QR Code

가변 운율 모델링을 이용한 고음질 감정 음성합성기 구현에 관한 연구

A Study on Implementation of Emotional Speech Synthesis System using Variable Prosody Model

  • 투고 : 2013.06.19
  • 심사 : 2013.07.07
  • 발행 : 2013.08.31

초록

본 논문은 고음질의 대용량 코퍼스 기반 음성 합성기에 감정 음성 코퍼스를 추가하여 보다 다양한 합성음을 생성할 수 있는 방법에 관한 것이다. 파형 접합형 합성기에서 사용할 수 있는 형태로 감정 음성 코퍼스를 구축하여 기존의 일반 음성 코퍼스와 동일한 합성단위 선택과정을 통해 합성음을 생성할 수 있도록 구현하였다. 감정 음성 합성을 위해 태그를 사용하여 텍스트를 입력하고, 억양구 단위로 일치하는 데이터가 존재하는 경우 감정 음성으로 합성하고, 그렇지 않은 경우 일반 음성으로 합성하도록 하였다. 그리고 음성에서 운율을 구성하는 요소로 휴지기(break)가 있는데, 감정 음성의 휴지기는 일반 음성보다 불규칙한 특성이 있다. 따라서 합성기에서 생성되는 휴지기 정보를 감정 음성 합성에 그대로 사용하는 것이 어려워진다. 이 문제를 해결하기 위해 가변 휴지기(Variable break)[3] 모델링을 적용하였다. 실험은 일본어 합성기를 사용하였고, 그 결과 일반 음성의 휴지기 예측 모듈을 그대로 사용하면서 자연스러운 감정 합성음을 얻을 수 있었다.

This paper is related to the method of adding a emotional speech corpus to a high-quality large corpus based speech synthesizer, and generating various synthesized speech. We made the emotional speech corpus as a form which can be used in waveform concatenated speech synthesizer, and have implemented the speech synthesizer that can be generated various synthesized speech through the same synthetic unit selection process of normal speech synthesizer. We used a markup language for emotional input text. Emotional speech is generated when the input text is matched as much as the length of intonation phrase in emotional speech corpus, but in the other case normal speech is generated. The BIs(Break Index) of emotional speech is more irregular than normal speech. Therefore, it becomes difficult to use the BIs generated in a synthesizer as it is. In order to solve this problem we applied the Variable Break[3] modeling. We used the Japanese speech synthesizer for experiment. As a result we obtained the natural emotional synthesized speech using the break prediction module for normal speech synthesize.

키워드

참고문헌

  1. S. Kiriyama, S. Kitazawa, "Evaluation of a prosodic labeling system utilizing linguistic information," Proc. INTERSPEECH2004, pp.2993-2996, 2004.
  2. K. Maekawa, H. Kikuchi, Y. Igarashi, J. Venditti, "X-JToBI: an extended j-toBI for spontaneous speech", Proc. ICSLP-2002, pp.1545-1548, 2002.
  3. S. H. Lee, Y. H. Oh. "The Modelling of Prosodic Phrasing and Pause Duration using CART", Proceeding of the Acoustical society of Korea, Vol. 17 No. 1, pp 81-86, 1998.
  4. Campbell, N, "Autolabeling Japanese ToBI," Proc. ICSLP'96, vol.4, pp.2399-2402, 1996.
  5. D. S. Na, M. J. Bae, "A Variable Break Prediction Method using CART in a Japanese Text-to-Speech System," IEICE Trans. Inf. & Syst., Vol. E92-D, No.2, pp.349-352, 2009. DOI: http://dx.doi.org/10.1587/transinf.E92.D.349
  6. D. S. Na, S. Y. Min, J. S. Lee, M. J. Bae,, "A Performance Improvement Method using Variable Break in Corpus Based Japanese Text-to-Speech System," The Journal of the Acoustical Society of Korea, Vol. 28, No. 2, pp.155-163, 2009.
  7. . J. Venditti, J. "The J_ToBI model of Japanese intonation", in S. A. Jun Ed., Prosodic Typology and Transcription: A Unified Approach: Oxford University Press, pp.172-200.
  8. K. Maekawa, H. Kikuchi, Y. Igarashi, J. Venditti, "X-JToBI: an extended j-toBI for spontaneous speech", Proc. ICSLP-2002, pp.1545-1548, 2002.
  9. K.-H. Kim, H.-M. Kim, K.-Y. Lee, M.-J. Lim, J.-L. Kim, "Design And Implementation of a Speech Recognition Interview Model based-on Opinion Mining Algorithm", Journal of The Institute of Webcasting, Internet and Telecommunication, Vol 12, No 1, pp. 225-230, 2012. https://doi.org/10.7236/JIWIT.2012.12.1.225
  10. S.-H. Kim, J.-Y. Ahn, "A Study on the Voice Interface for Mobile Environment", Journal of The Institute of Webcasting, Internet and Telecommunication, Vol 13, No 1, pp. 199-204, 2013.
  11. J. J. Im, "Development of energy expenditure measurement device based on voice and body activity", Journal of The Institute of Webcasting, Internet and Telecommunication, Vol 12, No 6, pp. 303-309, 2012. https://doi.org/10.7236/JIWIT.2012.12.6.303
  12. J.-Y. Ahn, S.-B. Kim, S.-H. Kim, K.-I. Hur, "A study on Voice Recognition using Model Adaptation HMM for Mobile Environment", Journal of The Institute of Webcasting, Internet and Telecommunication, Vol 11, No 3, pp. 175-180, 2011.
  13. W. Oh, E. Rhee, "Curriculum Development of Acoustics and Audio Engineering on Digital Convergence Environment", Journal of The Institute of Webcasting, Internet and Telecommunication, Vol 13, No 2, pp. 191-197, 2013. https://doi.org/10.7236/JIIBC.2013.13.2.191