Context-adaptive Smoothing for Speech Synthesis

음성 합성기를 위한 문맥 적응 스무딩 필터의 구현

  • 이기승 (건국대학교 정보통신대학 전자공학과) ;
  • 김정수 (삼성종합기술원 HCI Lab) ;
  • 이재원 (삼성종합기술원 HCI Lab)
  • Published : 2002.04.01

Abstract

One of the problems that should be solved in Text-To-Speech (TTS) is discontinuities at unit-joining points. To cope with this problem, a smoothing method using a low-pass filter is employed in this paper, In the proposed soothing method, a filter coefficient that controls the amount of smoothing is determined according to contort information to be synthesized. This method efficiently reduces both discontinuities at unit-joining points and artifacts caused by undesired smoothing. The amount of smoothing is determined with discontinuities around unit-joins points in the current synthesized speech and discontinuities predicted from context. The discontinuity predictor is implemented by CART that has context feature variables. To evaluate the performance of the proposed method, a corpus-based concatenative TTS was used as a baseline system. More than 6075 of listeners realized that the quality of the synthesized speech through the proposed smoothing is superior to that of non-smoothing synthesized speech in both naturalness and intelligibility.

문자-음성 합성기 (Text-To-Speech, TTS)에서 해결되어야 할 문제점 중의 하나는 음소의 연결 부위에서 발생하는 불연속성이다. 이러한 문제점을 해결하기 위한 방안으로 본 논문에서는 저역 여파기를 이용한 스무딩 기법을 적용하였다. 제안된 스무딩 기법은 스무딩의 정도를 제어하는 필터 계수를 현재 합성하고자 하는 문맥에 따라 결정하여, 경계에서의 불연속성을 효과적으로 제거하고 스무딩으로 인하여 발생할 수 있는 음성의 왜곡을 억제하였다. 스무딩 정도는 현재 합성된 음성의 불연속 정도와 주어진 문맥으로부터 예측된 불연속 정도를 통해 결정하였으며, 문맥으로부터 불연속 정도의 예측은 음소 정보를 입력, 불연속 값을 출력으로 하는 CART(Classification And Regression Tree)를 통해 이루어진다. 제안된 기법의 성능 평가를 위해 코퍼스 기반 연결(corpus-based concatenative) 문자-음성 합성기를 기본 시스템으로 사용하였으며, 청취 테스트에서 60%이상 의 청취자가 제안된 스무딩 기법을 통해 합성된 음성이 스무딩 기법이 사용되지 않은 경우와 비교하여 명료성과 자연성 면에서 우수하다고 판단하였다.

Keywords

References

  1. IEEE Communications Magazine v.28 no.1 Speech synthesis from Text Y. Sagisaka https://doi.org/10.1109/35.46669
  2. Proc. ICASSP '96 v.1 Unit selection in a concatenative speech systhesis system using a large speech database A.J. Hunt;A.W. Black
  3. Proc. EUROSPEECH '97 Diphone concatenation using a harmonic plus noise model of speech Y. Stylianou;T. Dutoit;J. Schroeter
  4. Proc. 5th Int. Conf. Spoken Language Processing (ICSLP) v.5 Smoothing for concatenative synthesis D.T. Chappell;J.H.L. Hansen
  5. IEEE Trans, on Speech and Audio Processing v.6 no.5 An auditory-based distortion measure with application to concatenative speech synthesis J.H.L. Hansen;D.T. Chappell https://doi.org/10.1109/89.709674
  6. Proc. ICSLP '98 On the reduction of concatenation artifacts in diphone synthesis E. Klabbers;R. Veldhuis
  7. IEEE Trans. on Speech an Audio Signal Processing v.9 no.1 Reducing audible spectral discontinuities E. Klabbers;R. Veldhuis https://doi.org/10.1109/89.890070
  8. Classfication and Regression Trees Brieman;Friedman;Olsen;Stone
  9. 제10회 음성통신 및 신호처리 워크샵 이질음 접속에 의한 음질 저하 및 극복 대책 연구 공병구;김상룡;김정수