Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)
- 2020.07a
- /
- Pages.453-455
- /
- 2020
A study on the improvement of generation speed and speech quality for a granularized emotional speech synthesis system
세밀한 감정 음성 합성 시스템의 속도와 합성음의 음질 개선 연구
- Um, Se-Yun (Yonsei University, Department of Electrical and Electronic Engineering) ;
- Oh, Sangshin (Yonsei University, Department of Electrical and Electronic Engineering) ;
- Jang, Inseon (Electronics and Telecommunications Research Institution) ;
- Ahn, Chung-hyun (Electronics and Telecommunications Research Institution) ;
- Kang, Hong-Goo (Yonsei University, Department of Electrical and Electronic Engineering)
- 엄세연 (연세대학교 전기전자공학과) ;
- 오상신 (연세대학교 전기전자공학과) ;
- 장인선 (한국전자통신연구원 미디어연구본부) ;
- 안충현 (한국전자통신연구원 미디어연구본부) ;
- 강홍구 (연세대학교 전기전자공학과)
- Published : 2020.07.13
Abstract
본 논문은 시각 장애인을 위한 감정 음성 자막 서비스를 생성하는 종단 간(end-to-end) 감정 음성 합성 시스템(emotional text-to-speech synthesis system, TTS)의 음성 합성 속도를 높이면서도 합성음의 음질을 향상시키는 방법을 제안한다. 기존에 사용했던 전역 스타일 토큰(Global Style Token, GST)을 이용한 감정 음성 합성 방법은 다양한 감정을 표현할 수 있는 장점을 갖고 있으나, 합성음을 생성하는데 필요한 시간이 길고 학습할 데이터의 동적 영역을 효과적으로 처리하지 않으면 합성음에 클리핑(clipping) 현상이 발생하는 등 음질이 저하되는 양상을 보였다. 이를 보안하기 위해 본 논문에서는 새로운 데이터 전처리 과정을 도입하였고 기존의 보코더(vocoder)인 웨이브넷(WaveNet)을 웨이브알엔엔(WaveRNN)으로 대체하여 생성 속도와 음질 측면에서 개선됨을 보였다.
Keywords