• 제목/요약/키워드: Voice Synthesis

검색결과 103건 처리시간 0.027초

음성 입출력을 이용한 센서 제어 및 정보 획득 (Sensor Control and Aquisition Information Using Voice I/O)

  • 윤형진;이창우
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.495-496
    • /
    • 2018
  • 점점 더 회사들에서 인공지능 스피커를 내놓고 있는 가운데 스피커의 가격은 누군가에게는 부담이 될 수 있는 가격이 되었다. 약간의 전공지식과 손재주를 가지고 있다면 본인이 직접 입맛에 맞게 집안의 센서정보와 환경정보를 획득하는 AI 스피커를 만드는 일이 어렵지 않다. 그래서 본 논문에서는 라즈베리파이와 Google Cloud Speech(GCS), Naver의 Clova Speech Synthesis(CSS) API를 이용하여 인공지능 스피커를 구현한다.

  • PDF

HMM 기반의 한국어 음성합성에서 지속시간 모델 파라미터 제어 (Control of Duration Model Parameters in HMM-based Korean Speech Synthesis)

  • 김일환;배건성
    • 음성과학
    • /
    • 제15권4호
    • /
    • pp.97-105
    • /
    • 2008
  • Nowadays an HMM-based text-to-speech system (HTS) has been very widely studied because it needs less memory and low computation complexity and is suitable for embedded systems in comparison with a corpus-based unit concatenation text-to-speech one. It also has the advantage that voice characteristics and the speaking rate of the synthetic speech can be converted easily by modifying HMM parameters appropriately. We implemented an HMM-based Korean text-to-speech system using a small size Korean speech DB and proposes a method to increase the naturalness of the synthetic speech by controlling duration model parameters in the HMM-based Korean text-to speech system. We performed a paired comparison test to verify that theses techniques are effective. The test result with the preference scores of 73.8% has shown the improvement of the naturalness of the synthetic speech through controlling the duration model parameters.

  • PDF

분석/합성 구조의 저 전송률 변환여기 광대역 음성/오디오 부호화기 설계 (Design of Low Bits Rate Transform Excitation Wide Band Speech and Audio Coder of Analysis-by-Synthesis Structure)

  • 장성훈;홍기봉;이인성
    • 한국음향학회지
    • /
    • 제31권7호
    • /
    • pp.472-479
    • /
    • 2012
  • 본 논문은 음성과 오디오의 혼합 콘텐츠를 대상으로 하는 9.2 kbps 저 전송률 변환여기 부호화기 설계를 목표로 한다. 저 전송률 환경을 위하여 주파수 영역 신호의 중요도에 따른 Band-Selection 방법과 Gain-Shape 양자화를 이용한 Analysis by Synthesis(AbS) 구조를 이용한다. AbS 구조를 이용하는 과정에서 발생하게 되는 연산량을 감소시키기 위하여 밴드별 IDFT를 취하고 합성하는 방법을 이용한다. 전송 되지 않는 구간에 대하여 Comfort Noise를 삽입함으로써 음질 저하 없이 설계한다. 기존의 TCX모드와 비교하여 저 전송률에서 성능의 저하 없는 부호화기를 제안한다.

한국어 text-to-speech(TTS) 시스템을 위한 엔드투엔드 합성 방식 연구 (An end-to-end synthesis method for Korean text-to-speech systems)

  • 최연주;정영문;김영관;서영주;김회린
    • 말소리와 음성과학
    • /
    • 제10권1호
    • /
    • pp.39-48
    • /
    • 2018
  • A typical statistical parametric speech synthesis (text-to-speech, TTS) system consists of separate modules, such as a text analysis module, an acoustic modeling module, and a speech synthesis module. This causes two problems: 1) expert knowledge of each module is required, and 2) errors generated in each module accumulate passing through each module. An end-to-end TTS system could avoid such problems by synthesizing voice signals directly from an input string. In this study, we implemented an end-to-end Korean TTS system using Google's Tacotron, which is an end-to-end TTS system based on a sequence-to-sequence model with attention mechanism. We used 4392 utterances spoken by a Korean female speaker, an amount that corresponds to 37% of the dataset Google used for training Tacotron. Our system obtained mean opinion score (MOS) 2.98 and degradation mean opinion score (DMOS) 3.25. We will discuss the factors which affected training of the system. Experiments demonstrate that the post-processing network needs to be designed considering output language and input characters and that according to the amount of training data, the maximum value of n for n-grams modeled by the encoder should be small enough.

일본어 악센트 특징을 이용한 합성단위 선택 기반 일본어 TTS의 후보 합성단위의 사전선택 방법 (A Pre-Selection of Candidate Units Using Accentual Characteristic In a Unit Selection Based Japanese TTS System)

  • 나덕수;민소연;이광형;이종석;배명진
    • 한국음향학회지
    • /
    • 제26권4호
    • /
    • pp.159-165
    • /
    • 2007
  • 본 논문에서는 합성단위 선택 (unit selection) 기반 일본어 합성기에 필요한 후보 합성단위들에 대한 사전선택 (pre-selection)의 새로운 방법을 제안한다. 일반적인 사전선택 방법은 하나의 억양구에서 음소 열에 대한 비용을 계산하여 이용하는 방법이다. 그런데, 일본어는 다른 언어와는 다르게 상대적인 피치의 높낮이로 나타나는 악센트를 가지는 언어이고, 몇 개의 단어가 하나의 악센트구를 형성하는 특징이 있다. 또한 일본어의 운율은 악센트 구를 기본 단위로 하여 변화하는 특징이 있어서, 사전선택에서 이러한 악센트 구 단위의 운율 변화를 반영함으로써 음질을 향상시킬 수 있고, 악센트 구에서 음소 열에 대한 비용을 계산하여 억양구에서 하는 것보다 계산량을 줄일 수 있다. 제안한 방법은 일본어의 악센트 구를 정의하여 음소 열에서 이것을 분석하고, 각 악센트 구에서 합성 할 음소의 각 후보에 대해 CCL (Connected Context Length)을 구하는 악센트 구 매칭을 이용하여 사전선택을 수행하는 방법이다. 제안한 방법은 Voiceware의 합성기인 VoiceText를 baseline 시스템으로 사용하여 구현하였고, 인지적 에러 (억양 에러, 연결 에러)와 합성시간에 대해 평가하였다. 실험 결과, 제안한 방법은 합성 음질을 보다 자연스럽게 향상시켰고, 합성 속도를 개선하였다.

차세대 지능망 지능형 정보제공 시스템의 지연 특성 분석 (Analysis of Delay Characteristics in Advanced Intelligent Network-Intelligent Peripheral (AIN IP))

  • 이일우;최고봉
    • 한국통신학회논문지
    • /
    • 제25권8A호
    • /
    • pp.1124-1133
    • /
    • 2000
  • 본 논문은 서비스 제어 시스템(Service Control Point : SCP) 서비스 교환 시스템(Service Switching Point: SSP) 그리고 지능형 정보제공 시스템(Intelligent Peripheral : IP)을 물리적 구성요소로 하는 차세대 지능망(Advanced Intelligent Network : AIN)에서 특수자원 제공을 담당하는 지능형 정보제공 시스템에서의 지연 시간에 관한 특성을 분석하였다 지능망 호가 지능형 정보제공 시스템으로 입력되는 시점부터 지능망 서비스가 처리되어 종료되는 시점까지의 시그널링 지연 및 자원 제공 점유시간을 각 구성 요소들이 연동되어서 운용되는 현장환경하에서 실측을 통해 분석하였다 종합정보통신ad 사용자부 (Integrated Serviced Digital Network User Part: ISUP) 프로토콜 기반에서의 호 설정 및 해제 시간을 지연 유형별로 분석하였으며 지능망 응용부(Intelligent Network Application Protocol : INAP) 프로토콜 기반에서의 자원 제공 점유시간을 차세대 지능망에서 제공하는 서비스별로 분석하였다.)

  • PDF

기식 등급에 따른 CPP (Cepstral Peak Prominence) 분석 비교 (A comparison of CPP analysis among breathiness ranks)

  • 강영애;구본석;조철우
    • 말소리와 음성과학
    • /
    • 제7권1호
    • /
    • pp.21-26
    • /
    • 2015
  • The aim of this study is to synthesize pathological breathy voice and to make a cepstral peak prominence (CPP) table following breathiness ranks by cepstral analysis to supplement reliability of the perceptual auditory judgment task. KlattGrid synthesizer included in Praat was used. Synthesis parameters consist of two groups, i.e., constants and variables. Constant parameters are pitch, amplitude, flutter, open phase, oral formant and bandwidth. Variable parameters are breathiness (BR), aspiration amplitude (AH), and spectral tilt (TL). Five hundred sixty samples of synthetic breathy vowel /a/ for male were created. Three raters participated in ranking of the breathiness. 217 were proved to be inadequate samples from perceptual judgment and cepstral analysis. Finally, 343 samples were selected. These CPP values and other related parameters from cepstral analysis are classified under four breathiness ranks (B0~B3). The mean and standard deviation of CPP is $16.10{\pm}1.15$ dB(B0), $13.68{\pm}1.34$ dB(B1), $10.97{\pm}1.41$ dB(B2), and $3.03{\pm}4.07$ dB(B3). The value of CPP decreases toward the severe group of breathiness because there is a lot of noise and a small quantity of harmonics.

ETRI 소용량 대화체 음성합성시스템 (ETRI small-sized dialog style TTS system)

  • 김종진;김정세;김상훈;박준;이윤근;한민수
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.217-220
    • /
    • 2007
  • This study outlines a small-sized dialog style ETRI Korean TTS system which applies a HMM based speech synthesis techniques. In order to build the VoiceFont, dialog-style 500 sentences were used in training HMM. And the context information about phonemes, syllables, words, phrases and sentence were extracted fully automatically to build context-dependent HMM. In training the acoustic model, acoustic features such as Mel-cepstrums, logF0 and its delta, delta-delta were used. The size of the VoiceFont which was built through the training is 0.93Mb. The developed HMM-based TTS system were installed on the ARM720T processor which operates 60MHz clocks/second. To reduce computation time, the MLSA inverse filtering module is implemented with Assembly language. The speed of the fully implemented system is the 1.73 times faster than real time.

  • PDF

효과적인 인간-로봇 상호작용을 위한 딥러닝 기반 로봇 비전 자연어 설명문 생성 및 발화 기술 (Robot Vision to Audio Description Based on Deep Learning for Effective Human-Robot Interaction)

  • 박동건;강경민;배진우;한지형
    • 로봇학회논문지
    • /
    • 제14권1호
    • /
    • pp.22-30
    • /
    • 2019
  • For effective human-robot interaction, robots need to understand the current situation context well, but also the robots need to transfer its understanding to the human participant in efficient way. The most convenient way to deliver robot's understanding to the human participant is that the robot expresses its understanding using voice and natural language. Recently, the artificial intelligence for video understanding and natural language process has been developed very rapidly especially based on deep learning. Thus, this paper proposes robot vision to audio description method using deep learning. The applied deep learning model is a pipeline of two deep learning models for generating natural language sentence from robot vision and generating voice from the generated natural language sentence. Also, we conduct the real robot experiment to show the effectiveness of our method in human-robot interaction.

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

  • 한소희;엄지섭;김회린
    • 말소리와 음성과학
    • /
    • 제16권1호
    • /
    • pp.67-76
    • /
    • 2024
  • 최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.