• 제목/요약/키워드: TTS-1

검색결과 83건 처리시간 0.03초

한국어 문어변환 시스템 내에서의 음성 합성기 개발 (The Development of Speech Synthesizer In Korean TTS System)

  • 강찬희;진용옥
    • 한국음향학회지
    • /
    • 제12권2호
    • /
    • pp.14-27
    • /
    • 1993
  • 본 논문은 매 40ms 정도의 음성파형으로부터 추출된 6내지 9ms 정도의 1피치주기 파형을 합성단위로 사용하여 합성시킨 시간영역에서의합성방식을 한국어 문어 변환 시스템내에서의 음성합성기에 적용시킨 연구결과이다. 시험 결과, 4가지 유형의 한국어 음절 합성이 가능하고, 장단강약과 같은 운율요소의 제어가 용이하고, 또한 합성 알고리즘이 간단하여 실시간 처리가 가능하였으나, 문장 단위의 음성을 합성하기 위하여는 문장내에서의 다양한 피치 패턴에 대한 연구와 이의 효율적인 제어에 관한 연구가 이루어져야 할 것이다. 합성음에 대한 평가방법으로는 원음과 합성음에 대한 시간영역에서의 파형비교, 주파수 영역에서의 스펙트럼 포락선 유사성 비교 및 합성음에 대한 청취도 실험을 행하였다.

  • PDF

HMM 기반 혼용 언어 음성합성을 위한 모델 파라메터의 음절 경계에서의 평활화 기법 (Syllable-Level Smoothing of Model Parameters for HMM-Based Mixed-Lingual Text-to-Speech)

  • 양종열;김홍국
    • 말소리와 음성과학
    • /
    • 제2권1호
    • /
    • pp.87-95
    • /
    • 2010
  • In this paper, we address issues associated with mixed-lingual text-to-speech based on context-dependent HMMs, where there are multiple sets of HMMs corresponding to each individual language. In particular, we propose smoothing techniques of synthesis parameters at the boundaries between different languages to obtain more natural quality of speech. In other words, mel-frequency cepstral coefficients (MFCCs) at the language boundaries are smoothed by applying several linear and nonlinear approximation techniques. It is shown from an informal listening test that synthesized speech smoothed by a modified version of linear least square approximation (MLLSA) and a quadratic interpolation (QI) method is preferred than that without using any smoothing technique.

  • PDF

독거노인을 위한 맞춤형 의사소통 시스템의 개발 (The Development of Customized Communication System for the Senior Living Alone)

  • 김가영;이현동;김동현;조대수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.183-184
    • /
    • 2018
  • 우리나라의 노인자살률은 OECD 국가 중에 1위이다. 인위적 고독사인 '자살'의 가장 큰 원인인 우울증을 의사소통을 통해 예방하고자 한다. 본 논문에서는 상황에 따라 독거노인에게 스피커가 먼저 질문하는 형식인 시스템을 제안한다. 음성인식 시스템인 스피커를 활용하여 독거노인의 의사소통을 증대시키고, 질문뿐만이 아니라 식사 여부, 약 복용 여부 관련 일상 알람도 주기 때문에 규칙적인 생활을 하는 데 도움을 준다.

  • PDF

내장형 음성합성 기술 동향 및 사례 (The Recent Trends and Applications of Embedded TTS Technologies)

  • 김종진;김정세;김상훈;박준
    • 전자통신동향분석
    • /
    • 제23권1호통권109호
    • /
    • pp.77-88
    • /
    • 2008
  • 음성합성 기술은 1990년대 중반 음편접합 방법론이 출현하면서 괄목한 만한 기술적 발전을 이루어, 2000년 전후에는 전화망을 이용한 ARS, VMS, UMS 서비스를 중심으로 폭넓게 사용되면서 일반 사용자들에게 매우 친숙한 서비스를 제공하여 왔다. 그러나 최근 텔레포니 기반의 음성 기술 시장은 기업고객 위주로 그 성장이 더딘 반면, 지능형 로봇, 텔레매틱스, 홈네트워크, 차세대 PC와 같은 전략적 국가 신성장동력 산업분야나 MP3 플레이어, 휴대폰, PMP 단말기, 휴대용 단말기와 같은 임베디드 분야가 음성 기술의 새로운 시장으로 주목을 받고 있다. 임베디드 분야에서 요구하는 음성 기술은 기존 서버급 시스템에서 운영되었던 기술과는 상당히 다른 기술 특성을 가지고 있다. 이에 본 고에서는 음성 기술 중 특히 음성합성 기술에 관한 임베디드 분야의 요구사항을 고찰하고, 이를 해결하기 위한 최근의 기술적 발전 동향 및 응용 사례에 대해서 기술하고자 한다.

포만트 분석/합성 시스템 구현 (Implementation of Formant Speech Analysis/Synthesis System)

  • 이준우;손일권;배건성
    • 음성과학
    • /
    • 제1권
    • /
    • pp.295-314
    • /
    • 1997
  • In this study, we will implement a flexible formant analysis and synthesis system. In the analysis part, the two-channel (i.e., speech & EGG signals) approach is investigated for accurate estimation of formant information. The EGG signal is used for extracting exact pitch information that is needed for the pitch synchronous LPC analysis and closed phase LPC analysis. In the synthesis part, Klatt formant synthesizer is modified so that the user can change synthesis parameters arbitarily. Experimental results demonstrate the superiority of the two-channel analysis method over the one-channel(speech signal only) method in analysis as well as in synthesis. The implemented system is expected to be very helpful for studing the effects of synthesis parameters on the quality of synthetic speech and for the development of Korean text-to-speech(TTS) system with the formant synthesis method.

  • PDF

Algorithm for Concatenating Multiple Phonemic Units for Small Size Korean TTS Using RE-PSOLA Method

  • Bak, Il-Suh;Jo, Cheol-Woo
    • 음성과학
    • /
    • 제10권1호
    • /
    • pp.85-94
    • /
    • 2003
  • In this paper an algorithm to reduce the size of Text-to-Speech database is proposed. The algorithm is based on the characteristics of Korean phonemic units. From the initial database, a reduced phoneme unit set is induced by articulatory similarity of concatenating phonemes. Speech data is read by one female announcer for 1000 phonetically balanced sentences. All the recorded speech is then segmented by phoneticians. Total size of the original speech data is about 640 MB including laryngograph signal. To synthesize wave, RE-PSOLA (Residual-Excited Pitch Synchronous Overlap and Add Method) was used. The voice quality of synthesized speech was compared with original speech in terms of spectrographic informations and objective tests. The quality of the synthesized speech is not much degraded when the size of synthesis DB was reduced from 320 MB to 82 MB.

  • PDF

감정 제어 가능한 종단 간 음성합성 시스템 (Emotion Transfer with Strength Control for End-to-End TTS)

  • 전예진;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.423-426
    • /
    • 2021
  • 본 논문은 전역 스타일 토큰(Global Style Token)을 기준으로 하여 감정의 세기를 조절할 수 있는 방법을 소개한다. 기존의 전역 스타일 토큰 연구에서는 원하는 스타일이 포함된 참조 오디오(reference audio)을 사용하여 음성을 합성하였다. 그러나, 참조 오디오의 스타일대로만 음성합성이 가능하기 때문에 세밀한 감정 조절에 어려움이 있었다. 이 문제를 해결하기 위해 본 논문에서는 전역 스타일 토큰의 레퍼런스 인코더 부분을 잔여 블록(residual block)과 컴퓨터 비전 분야에서 사용되는 AlexNet으로 대체하였다. AlexNet은 5개의 함성곱 신경망(convolutional neural networks) 으로 구성되어 있지만, 본 논문에서는 1개의 신경망을 제외한 4개의 레이어만 사용했다. 청취 평가(Mean Opinion Score)를 통해 제시된 방법으로 감정 세기의 조절 가능성을 보여준다.

  • PDF

방사선치료로 인한 통증 및 암성통증에 대한 듀로제식의 효과: 다기관연구 (Effectiveness of Fentanyl Transdermal Patch (Fentanyl-TTS, $Durogegic^{(R)}$) for Radiotherapy Induced Pain and Cancer Pain: Multi-center Trial)

  • 신성수;최은경;김종훈;안승도;이상욱;김연실;이규찬;이창걸;노준규;전미선;오영택;김옥배;허승재
    • Radiation Oncology Journal
    • /
    • 제24권4호
    • /
    • pp.263-271
    • /
    • 2006
  • 목 적: 방사선치료로 인해 발생하는 점막염, 식도염 등의 통증과 암성 통증을 가진 환자에 대한 듀로제식의 통증 완화 및 일상생활 개선 효과를 알아보고자 하였다. 대상 및 방법: 다기관 전향적 4상 임상시험으로 방사선치료로 인한 통증을 호소하거나(A군) 암성통증으로 방사선치료를 시행 받고 있는 환자(B군) 중에 진통제를 복용 중임에도 숫자등급평가(Numeric rating scale, NRS)가 4 이상 이거나 진통제 복용 없이 NRS가 6 이상인 환자를 대상으로 듀로제식 25 ug/hr을 처방한 후에 1주일과 2주일 후에 통증횟수와 강도변화, 통증이 일상생활에 미치는 영향평가, 피험자와 임상의 만족도 평가, 그리고 이상반응 평가를 시행하였다. 결 과: 2005년 3월 28일부터 6월 15일까지 26개 기관에서 총 312명의 피험자를 등록하였고 그 중 249명이 임상시험을 완료하였는데 A군은 185명, B군은 64명이였다. 평균 연령은 60세였고, 남자가 189명, 여자가 60명이였다. 2주 후 가장 심한 통증의 강도 변화를 보면 A군에서 6.9에서 3.9로 B군에서는 7.1에서 3.9로 통계적으로 유의하게(p=0.003) 감소하였고 일상생활의 미치는 영향을 보기 위한 수면방해 정도와 일상적인 일의 저하 그리고 삶의 질의 저하는 투여 2주 후에 모두 호전되었다. 연하통증의 변화는 A군에서만 유의하게 투여 후 호전되었으며 피험자의 만족도는 매우 만족이 A에서 47%, B군에서 41%로 좋았고 만족 이유는 진통효과 우수, 전반적 만족, 편리성 순이었다. 임상의 만족도는 매우만족이 50% 정도로 좋았다. 이상반응은 A군에서 40% B군에서 34%로 총 38%에서 나타났고 오심이 30%로 가장 많았고 소양증 16%, 어지러움 14%, 변비 10% 순이었다. 중대한 이상반응은 없었다. 결 론: 듀로제식의 통증완화 효과 일상생활 개선효과는 우수하였고 피험자와 임상의의 만족도도 좋았고 중대한 이상반응도 없었다.

기본주파수와 성도길이의 상관관계를 이용한 HTS 음성합성기에서의 목소리 변환 (Voice transformation for HTS using correlation between fundamental frequency and vocal tract length)

  • 유효근;김영관;서영주;김회린
    • 말소리와 음성과학
    • /
    • 제9권1호
    • /
    • pp.41-47
    • /
    • 2017
  • The main advantage of the statistical parametric speech synthesis is its flexibility in changing voice characteristics. A personalized text-to-speech(TTS) system can be implemented by combining a speech synthesis system and a voice transformation system, and it is widely used in many application areas. It is known that the fundamental frequency and the spectral envelope of speech signal can be independently modified to convert the voice characteristics. Also it is important to maintain naturalness of the transformed speech. In this paper, a speech synthesis system based on Hidden Markov Model(HMM-based speech synthesis, HTS) using the STRAIGHT vocoder is constructed and voice transformation is conducted by modifying the fundamental frequency and spectral envelope. The fundamental frequency is transformed in a scaling method, and the spectral envelope is transformed through frequency warping method to control the speaker's vocal tract length. In particular, this study proposes a voice transformation method using the correlation between fundamental frequency and vocal tract length. Subjective evaluations were conducted to assess preference and mean opinion scores(MOS) for naturalness of synthetic speech. Experimental results showed that the proposed voice transformation method achieved higher preference than baseline systems while maintaining the naturalness of the speech quality.

신호등 인식 성능 향상을 위한 쿠버네티스 기반의 프레임워크: YOLOv5와 Visual Attention을 적용한 C-RNN의 융합 Vision AI 시스템 (Kubernetes-based Framework for Improving Traffic Light Recognition Performance: Convergence Vision AI System based on YOLOv5 and C-RNN with Visual Attention)

  • 조형서;이민정;한연지
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.851-853
    • /
    • 2022
  • 고령화로 인해 65세 이상 운전자가 급증하며 고령운전자의 교통사고 비율이 증가함에 따라 시급한 사회 문제로 떠오르고 있다. 이에 본 연구에서는 객체 검출, 인식 모델을 결합하고 신호등을 인식하여 Text-To-Speech(TTS)로 알리는 쿠버네티스 기반의 프레임워크를 제안한다. 객체 검출 단계에서는 YOLOv5 모델들의 성능을 비교하여 활용하였으며 객체 인식 단계에서는 C-RNN 기반의 attention-OCR 모델을 활용하였다. 이는 신호등의 내부 LED 영역이 아닌 이미지 전체를 인식하는 방식으로 오탐지 요소를 낮춰 인식률을 높였다. 결과적으로 1,628장의 테스트 데이터에서 accuracy 0.997, F1-score 0.991의 성능 평가를 얻어 제안한 프레임워크의 타당성을 입증하였다. 본 연구는 후속 연구에서 특정 도메인에 딥러닝 모델을 한정하지 않고 다양한 분야의 모델을 접목할 수 있도록 하며 고령 운전자 및 신호 위반으로 인한 교통사고 문제를 예방할 수 있다.