• 제목/요약/키워드: TTS-1

검색결과 84건 처리시간 0.025초

안드로이드 OS 기반 한국어 TTS 서비스의 설계 및 구현 (Implementation of Korean TTS Service on Android OS)

  • 김태권;김봉완;최대림;이용주
    • 한국콘텐츠학회논문지
    • /
    • 제12권1호
    • /
    • pp.9-16
    • /
    • 2012
  • 국내에서 출시된 안드로이드 기반의 스마트폰은 한국어 TTS 엔진이 내장되어 있지 않고, 구글에서도 공식적인 한국어 TTS 기술 개발을 발표하지 않고 있는 상황이다. 따라서 안드로이드 스마트폰을 사용하는 어플리케이션 개발자 및 사용자들의 불편이 갈수록 심해져 가고 있다. 본 논문은 안드로이드 기반의 스마트폰에서 서비스할 수 있는 TTS시스템의 설계 및 구현에 대해 기술하였다. 신속 명료한 TTS를 위해 안드로이드 NDK를 이용하여 텍스트 전처리와 합성음 생성 라이브러리를 구현하였다. 또한, 자바의 스레드 기법과 스트림을 적용한 AudioTrack 클래스 객체를 사용하여 TTS 응답시간을 최소화 하였다. 구현된 한국어 TTS 서비스를 테스트하기 위해 수신된 문자메시지를 읽어주는 어플리케이션을 설계 및 개발하였다. 평가 결과, 임의의 문장에 대해 자연스러운 합성음을 생성하였으며, 실시간 청취가 가능하였다. 또한, 어플리케이션 개발자들은 구현된 한국어 TTS 서비스를 이용하여 음성을 통한 정보 전달을 손쉽게 적용할 수 있다. 본 논문에서 구현한 한국어 TTS 서비스는 기존 제한적 음성합성 방식의 어플리케이션의 단점을 개선하였으며, 음성을 통한 정보전달 어플리케이션 개발자 및 사용자들에게 사용성과 편의성을 제공할 수 있다.

스크린리더 사용자를 위한 플러그인 가상악기 TTS-1의 접근성 평가 연구 (A Study of the Accessibility Evaluation of TTS-1 for the Screen Reader User)

  • 석용환
    • 문화기술의 융합
    • /
    • 제8권1호
    • /
    • pp.513-522
    • /
    • 2022
  • 본 연구는 Cakewalk by Bandlab(과거의 Sonar)의 대표적인 가상악기인 TTS-1의 접근성을 평가하고 개선방안을 제안하기 위한 목적으로 수행되었다. 본 연구는 소프트웨어 개발자의 관점에서 스크린리더 사용자가 TTS-1을사용하여 NCS의 [가상악기 에디팅하기] 능력단위 요소를 수행하기 위한 접근성이 평가되었고, 기본 접근성이 없는 기능들은 센스리더와 MIDI 기능을 활용하여 확장된 접근 방법을 모색하였다. 본 연구결과, 스크린리더 사용자가 TTS-1을 사용하여 정안인과 동등한 수준의 작업은 가능하나, 센스리더와 MIDI를 활용한 별도의 접근방법을 사용해야만 하는 것으로 나타났다. 이 결과를 통해, 스크린리더 사용자가 보다 효율적으로 작업할 수 있는 개선방안이 제안되었다.

d-vector를 이용한 한국어 다화자 TTS 시스템 (A Korean Multi-speaker Text-to-Speech System Using d-vector)

  • 김광현;권철홍
    • 문화기술의 융합
    • /
    • 제8권3호
    • /
    • pp.469-475
    • /
    • 2022
  • 딥러닝 기반 1인 화자 TTS 시스템의 모델을 학습하기 위해서 수십 시간 분량의 음성 DB와 많은 학습 시간이 요구된다. 이것은 다화자 또는 개인화 TTS 모델을 학습시키기 위해서는 시간과 비용 측면에서 비효율적 방법이다. 음색 복제 방법은 새로운 화자의 TTS 모델을 생성하기 위하여 화자 인코더 모델을 이용하는 방식이다. 학습된 화자 인코더 모델을 통해 학습에 사용되지 않은 새로운 화자의 적은 음성 파일로부터 이 화자의 음색을 대표하는 화자 임베딩 벡터를 만든다. 본 논문에서는 음색 복제 방식을 적용한 다화자 TTS 시스템을 제안한다. 제안한 TTS 시스템은 화자 인코더, synthesizer와 보코더로 구성되어 있는데, 화자 인코더는 화자인식 분야에서 사용하는 d-vector 기법을 적용한다. 학습된 화자 인코더에서 도출한 d-vector를 synthesizer에 입력으로 추가하여 새로운 화자의 음색을 표현한다. MOS와 음색 유사도 청취 방법으로 도출한 실험 결과로부터 제안한 TTS 시스템의 성능이 우수함을 알 수 있다.

동반이환된 특발성 수근관증후군과 족근관증후군의 전기생리학적 특징 (Electrophysiologic Characteristics of Combined Idiopathic Carpal Tunnel Syndrome and Tarsal Tunnel Syndrome)

  • 김성혁;양지원;성영희;박기형;박현미;신동진;이영배
    • Annals of Clinical Neurophysiology
    • /
    • 제13권1호
    • /
    • pp.31-37
    • /
    • 2011
  • Background: Carpal tunnel syndrome (CTS) and tarsal tunnel syndrome (TTS) are thought to share a similar pathophysiology, compression of the median and plantar nerve by the carpal tunnel and flexor retinaculum. A few reports introduced the relationship between idiopathic CTS and TTS without definite evidence of coexistence. The current study was designed to analyze the electrophysiologic characteristics of combined idiopathic CTS and TTS by comparing with each idiopathic CTS or TTS. Methods: We retrospectively collected patients with combined idiopathic CTS and TTS (CTS-TTS group) from June 2001 to February 2009. Patients with each idiopathic CTS or TTS were collected as controls. Electrophysiologic data of median and plantar nerves were compared between CTS-TTS group and controls. Results: CTS-TTS group was composed of 31 patients. Control group of each CTS or TTS were 50 CTS and 49 TTS patients. In comparison of median nerve conduction study between CTS-TTS group and CTS control group, decreased compound muscle action potential amplitude (p<0.001), decreased median sensory nerve action potential amplitude (p<0.001) and sensory nerve conduction velocity at finger stimulation (p=0.013) were prominent in CTS-TTS group. Decreased medial plantar sensory nerve action potential amplitude (p=0.034) was indicated when CTS-TTS groups and TTS control group were compared. Conclusions: If the electrophysiology study of patients with CTS or TTS was suggestive of severe degree of nerve injury, concerns about the possibility of combined CTS and TTS would be helpful.

Statistical analysis on the fluence factor of surveillance test data of Korean nuclear power plants

  • Lee, Gyeong-Geun;Kim, Min-Chul;Yoon, Ji-Hyun;Lee, Bong-Sang;Lim, Sangyeob;Kwon, Junhyun
    • Nuclear Engineering and Technology
    • /
    • 제49권4호
    • /
    • pp.760-768
    • /
    • 2017
  • The transition temperature shift (TTS) of the reactor pressure vessel materials is an important factor that determines the lifetime of a nuclear power plant. The prediction of the TTS at the end of a plant's lifespan is calculated based on the equation of Regulatory Guide 1.99 revision 2 (RG1.99/2) from the US. The fluence factor in the equation was expressed as a power function, and the exponent value was determined by the early surveillance data in the US. Recently, an advanced approach to estimate the TTS was proposed in various countries for nuclear power plants, and Korea is considering the development of a new TTS model. In this study, the TTS trend of the Korean surveillance test results was analyzed using a nonlinear regression model and a mixed-effect model based on the power function. The nonlinear regression model yielded a similar exponent as the power function in the fluence compared with RG1.99/2. The mixed-effect model had a higher value of the exponent and showed superior goodness of fit compared with the nonlinear regression model. Compared with RG1.99/2 and RG1.99/3, the mixed-effect model provided a more accurate prediction of the TTS.

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

  • 한소희;엄지섭;김회린
    • 말소리와 음성과학
    • /
    • 제16권1호
    • /
    • pp.67-76
    • /
    • 2024
  • 최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.

TTS를 이용한 매장음원방송에서 고객의 인지도 향상을 위한 음향효과 연구 (A Study on the Sound Effect for Improving Customer's Speech Recognition in the TTS-based Shop Music Broadcasting Service)

  • 강선미;김현득;장문수
    • 말소리와 음성과학
    • /
    • 제1권4호
    • /
    • pp.105-109
    • /
    • 2009
  • This thesis describes the method for well voice announcement using the TTS(Text-To-Speech) technology in the shop music broadcasting service. Offering a high quality TTS sound service for each shop requires a great expense. According to a report on the architectural acoustics the room acoustic indexes such as reverberation time and early decay time are closely connected with a subjective awareness about acoustics. By using the result the customers will be able to recognize better the voice announcement by applying sound effect to speech files made by TTS. The result of an aural comprehension examination has shown better about almost all of the parameters by applying reverb effect to TTS sound.

  • PDF

한국어 text-to-speech(TTS) 시스템을 위한 엔드투엔드 합성 방식 연구 (An end-to-end synthesis method for Korean text-to-speech systems)

  • 최연주;정영문;김영관;서영주;김회린
    • 말소리와 음성과학
    • /
    • 제10권1호
    • /
    • pp.39-48
    • /
    • 2018
  • A typical statistical parametric speech synthesis (text-to-speech, TTS) system consists of separate modules, such as a text analysis module, an acoustic modeling module, and a speech synthesis module. This causes two problems: 1) expert knowledge of each module is required, and 2) errors generated in each module accumulate passing through each module. An end-to-end TTS system could avoid such problems by synthesizing voice signals directly from an input string. In this study, we implemented an end-to-end Korean TTS system using Google's Tacotron, which is an end-to-end TTS system based on a sequence-to-sequence model with attention mechanism. We used 4392 utterances spoken by a Korean female speaker, an amount that corresponds to 37% of the dataset Google used for training Tacotron. Our system obtained mean opinion score (MOS) 2.98 and degradation mean opinion score (DMOS) 3.25. We will discuss the factors which affected training of the system. Experiments demonstrate that the post-processing network needs to be designed considering output language and input characters and that according to the amount of training data, the maximum value of n for n-grams modeled by the encoder should be small enough.

Twin Target Sputtering System with Ladder Type Magnet Array for Direct Al Cathode Sputtering on Organic Light Emitting Diodes

  • Moon, Jong-Min;Kim, Han-Ki
    • Journal of Information Display
    • /
    • 제8권3호
    • /
    • pp.5-10
    • /
    • 2007
  • Twin target sputtering (TTS) system with a configuration of vertically parallel facing Al targets and a substrate holder perpendicular to the Al target plane has been designed to realize a direct Al cathode sputtering on organic light emitting diodes (OLEDs). The TTS system has a linear twin target gun with ladder type magnet array for effective and uniform confinement of high density plasma. It is shown that OLEDs with Al cathode deposited by the TTS show a relatvely lower leakage current density $({\sim}1{\times}10^{-5}mA/cm^2)$ at reverse bias of -6V, compared to that ($1{\times}10^{-2}{\sim}10^{-3}$ $mA/cm^2$ at -6V) of OLEDs with Al cathodes grown by conventional DC magnetron sputtering. In addition, it was found that Al cathode films prepared by TTS were amorphous structure with nanocrystallines due to low substrate temperature. This demonstrates that there is no plasma damage caused by the bombardment of energetic particles. This indicates that the TTS system with ladder type magnet array could be useful plasma damage free deposition technique for direct Al cathode sputtering on OLEDs or flexible OLEDs.

동적기계분석장치를 이용한 탄소섬유/에폭시 복합재의 장기 성능 예측 (Long-Term Performance Prediction of Carbon Fiber Reinforced Composites Using Dynamic Mechanical Analyzer)

  • 차재호;윤성호
    • Composites Research
    • /
    • 제32권1호
    • /
    • pp.78-84
    • /
    • 2019
  • 본 연구에서는 동적기계분석장치(dynamic mechanical analysis, DMA)와 시간-온도 중첩법(time-temperature superposition, TTS)을 이용하여 탄소섬유/에폭시 복합재의 장기 성능을 예측하고자 하였다. 이를 위해 단일 진동수 시험, 다중 진동수 시험, 크리프 TTS 시험을 수행하였다. 단일 진동수(single-frequency) 시험과 다중 진동수(multi-frequency) 시험에서는 $-30^{\circ}C$에서 $240^{\circ}C$까지 $2^{\circ}C/min$로 온도를 상승시키면서 $20{\mu}m$ 진폭의 사인(sine) 파형의 하중을 가하였으며 다중 진동수 시험에 적용된 진동수는 0.316, 1, 3.16, 10, 31.6 Hz이다. 크리프 TTS 시험에서는 $-30^{\circ}C$에서 $230^{\circ}C$까지 $10^{\circ}C$마다 15 MPa의 응력을 10분 동안 가하였다. 단일 진동수 시험을 통해 유리전이온도를 구하였으며 다중 진동수 시험을 통해 진동수 별 유리전이온도에서 활성화 에너지와 온도 별 저장탄성계수 선도를 구하였다. 또한 아레니우스 식(Arrhenius equation)을 통해 얻은 이동 인자를 적용하여 기준 온도에 대한 마스터 선도를 얻었다. 또한 크리프 TTS 시험을 통해서는 크리프 컴플라이언스 선도를 구하고 직접 이동 기법을 이용하여 구한 이동 인자를 적용하여 기준 온도에 대한 마스터 선도도 얻었다. 이와 같은 과정을 통해 얻은 마스터 선도를 이용하면 주어진 환경 조건에 대한 탄소섬유강화 복합재의 장기 성능을 예측할 수 있다.