• 제목/요약/키워드: text-to-speech system

검색결과 246건 처리시간 0.027초

보이스 전보 시스템 구현을 위한 저가형 음성파형 부호화 알고리즘 (On a Speech Coding Algorithm for Low Cost Implementation of Voice Telegram System)

  • 나덕수;민소연;배명진
    • 한국음향학회지
    • /
    • 제19권2호
    • /
    • pp.101-105
    • /
    • 2000
  • 전보는 우리에게 아주 필요한 생활수단으로 긴급한 내용을 전달하거나, 바쁜 생활을 대신하여 애경사를 맞은 상대방에게 뜻을 전달하는 중요한 수단으로 활용되고 있다. 전보를 처리하는 과정이 첨단 정보통신의 발달로 인해 점점 편리해 지고 있는 반면 전보의 내용은 여전히 문자위주의 정보전달에서 벗어나지 못하고 있다. 보이스 전보는 사용자의 목소리를 문자와 함께 전달하는 것이다. 목소리가 함께 전달됨으로써 발신자의 정감과 분위기를 수신자에게 전달하여 보다 다양한 의미의 메시지를 알릴 수 있다. 그러나 목소리 정보는 데이터량이 많아 그대로 사용하게 되면 큰 메모리와 고가의 프로세서가 필요하게 된다. 본 논문에서는 보이스 전보 시스템에 필요한 간단하고 저가인 음성파형 부호화 알고리즘을 새로이 제안한다. 먼저 유성음 부분에서, 파형의 피치 주기별로 유사도를 측정하여 유사도가 높은 파형은 피치와 진폭 값만 저장하여 압축하고 유사도가 낮은 파형은 형태를 저장한다. 실험결과 45%로 압축할 때 MOS 4의 음질을 얻을 수 있었다.

  • PDF

지연누적에 기반한 화자결정회로망이 도입된 구문독립 화자인식시스템 (Text-Independent Speaker Identification System Using Speaker Decision Network Based on Delayed Summing)

  • 이종은;최진영
    • 한국지능시스템학회논문지
    • /
    • 제8권2호
    • /
    • pp.82-95
    • /
    • 1998
  • 본 논문에서는 구문독립 화지인식 시스템에서 가장 중요한 역할을 하는 분류기를 두 단계로 나누어, 먼저 짧은 구간들에 대해서 각각의 화자에 속하는 정도를 계산하고, 다음에 계산된 결과들을 가지고 주어진 음성구간전체에 대해 가장 가능성이 높은 화자를 선택하는 구조를 제안한다. 첫번째 부분은 학습에 의해 스스로 조기하는 RBFN을 이용하여 구현하고 두번째 부분에서는 MAXNET과 지연합의 조합으로 화자를 결정한다. 이렇게 함으로써 지연합의 개수가 증가함에 따라 인식률이 100%가 되는 것을 모의 실험을 통하여 확인한다. 또한 본 논문에서는 음성의 프랙탈적인 특징이 화자인식에 사용될 수 있는지를 검토한다. 화자인식은 동질의 집단에서 13명의 성인만자의 목소리를 이용하여 닫힌집합(closed-set)의 경우로 모의실험을 하였고, 기존의 특징으로는 선형예측계수(LPC) 와 PC-cepstrum을 사용하였다.

  • PDF

음성 파형분절의 지수함수 스므딩 기법에 관한 연구 (The Study on the Expential Smoothing Method of the Concatenation Parts in the Speech Waveform)

  • 박찬수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1991년도 학술발표회 논문집
    • /
    • pp.7-10
    • /
    • 1991
  • In a text-to-speech system, sound units (phonemes, words, or phrases, etc.) can be concatenated together to produce required utterance. The quality of the resulting speech is dependent on factors including the phonological/prosodic contour, the quality of basic concatenation units, and how well the units join together. Thus although the quality of each basic sound unit is high, if occur the discontinuity in the concatenation part then the quality of synthesis speech is decrease. To solve this problem, a smoothing operation should be carried out in concatenation parts. But a major problem is that, as yet, no method of parameter smoothing is available for joining the segment together. Thus in this paper, we proposed a new aigorithm that smoothing the unnatural discountinuous parts which can be occured in speech waveform editing. This algorithm used the exponential smoothing method.

  • PDF

한국어 TTS 시스템에서 딥러닝 기반 최첨단 보코더 기술 성능 비교 (Performance Comparison of State-of-the-Art Vocoder Technology Based on Deep Learning in a Korean TTS System)

  • 권철홍
    • 문화기술의 융합
    • /
    • 제6권2호
    • /
    • pp.509-514
    • /
    • 2020
  • 기존의 TTS 시스템은 텍스트 전처리, 구문 분석, 발음표기 변환, 경계 분석, 운율 조절, 음향 모델에 의한 음향 특징 생성, 합성음 생성 등 여러 모듈로 구성되어 있다. 그러나 딥러닝 기반 TTS 시스템은 텍스트에서 스펙트로그램을 생성하는 Text2Mel 과정과 스펙트로그램에서 음성신호을 합성하는 보코더로 구성된다. 본 논문에서는 최적의 한국어 TTS 시스템 구성을 위해 Tex2Mel 과정에는 Tacotron2를 적용하고, 보코더로는 WaveNet, WaveRNN, WaveGlow를 소개하고 이를 구현하여 성능을 비교 검증한다. 실험 결과, WaveNet은 MOS가 가장 높으며 학습 모델 크기가 수백 MB이고 합성시간이 실시간의 50배 정도라는 결과가 나왔다. WaveRNN은 WaveNet과 유사한 MOS 성능을 보여주며 모델 크기가 수십 MB 단위이고 실시간 처리는 어렵다는 결과가 도출됐다. WaveGlow는 실시간 처리가 가능한 방법이며 모델 크기가 수 GB이고 MOS가 세 방식 중에서 가장 떨어진다는 결과를 보여주었다. 본 논문에서는 이러한 연구 결과로부터 TTS 시스템을 적용하는 분야의 하드웨어 환경에 맞춰 적합한 방식을 선정할 수 있는 참고 기준을 제시한다.

단어빈도와 단어규칙성 효과에 기초한 합성음 평가 (The text-to-speech system assessment based on word frequency and word regularity effects)

  • 남기춘;최원일;이동훈;구민모;김종진
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.105-108
    • /
    • 2002
  • In the present study, the intelligibility of the synthesized speech sounds was evaluated by using the psycholinguistic and fMRI techniques, In order to see the difference in recognizing words between the natural and synthesized speech sounds, word regularity and word frequency were varied. The results of Experiment1 and Experiment2 showed that the intelligibility difference of the synthesized speech comes from word regularity. There were smaller activation of the auditory areas in brain and slower recognition time for the regular words.

  • PDF

한국어 TTS 시스템의 객관적인 성능평가를 위한 기초검토 (Basic consideration for assessment of Korean TTS system)

  • 고락환;김영일;김봉완;이용주
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 춘계 학술대회 발표논문집
    • /
    • pp.37-40
    • /
    • 2005
  • Recently due to the rapid development of speech synthesis based on the corpora, the performance of TTS systems, which convert text into speech through synthesis, has enhanced, and they are applied in various fields. However, the procedure for objective assessment of the performance of systems is not well established in Korea. The establishment of the procedure for objective assessment of the performance of systems is essential for the assessment of development systems for the developers and as the standard for choosing the suitable systems for the users. In this paper we will report on the results of the basic research for the establishment of the systematic standard for the procedure of objective assessment of the performance of Korean TTS systems with reference to the various attempts for this project in Korea and other countries.

  • PDF

시각장애인을 위한 네비게이션 시스템 설계 및 구현 (Design and Implementation of a Navigation System for Visually Impaired Persons)

  • 장수민;황동교;강수;김은주;박준호;장기훈;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제12권1호
    • /
    • pp.38-47
    • /
    • 2012
  • 본 논문은 시각장애인들의 활동 범위를 확대하기 위해서 주변 시설물 검색서비스와 길안내 서비스를 제공하는 시각장애인을 위한 네비게이션 시스템을 설계하고 구현한다. 제안하는 네비게이션 시스템은 시각 장애인을 위한 경로 생성 모듈 및 저장 모듈로 구성된다. 특히, 제안하는 네비게이션 시스템은 시각 장애인을 위한 인터페이스로 TTS(Text-to-Speech) 프로그램을 이용하여 음성을 통한 안내서비스를 위한 음성 모듈과 촉각을 이용하여 점자를 출력하는 점자모듈을 통하여 구현한다. 또한 최신 지도정보를 서비스하기 위해서 구글 맵 API들을 사용한다.

구개인두부전증 환자의 한국어 음성 코퍼스 구축 방안 연구 (Research on Construction of the Korean Speech Corpus in Patient with Velopharyngeal Insufficiency)

  • 이지은;김욱은;김광현;성명훈;권택균
    • Korean Journal of Otorhinolaryngology-Head and Neck Surgery
    • /
    • 제55권8호
    • /
    • pp.498-507
    • /
    • 2012
  • Background and Objectives We aimed to develop a Korean version of the velopharyngeal insufficiency (VPI) speech corpus system. Subjects and Method After developing a 3-channel simultaneous speech recording device capable of recording nasal/oral and normal compound speech separately, voice data were collected from VPI patients aged more than 10 years with/without the history of operation or prior speech therapy. This was compared to a control group for which VPI was simulated by using a french-3 nelaton tube inserted via both nostril through nasopharynx and pulling the soft palate anteriorly in varying degrees. The study consisted of three transcriptors: a speech therapist transcribed the voice file into text, a second transcriptor graded speech intelligibility and severity and the third tagged the types and onset times of misarticulation. The database were composed of three main tables regarding (1) speaker's demographics, (2) condition of the recording system and (3) transcripts. All of these were interfaced with the Praat voice analysis program, which enables the user to extract exact transcribed phrases for analysis. Results In the simulated VPI group, the higher the severity of VPI, the higher the nasalance score was obtained. In addition, we could verify the vocal energy that characterizes hypernasality and compensation in nasal/oral and compound sounds spoken by VPI patients as opposed to that characgerizes the normal control group. Conclusion With the Korean version of VPI speech corpus system, patients' common difficulties and speech tendencies in articulation can be objectively evaluated. Comparing these data with those of the normal voice, mispronunciation and dysarticulation of patients with VPI can be corrected.

부가 주성분분석을 이용한 미지의 환경에서의 화자식별 (Speaker Identification Using Augmented PCA in Unknown Environments)

  • 유하진
    • 대한음성학회지:말소리
    • /
    • 제54호
    • /
    • pp.73-83
    • /
    • 2005
  • The goal of our research is to build a text-independent speaker identification system that can be used in any condition without any additional adaptation process. The performance of speaker recognition systems can be severely degraded in some unknown mismatched microphone and noise conditions. In this paper, we show that PCA(principal component analysis) can improve the performance in the situation. We also propose an augmented PCA process, which augments class discriminative information to the original feature vectors before PCA transformation and selects the best direction for each pair of highly confusable speakers. The proposed method reduced the relative recognition error by 21%.

  • PDF

자연어 처리 기반 한국어 TTS 시스템 구현 (Implementation of Korean TTS System based on Natural Language Processing)

  • 김병창;이근배
    • 대한음성학회지:말소리
    • /
    • 제46호
    • /
    • pp.51-64
    • /
    • 2003
  • In order to produce high quality synthesized speech, it is very important to get an accurate grapheme-to-phoneme conversion and prosody model from texts using natural language processing. Robust preprocessing for non-Korean characters should also be required. In this paper, we analyzed Korean texts using a morphological analyzer, part-of-speech tagger and syntactic chunker. We present a new grapheme-to-phoneme conversion method for Korean using a hybrid method with a phonetic pattern dictionary and CCV (consonant vowel) LTS (letter to sound) rules, for unlimited vocabulary Korean TTS. We constructed a prosody model using a probabilistic method and decision tree-based method. The probabilistic method atone usually suffers from performance degradation due to inherent data sparseness problems. So we adopted tree-based error correction to overcome these training data limitations.

  • PDF