• Title/Summary/Keyword: Text-to-Speech

Search Result 505, Processing Time 0.026 seconds

On a Study of the Improvement of Speaker Recognition with Characteristics of High Order Reflection Coefficients (고차 반사계수 특성을 이용한 화자인식의 성능 향상에 관한 연구)

  • 이윤주;오세영;함명규;배명진
    • Proceedings of the IEEK Conference
    • /
    • 1999.06a
    • /
    • pp.667-670
    • /
    • 1999
  • As the number of reference patterns increase in the text dependant speaker recognition, the recognition performance of the system degrades. So, if reference patterns were decreased the high recognition rate can be obtained. It’s because the speaker recognition can obtain the high discrimination. In this paper, to decrease the number of reference patterns, we choose candidate reference patterns to perform pattern matching with test pattern by high order component of the reflection coefficients of the uttered speech signal Consequently the total recognition rate of the proposed method is about 2% higher than that of the conventional method.

  • PDF

Using CRF (Conditional Random Fields) to Predict Phrase Breaks in Korean (CRF를 이용한 한국어 운율 경계 추정)

  • Kim, Seung-Won;Kim, Byeong-Chang;Jeong, Min-Woo;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.134-138
    • /
    • 2005
  • 본 논문은 한국어 TTS(Text-To-Speech)에서 운율 경계를 추정하는 문제를 클래스 분류문제로 보고 CRF(Conditional Random Fields)를 적용하여 운율 경계를 추정하였다. 우리는 품사와 운율 경계로 구성된 말뭉치를 사용하여 품사, 어휘, 단어의 길이, 문장에서의 단어 위치와 같은 다양한 속성의 언어적 자질을 추출하여 CRF를 훈련시켰으며, 자질들을 서로 조합하여 최고의 성능을 보이는 자질 집합을 골랐다 또한 가우스 평활 (Gaussian Smoothing)을 적용하여 데이터의 희소성 문제를 줄였다. 실험 결과에서 본 방법이 기존의 방법보다 성능이 좋을 뿐만 아니라 운율 경계를 추정하기 위한 자질을 독립시켰기 때문에 다른 시스템과의 호환성도 높다는 것을 알 수 있었다.

  • PDF

Analogies and metaphors in school mathematics (학교수학에서의 유추와 은유)

  • 이승우;우정호
    • Journal of Educational Research in Mathematics
    • /
    • v.12 no.4
    • /
    • pp.523-542
    • /
    • 2002
  • The matter of understanding mathematical concepts in learning mathematics is one of the most important issues in mathematics education. There have been so many studies about it but the more practical study has been asked. When we Think using intuitional models such as examples, figures of speech, situations and activities, it is supposed that the major elements of cognitive mechanism are prototypes, analogies, metaphors and metonymies. In this paper, we tried to examine Rosch's prototype theory, the studies about analogies in congnitive psychology, Lakoff and Johnson's metaphor theory from the viewpoint of teaching mathematics, and then tried to analyze examples, analogies, analogical transfers, metaphorical expressions, metonymies in middle school mathematics text books used in Korea now.

  • PDF

Noise filtering method based on voice frequency correlation to increase STT efficiency (STT 효율 증대를 위한 음성 주파수 correlation 기반 노이즈 필터링 방안)

  • Lim, Jiwon;Hwang, Yonghae;Kim, Kyuheon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.176-179
    • /
    • 2021
  • 현재 음성인식 기술은 인공지능 비서, 전화자동응답, 네비게이션 등 다양한 분야에서 사용되고 있으며 인간의 음성을 디바이스에 전달하기 위해 음성 신호를 텍스트로 변환하는 Speech-To-Text (STT) 기술을 필요로 한다. 초기의 STT 기술의 대부분은 확률 통계 방식인 Hidden Markov Model (HMM)기반으로 이루졌으며, 딥러닝 기술의 발전으로 HMM과 함께 Recurrent Nural Network (RNN), Deep Nural Network (DNN) 기법을 사용함으로써 과거보다 단어 인식 오류를 개선하며 20%의 성능 향상을 이루어냈다. 그러나 다수의 화자 혹은 생활소음, 노래 등 소음이 있는 주변 환경의 간섭 신호 영향을 받으면 인식 정확도에 차이가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위하여 음성 신호를 추출하여 주파수성분을 분석하고 오디오 신호 사이의 주파수 영역 correlation 연산을 통해 음성 신호와 노이즈 신호를 구분하는 것으로 STT 인식률을 높이고, 목소리 신호를 더욱 효율적으로 STT 기술에 입력하기 위한 방안을 제안한다.

  • PDF

Emotion Transfer with Strength Control for End-to-End TTS (감정 제어 가능한 종단 간 음성합성 시스템)

  • Jeon, Yejin;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.423-426
    • /
    • 2021
  • 본 논문은 전역 스타일 토큰(Global Style Token)을 기준으로 하여 감정의 세기를 조절할 수 있는 방법을 소개한다. 기존의 전역 스타일 토큰 연구에서는 원하는 스타일이 포함된 참조 오디오(reference audio)을 사용하여 음성을 합성하였다. 그러나, 참조 오디오의 스타일대로만 음성합성이 가능하기 때문에 세밀한 감정 조절에 어려움이 있었다. 이 문제를 해결하기 위해 본 논문에서는 전역 스타일 토큰의 레퍼런스 인코더 부분을 잔여 블록(residual block)과 컴퓨터 비전 분야에서 사용되는 AlexNet으로 대체하였다. AlexNet은 5개의 함성곱 신경망(convolutional neural networks) 으로 구성되어 있지만, 본 논문에서는 1개의 신경망을 제외한 4개의 레이어만 사용했다. 청취 평가(Mean Opinion Score)를 통해 제시된 방법으로 감정 세기의 조절 가능성을 보여준다.

  • PDF

Pause Predictor for Korean Text-to-Speech conversion (한국어 음성합성기용 끊어읽기 추정기)

  • 이정철;김상훈;성굉모
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.5
    • /
    • pp.51-56
    • /
    • 1998
  • 문장내 휴지구간의 위치와 길이는 합성음의 자연성을 결정짓는 주요 운율 파라미터 중 하나이다. 본 연구에서는 한국어 음성합성기의 합성음 생성에서 자연성 개선을 위해서 문장내 끊어읽기 위치 및 길이를 추정하기 위한 방법을 제안한다. 먼저 실제 발화에서 끊어 읽기가 발생하는 요인을 검토하였다. 그리고 이들 요인에 부합하여 텍스트에 4단계의 끊어 읽기를 표기함으로써 다량의 데이터를 확보하고 이를 이용한 NN 학습 결과와 HMM 추정 기의 성능을 비교 검토한다. 현재까지의 결과로는 NN 학습의 경우 끊어읽기 없는 경우와 긴 끊어읽기의 추정에서는 우수한 예측능력을 보이지만 짧은 끊어읽기, 중간 끊어읽기의 경 우는 HMM의 성능이 우수한 것으로 판명되었다. 전반적인 성능에서는 HMM이 우수하며 끊어읽기 종류에 따라 추정오차가 10∼25%로서 안정적인 결과를 얻었으며 TTS에의 활용 가능성을 보였다.

  • PDF

The Modeling of Pause Duration For Text-To-Speech Synthesis System (TTS 시스템을 위한 휴지기간 모델링)

  • Chung Jihye;Lee Yanhee
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.83-86
    • /
    • 2000
  • 본 논문에서는 비정형 단위를 사용한 음성 합성 시스템의 합성음에 대한 자연성을 향상시키기 위한 휴지 구간 추출 및 휴지 지속시간 예측 모델을 제안한다. 제안된 휴지 지속시간 예측 모델은 트리 기반 모델링 기법 중 하나인 CART (Classification And Regression Trees)방법을 이용하였다. 이를 위해 남성 단일 화자가 발성한 6,220개의 어절경계 포함하는 총 400문장의 문 음성 데이터베이스를 구축하였고, 이 데이터베이스로부터 V-fold Cross-Validation 방법에 의해 최적의 트리를 결정하였다. 이 모델을 평가한 결과, 휴지 구간 추출 정확율은 $81\%$로 휴지 구간 존재 추출 정확율은 $83\%, 휴지 구간 비존재 추출 정확율은 $80\%이었고, 실 휴지지속시간과 예측 휴지지속시간과의 다중상관 계수는 0.84로, 오차 범위 20ms 이내에서 의 정 확율은 $88\%$ 이었다. 또한, 휴지지속시간을 예측하여 적용한 합성음을 청취 실험한 결과 자연 음성과 대체적으로 유사하게 나타났다.

  • PDF

Real-time Unknown Word Identification Using Support Vector Machine For Chinese Text-to-Speech (중국어 음성합성을 위한 지진 벡터 기반 실시간 미등록어 처리)

  • Ha, Ju-Hong;Zheng, Yu;Lee, Gary G.
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.267-272
    • /
    • 2003
  • 음성 합성 시스템 구축에 있어서 입력 텍스트를 정확한 발음 표기로 변환하는 것은 매우 중요하다. 중국어에는 하나의 한자가 의미나 사용에 따라 다르게 발음되는 다음자(polyphony)들이 존재한다. 다음자의 처리는 상당히 복잡한 문제이기 때문에 본 논문에서는 그 중 가장 발음에 영향을 미치는 요소인 인명과 지명에 대한 미등록어 처리를 수행했다. 무엇보다 실시간 음성 합성 시스템을 위해서는 처리 속도의 향상이 요구된다. 따라서 본 연구에서는 미등록어 후보 구간 선정을 선행하고, 선정된 후보에 대해 추정하는 두 단계로 진행하였다. 후보 구간 선정은 단일 한자 단어(monosyllable word)의 확률과 간단한 패턴들을 이용한다. 최종 선정된 후보의 미등록어 추정은 SVM(Support Vector Machine)을 기반으로 실시하였다.

  • PDF

Descriptive Video Service using Text to Speech (TTS를 이용한 화면해설 방송 제작 방법)

  • Lim, Wootaek;Yang, Seung-Jun;Ahn, ChungHyun
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2013.06a
    • /
    • pp.282-283
    • /
    • 2013
  • 본 논문에서는 기존의 화면해설 방송 제작 방법을 보완하기 위한 TTS 를 이용한 화면해설 방송 제작 방법을 제안한다. 우선 화면해설 방송이 삽입 될 수 있는 구간을 검출하기 위해 에너지 값과 스펙트럼 도심 값을 이용하여 묵음구간을 검출하고 검출된 구간에 TTS 를 이용하여 화면 해설을 삽입하였다. 제안한 방법을 이용하면 기존의 화면해설 방송 제작에 소요되는 인적, 시간적 노력을 줄일 수 있을 뿐만 아니라 화면해설 방송 콘텐츠의 양적 증가를 통해 시각 장애인들의 방송 접근성을 향상시키는 효과를 가져올 수 있다.

  • PDF

Text-to-Speech System Using Logatom (Logatom을 사용한 문서음성변환 시스템)

  • Cho Kwansun;Lee Chulhee
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.7-10
    • /
    • 1999
  • 본 논문에서는 logatom 기반 무제한 한국어 TTS 시스템 구현을 제안한다. 이를 위하여 한국어를 대표할 만한 문서코퍼스를 선택하여 분석하고 이를 바탕으로 합성에 필요한 logatom을 설계한다. 일반적으로 음성코퍼스를 통해 음성세그먼트를 추출하여 접속에 기반한 TTS 시스템에서는 음성세그먼트를 의미있는 단어 또 는 어절로부터 추출한다. 하지만 음성세그먼트 추출시 고려되는 사항은 합성단위에 기초한 음소간의 결합형태이므로 본 논문에서는 음성세그먼트 추출을 위하여 무의미한 음소열인 logatom을 설계한다. Logatom은 문장 세그먼트의 어절내 위치와 문서코퍼스 분석 결과 얻어진 음소간의 결합형태를 기반으로 설계된다. 제안된 시스템의 합성음질을 평가하기 위하여 CVC 기반 logatom을 사용하여 임의의 문장을 합성해 본 결과 대부분의 음성세그먼트 접속이 자음에서 이루어지고 어절의 위치를 고려한 logatom 설계로 인하여 어절 내에서는 비교적 자연스러운 합성음을 얻을 수 있었다.

  • PDF