• 제목/요약/키워드: Voice synthesis

검색결과 102건 처리시간 0.035초

음성기반 멀티모달 사용자 인터페이스의 사용성 평가 방법론 (Usability Test Guidelines for Speech-Oriented Multimodal User Interface)

  • 홍기형
    • 대한음성학회지:말소리
    • /
    • 제67호
    • /
    • pp.103-120
    • /
    • 2008
  • Basic components for multimodal interface, such as speech recognition, speech synthesis, gesture recognition, and multimodal fusion, have their own technological limitations. For example, the accuracy of speech recognition decreases for large vocabulary and in noisy environments. In spite of those technological limitations, there are lots of applications in which speech-oriented multimodal user interfaces are very helpful to users. However, in order to expand application areas for speech-oriented multimodal interfaces, we have to develop the interfaces focused on usability. In this paper, we introduce usability and user-centered design methodology in general. There has been much work for evaluating spoken dialogue systems. We give a summary for PARADISE (PARAdigm for Dialogue System Evaluation) and PROMISE (PROcedure for Multimodal Interactive System Evaluation) that are the generalized evaluation frameworks for voice and multimodal user interfaces. Then, we present usability components for speech-oriented multimodal user interfaces and usability testing guidelines that can be used in a user-centered multimodal interface design process.

  • PDF

한국어 음성 합성을 이용한 이메일 매니저 (Using of The Korean Language Voice Synthesis For E-Mail Manager System)

  • 조규상;이영훈;이병렬;서대영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.266-270
    • /
    • 2009
  • IT 관련 산업의 발전에 의한 저변의 확대로 장애우들의 IT 사용 수요가 늘고 있다. 본 논문에서는 IT분야에서 가장 기초적으로 활용되는 E-Mail을 시각 장애우가 활용 하는 데에 불편함이 없도록 하는 이메일 매니저 개발에 관련된 기법에 대해 논하고자 한다. TTS(Text-To Speech : 문자 텍스트를 음성으로 전환하여 들려줌)와 음성키보드(키보드 입력 시 입력한 문자를 음성으로 알려줌) 기능으로 시각 장애우가 이메일을 사용함에 있어 불편함을 느끼지 않도록 하였으며 본 시스템의 TTS 알고리즘은 국어 표준발음법을 참고로 하여 자바로 구현 하였다.

  • PDF

피치 검출을 위한 스펙트럼 평탄화 기법 (Flattening Techniques for Pitch Detection)

  • 김종국;조왕래;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.381-384
    • /
    • 2002
  • In speech signal processing, it Is very important to detect the pitch exactly in speech recognition, synthesis and analysis. but, it is very difficult to pitch detection from speech signal because of formant and transition amplitude affect. therefore, in this paper, we proposed a pitch detection using the spectrum flattening techniques. Spectrum flattening is to eliminate the formant and transition amplitude affect. In time domain, positive center clipping is process in order to emphasize pitch period with a glottal component of removed vocal tract characteristic. And rough formant envelope is computed through peak-fitting spectrum of original speech signal in frequency domain. As a results, well get the flattened harmonics waveform with the algebra difference between spectrum of original speech signal and smoothed formant envelope. After all, we obtain residual signal which is removed vocal tract element The performance was compared with LPC and Cepstrum, ACF 0wing to this algorithm, we have obtained the pitch information improved the accuracy of pitch detection and gross error rate is reduced in voice speech region and in transition region of changing the phoneme.

  • PDF

규칙 합성음의 이해성 평가를 위한 단어표 구성 및 실험법 (A Word List Construction and Measurement Method for Intelligibility Assessment of Synthesized Speech by Rule)

  • 김성한;홍진우;김순협
    • 전자공학회논문지B
    • /
    • 제29B권1호
    • /
    • pp.43-49
    • /
    • 1992
  • As a result of recent progress in speech synthesis techniques, the those new services using new techniques are going to introduce into the telephone communication system. In setting standards, voice quality is obviously an important criterion. It is very important to develope a quality evaluation method of synthesized speech for the diagnostic assessment of system algorithm, and fair comparison of assessment values. This paper has described several basic concepts and criterions for quality assessment (intelligibility) of synthesized speech by rule, and then a word selection method and the word list to be used in word intelligibility test were proposed. Finally, a test method for word intelligibility is described.

  • PDF

Algorithm for Concatenating Multiple Phonemic Units for Small Size Korean TTS Using RE-PSOLA Method

  • Bak, Il-Suh;Jo, Cheol-Woo
    • 음성과학
    • /
    • 제10권1호
    • /
    • pp.85-94
    • /
    • 2003
  • In this paper an algorithm to reduce the size of Text-to-Speech database is proposed. The algorithm is based on the characteristics of Korean phonemic units. From the initial database, a reduced phoneme unit set is induced by articulatory similarity of concatenating phonemes. Speech data is read by one female announcer for 1000 phonetically balanced sentences. All the recorded speech is then segmented by phoneticians. Total size of the original speech data is about 640 MB including laryngograph signal. To synthesize wave, RE-PSOLA (Residual-Excited Pitch Synchronous Overlap and Add Method) was used. The voice quality of synthesized speech was compared with original speech in terms of spectrographic informations and objective tests. The quality of the synthesized speech is not much degraded when the size of synthesis DB was reduced from 320 MB to 82 MB.

  • PDF

한국어 음성합성과 인식을 이용한 웹 브라우저 설계 및 구현 (Design and Implementation of Web browser Using Voice synthesis & Recognition for Korean language)

  • 조경환;최훈일;조철환;장영건
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.278-280
    • /
    • 2000
  • 인터넷의 중요성이 증가함에 따라, 웹 브라우저에 음성 인터페이스를 추가하는 연구와 개발이 이루어지고 있다. 그러나, 아직까지 기존의 모든 웹 문서가 HTML로 작성되어 있어, 효과적인 음성 인터페이스를 하기에는 많은 어려움이 있으며, 음성이 느린 출력 매체이므로 사용자가 빠르게 인지할 수 있는 방안이 연구되어야 한다. 본 논문에서는 사용자의 웹 액세스를 높이기 위하여, 웹 브라우저에 연결되는 웹 문서에서, 각각의 객체를 추출한 후, 사용자가 그 객체에 바로 액세스를 하거나 한국어 음성으로 그 정보를 알 수 있는 방법을 사용하여, 음성으로 제어할 수 있는 한국어 음성 웹 브라우저를 설계하고 구현하였다. 음성합성과 인식을 사용하여 브라우저를 제어하기 때문에, 노약자나 어린이 또는 시각장애인들이 쉽게 웹 서핑을 할 수 있도록 도와줄 수 있고, 또한 현재 사용되고 있는 웹 문서에서의 객체추출을 사용하기 때문에 특별히 문서의 변환이 필요 없는 장점이 있다.

  • PDF

대화 맥락에 기반한 한국어 휴지 예측 모델 (Korean Pause Prediction Model based on Dialogue Context)

  • 이정;나정호;정정범;최맹식;이충희;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.404-408
    • /
    • 2023
  • 음성 사용자 인터페이스(Voice User Interface)에 대한 수요가 증가함에 따라 음성 합성(Speech Synthesis) 시스템에서 자연스러운 음성 발화를 모방하기 위해 적절한 위치에 휴지를 삽입하는 것이 주된 과업으로 자리잡았다. 대화의 연속성을 고려했을 때, 자연스러운 음성 기반 인터페이스를 구성하기 위해서는 대화의 맥락을 이해하고 적절한 위치에 휴지를 삽입하는 것이 필수적이다. 이에 따라 본 연구는 대화 맥락에 기반하여 적절한 위치에 휴지를 삽입하는 Long-Input Transformer 기반 휴지 예측 모델을 제안하고 한국어 대화 데이터셋에서 검증한 결과를 보인다.

  • PDF

멀티펄스의 위치보정 방법을 이용한 8kbps PC-MPC에 관한 연구 (A Study on 8kbps PC-MPC by Using Position Compensation Method of Multi-Pulse)

  • 이시우
    • 디지털융복합연구
    • /
    • 제11권5호
    • /
    • pp.285-290
    • /
    • 2013
  • 유성음원과 무성음원을 사용하는 멀티펄스 음성부호화 방식에 있어서, 대표구간의 멀티펄스를 사용하는 경우에 유성음의 합성음성파형에서 일그러짐이 나타난다. 이것은 대표구간의 멀티펄스를 피치구간마다 복원하는 과정에서 재생 음성신호가 정규화되는 것이 원인으로 작용한다. 이것을 해결하기위하여 본 논문에서는 피치구간마다 멀티펄스의 위치를 보정하는 방법(PC-MPC)을 제시하였으며, 기존의 MPC와 멀티펄스 위치를 보정한 PC-MPC의 $SNR_{seg}$를 평가한 결과, PC-MPC의 남자음성에서 0.4dB, 여자음성에서 0.5dB 개선된 것을 확인할 수 있었다. 결국, MPC에 비해 PC-MPC의 $SNR_{seg}$가 개선되어 음성파형의 일그러짐을 제어할 수 있었으며, 본 방법은 셀룰러폰이나 스마트폰과 같이 Low Bit Rate의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.

Low Bit Rate을 고려한 8kbps FBD-MPC 방식에 관한 연구 (A Study on 8kbps FBD-MPC Method Considering Low Bit Rate)

  • 이시우
    • 디지털융복합연구
    • /
    • 제12권6호
    • /
    • pp.271-276
    • /
    • 2014
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 음질저하현상이 나타난다. 본 연구에서는 연속음성에서 무성자음을 포함한 천이구간을 탐색, 추출하고 주파수대역에서 근사합성하는 8kbps의 멀티펄스 음성부호화 방식(FBD-MPC)를 제안하였다. 기존의 8kbps MPC와 FBD-MPC의 SNRseg를 평가한 결과, FBD-MPC의 남자음성에서 0.5dB, 여자음성에서 0.2dB 개선된 것을 확인할 수 있었다. 결국, MPC에 비해 FBD-MPC의 SNRseg가 개선되어 음성파형의 일그러짐을 제어할 수 있었으며, 본 방법은 셀룰러폰이나 스마트폰과 같이 Low Bit Rate의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.

멀티펄스의 진폭보정에 관한 연구 (A Study on Compensation of Amplitude in Multi Pulse)

  • 이시우
    • 한국산학기술학회논문지
    • /
    • 제12권9호
    • /
    • pp.4119-4124
    • /
    • 2011
  • 유성음원과 무성음원을 사용하는 멀티펄스 음성부호화 방식에 있어서, 음성신호의 진폭이 증가하거나 감소하는 경우에 음성 파형에 일그러짐이 나타난다. 이것은 대표구간의 멀티펄스를 피치구간마다 복원하는 과정에서 재생 음성신호가 정규화되는 것이 원인으로 작용한다. 이것을 해결하기위하여 본 논문에서는 피치구간마다 멀티펄스의 진폭을 보정하는 방법(AC-MPC)을 제시하였으며, 기존의 MPC와 멀티펄스 진폭을 보정한 AC-MPC의 SNRseg를 평가한 결과, AC-MPC의 남자음성에서 0.7dB, 여자음성에서 0.7dB 개선된 것을 확인할 수 있었다. 결국, MPC에 비해 AC-MPC의 SNRseg가 개선되어 음성파형의 일그러짐을 제어할 수 있었으며, 본 방법은 셀룰러폰이나 스마트폰과 같이 Low Bit Rate의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.