• Title/Summary/Keyword: text-to-speech system

Search Result 246, Processing Time 0.027 seconds

Development of Half-Mirror Interface System and Its Application for Ubiquitous Environment (유비쿼터스 환경을 위한 하프미러형 인터페이스 시스템 개발과 응용)

  • Kwon Young-Joon;Kim Dae-Jin;Lee Sang-Wan;Bien Zeungnam
    • Journal of Institute of Control, Robotics and Systems
    • /
    • v.11 no.12
    • /
    • pp.1020-1026
    • /
    • 2005
  • In the era of ubiquitous computing, human-friendly man-machine interface is getting more attention due to its possibility to offer convenient services. For this, in this paper, we introduce a 'Half-Mirror Interface System (HMIS)' as a novel type of human-friendly man-machine interfaces. Basically, HMIS consists of half-mirror, USB-Webcam, microphone, 2ch-speaker, and high-speed processing unit. In our HMIS, two principal operation modes are selected by the existence of the user in front of it. The first one, 'mirror-mode', is activated when the user's face is detected via USB-Webcam. In this mode, HMIS provides three basic functions such as 1) make-up assistance by magnifying an interested facial component and TTS (Text-To-Speech) guide for appropriate make-up, 2) Daily weather information provider via WWW service, 3) Health monitoring/diagnosis service using Chinese medicine knowledge. The second one, 'display-mode' is designed to show decorative pictures, family photos, art paintings and so on. This mode is activated when the user's face is not detected for a time being. In display-mode, we also added a 'healing-window' function and 'healing-music player' function for user's psychological comfort and/or relaxation. All these functions are accessible by commercially available voice synthesis/recognition package.

The Modeling of Pause Duration For Text-To-Speech Synthesis System (TTS 시스템을 위한 휴지기간 모델링)

  • Chung Jihye;Lee Yanhee
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.83-86
    • /
    • 2000
  • 본 논문에서는 비정형 단위를 사용한 음성 합성 시스템의 합성음에 대한 자연성을 향상시키기 위한 휴지 구간 추출 및 휴지 지속시간 예측 모델을 제안한다. 제안된 휴지 지속시간 예측 모델은 트리 기반 모델링 기법 중 하나인 CART (Classification And Regression Trees)방법을 이용하였다. 이를 위해 남성 단일 화자가 발성한 6,220개의 어절경계 포함하는 총 400문장의 문 음성 데이터베이스를 구축하였고, 이 데이터베이스로부터 V-fold Cross-Validation 방법에 의해 최적의 트리를 결정하였다. 이 모델을 평가한 결과, 휴지 구간 추출 정확율은 $81\%$로 휴지 구간 존재 추출 정확율은 $83\%, 휴지 구간 비존재 추출 정확율은 $80\%이었고, 실 휴지지속시간과 예측 휴지지속시간과의 다중상관 계수는 0.84로, 오차 범위 20ms 이내에서 의 정 확율은 $88\%$ 이었다. 또한, 휴지지속시간을 예측하여 적용한 합성음을 청취 실험한 결과 자연 음성과 대체적으로 유사하게 나타났다.

  • PDF

Text-to-Speech System Using Logatom (Logatom을 사용한 문서음성변환 시스템)

  • Cho Kwansun;Lee Chulhee
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.7-10
    • /
    • 1999
  • 본 논문에서는 logatom 기반 무제한 한국어 TTS 시스템 구현을 제안한다. 이를 위하여 한국어를 대표할 만한 문서코퍼스를 선택하여 분석하고 이를 바탕으로 합성에 필요한 logatom을 설계한다. 일반적으로 음성코퍼스를 통해 음성세그먼트를 추출하여 접속에 기반한 TTS 시스템에서는 음성세그먼트를 의미있는 단어 또 는 어절로부터 추출한다. 하지만 음성세그먼트 추출시 고려되는 사항은 합성단위에 기초한 음소간의 결합형태이므로 본 논문에서는 음성세그먼트 추출을 위하여 무의미한 음소열인 logatom을 설계한다. Logatom은 문장 세그먼트의 어절내 위치와 문서코퍼스 분석 결과 얻어진 음소간의 결합형태를 기반으로 설계된다. 제안된 시스템의 합성음질을 평가하기 위하여 CVC 기반 logatom을 사용하여 임의의 문장을 합성해 본 결과 대부분의 음성세그먼트 접속이 자음에서 이루어지고 어절의 위치를 고려한 logatom 설계로 인하여 어절 내에서는 비교적 자연스러운 합성음을 얻을 수 있었다.

  • PDF

Emotional Text-to-Speech System for Artificial Life Systems (인공생명체의 감정표현을 위한 음성처리)

  • 장국현;한동주;이상훈;서일홍
    • Proceedings of the IEEK Conference
    • /
    • 2003.07e
    • /
    • pp.2252-2255
    • /
    • 2003
  • 인간과 인공생명체(Artificial Life Systems)가 서로 커뮤니케이션을 진행하기 위하여 인공생명체는 자신이 의도한 바를 음성, 표정, 행동 등 다양한 방식을 통하여 표현할 수 있어야 한다. 특히 자신의 좋아함과 싫음 등 자율적인 감정을 표현할 수 있는 것은 인공생명체가 더욱 지능적이고 실제 생명체의 특성을 가지게 되는 중요한 전제조건이기도 하다. 위에서 언급한 인공생명체의 감정표현 특성을 구현하기 위하여 본 논문에서는 음성 속에 감정을 포함시키는 방법을 제안한다. 먼저 인간의 감정표현 음성데이터를 실제로 구축하고 이러한 음성데이터에서 감정을 표현하는데 사용되는 에너지, 지속시간, 피치(pitch) 등 특징을 추출한 후, 일반적인 음성에 위 과정에서 추출한 감정표현 특징을 적용하였으며 부가적인 주파수대역 필터링을 통해 기쁨, 슬픔, 화남, 두려움, 혐오, 놀람 등 6가지 감정을 표현할 수 있게 하였다. 감정표현을 위한 음성처리 알고리즘은 현재 음성합성에서 가장 널리 사용되고 있는 TD-PSOLA[1] 방법을 사용하였다.

  • PDF

Text-to-Speech System Using Variable Synthesis Units (가변합성단위를 사용한 문서 음성 변환 시스템)

  • 조관선;이철희
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1998.06a
    • /
    • pp.99-102
    • /
    • 1998
  • 본 논문에서는 자연스러운 음성을 합성하기 위해 가변합성단위를 사용한 합성시스템을 제안한다. 음소나 diphone과 같은 작은 단위를 사용하는 기존의 시스템은 음성세그먼트 연결시 접속점이 많아지는 단점이 있다. 반면에 단어나 복합음소와 같이 큰 단위를 사용할 경우 접속점의 수가 감소하여 음질이 향상되지만 단위수 증가로 무제한 합성이 어려워진다. 이러한 문제를 해결하기 위하여 본 논문에서는 접속점의 수를 줄이고 적정한 크기의 메모리로 향상된 음질을 얻기 위한 방법으로 어절 및 CVC와 같은 큰 단위와 반음절과 같은 작은 단위를 선택적으로 사용하여 음성을 합성한다. 실험은 특정문장을 대상으로 각각 반음절, CVC로 합성한 음성과 이들을 어절과 혼합하여 합성한 음성을 비교하였으며 그 결과 가변단위를 사용하여 합성한 음성이 비교적 자연스러움을 알 수 있었다.

  • PDF

Using of The Korean Language Voice Synthesis For E-Mail Manager System (한국어 음성 합성을 이용한 이메일 매니저)

  • Jo, Gyu-Sang;Lee, Young-Hoon;Lee, Byeong-Ryeol;Seo, Dae-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.266-270
    • /
    • 2009
  • IT 관련 산업의 발전에 의한 저변의 확대로 장애우들의 IT 사용 수요가 늘고 있다. 본 논문에서는 IT분야에서 가장 기초적으로 활용되는 E-Mail을 시각 장애우가 활용 하는 데에 불편함이 없도록 하는 이메일 매니저 개발에 관련된 기법에 대해 논하고자 한다. TTS(Text-To Speech : 문자 텍스트를 음성으로 전환하여 들려줌)와 음성키보드(키보드 입력 시 입력한 문자를 음성으로 알려줌) 기능으로 시각 장애우가 이메일을 사용함에 있어 불편함을 느끼지 않도록 하였으며 본 시스템의 TTS 알고리즘은 국어 표준발음법을 참고로 하여 자바로 구현 하였다.

  • PDF

Contents Navigation System using Speech Recognition (음성인식 기반 컨텐츠 네비게이션 시스템)

  • Kim, Kee-Beak;Choi, Jong-Ho
    • KSCI Review
    • /
    • v.15 no.1
    • /
    • pp.99-102
    • /
    • 2007
  • 최근 들어 인간의 의지를 각종의 전자시스템에 전달하기 위한 수단으로 음성인식 기술을 이용하고자 하는 연구가 널리 진행되고 있다. 음성인식 인터페이스에서 가장 중요한 이슈는 처리시간의 감소 및 범용 인터페이스의 개발이다. 이러한 문제점을 해결하기 위하여 본 연구에서는 하드웨어 기반의 상용 IC로 생산되고 있는 음성인식프로세서인 RSC-4128이 내장된 음성인식 모듈 VR-STAMP를 사용하였다. 본 연구에서 새롭게 개발한 시스템은 T2SI(Text To Speaker Independent) 기반의 화자(話者)독립 방식으로 음성인식 신호를 컨텐츠 네비게이션 시스템의 제어신호로 활용하여 임베디드 시스템 및 PC 등에 설치된 윈도우즈 기반의 응용 소프트웨어를 제어할 수 있는 시스템이다. 필드 테스트를 통해 그 유용성을 확인한 결과, 본 연구에서 개발한 시스템은 컨텐츠 네비게이션은 물론 가전기기 제어 및 흠 네트워크 등에 널리 응용될 수 있을 것으로 판단된다.

  • PDF

User Evaluation of the Real-Time Mobile Learning System with Improved Student Instructor Interaction (개선된 학생 강사간의 상호작용을 지원하는 실시간 모바일 원격교육 시스템의 사용자 평가)

  • Hwang, Haedong;Lee, Jang Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.562-565
    • /
    • 2015
  • 최근 모바일 기기의 사용이 급증하면서 모바일 단말기를 기반으로 하는 모바일 원격교육 시스템이 연구되고 있다. 우리는 태블릿 기반의 실시간 원격교욱 시스템을 개발한 경험이 있다. 이 시스템은 학생이 실시간으로 강사의 강의를 보고 들으며 슬라이드 및 애노테이션을 볼 수 있게 해준다. 또한 이 시스템은 학생이 채팅기능을 통해 강사에게 질문을 허용함으로써 강사 학생간의 상호작용을 지원한다. 그러나 이 시스템은 학생들이 채팅창에 가상키보드를 통해서만 입력하는 것을 허용하였기 때문에 입력 속도가 떨어지고 편의성이 저하되는 문제점이 있었다. 따라서 본 연구에서는 채팅기능의 Speech to Text 기능을 추가하여 학생들의 음성입력을 지원하도록 시스템의 강사 학생간의 상호작용 부분을 개선하였다. 그리고 강사 학생간의 상호작용에 대한 사용자 평가를 통하여 개선된 시스템이 기존의 시스템에 비하여 입력 속도 및 편의성 면에서 어느 정도 개선되었음을 알 수 있었다.

Voice-based Control System Using Standard-based IoT Platforms (표준 사물인터넷 플랫폼을 활용한 음성 제어 시스템)

  • Jeong, Isu;Baek, Seungwoo;Lee, Sungchan;Yun, Jaeseok
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.01a
    • /
    • pp.454-455
    • /
    • 2019
  • 본 논문에서는 표준 기반 사물인터넷 (IoT: Internet of Things) 플랫폼을 활용한 음성 제어 시스템을 구현하고 그 성능을 검증한다. 사물인터넷 산업 표준인 원엠투엠 (oneM2M) 오픈 소스 플랫폼을 활용하여 음성으로 댁내 기기를 제어할 수 있는 프로토타입 시스템을 구현하였다. 음성 기반 제어를 위해 구글의 Speech-to-Text API를 활용하고 오픈 소스 하드웨어에 원엠투엠 플랫폼을 탑재하여 어디서든지 서버 플랫폼에 연결된 댁내 가전기기들을 제어할 수 있음을 보였다. 본 논문에서 구현한 시스템을 통해 표준화된 오픈 소스 플랫폼과 클라우드 음성 인식 API를 활용하여 확장성과 연결성을 갖춘 커넥티드 홈을 구현할 수 있음을 알 수 있다.

  • PDF

Design of Augmentative and Alternative Communication MLS System for Language Disabilities Persons Based on TTS (TTS기반 언어장애인을 위한 보완·대체 의사소통 MLS 시스템 설계)

  • Oh, Seung-Hun;Oh, Jin-Il;Park, Seong-Jun;Park, Seok-Cheon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1238-1240
    • /
    • 2013
  • 본 논문에서는 AAC기술과 TTS기술을 조사 및 분석하여 스마트폰의 가장기본적인 기능인 전화와 문자전달 기능을 일반적으로 의사소통이 어려운 언어장애인들에게 보완 대체 의사소통의 수단을 제공하는 MLS시스템을 제안하고, Text to Speech기능과 의사소통기능, TTS전화기능, 설정기능을 설계하였다.