• Title/Summary/Keyword: Text-to-Speech

Search Result 505, Processing Time 0.109 seconds

Emotional Text-to-Speech System for Artificial Life Systems (인공생명체의 감정표현을 위한 음성처리)

  • 장국현;한동주;이상훈;서일홍
    • Proceedings of the IEEK Conference
    • /
    • 2003.07e
    • /
    • pp.2252-2255
    • /
    • 2003
  • 인간과 인공생명체(Artificial Life Systems)가 서로 커뮤니케이션을 진행하기 위하여 인공생명체는 자신이 의도한 바를 음성, 표정, 행동 등 다양한 방식을 통하여 표현할 수 있어야 한다. 특히 자신의 좋아함과 싫음 등 자율적인 감정을 표현할 수 있는 것은 인공생명체가 더욱 지능적이고 실제 생명체의 특성을 가지게 되는 중요한 전제조건이기도 하다. 위에서 언급한 인공생명체의 감정표현 특성을 구현하기 위하여 본 논문에서는 음성 속에 감정을 포함시키는 방법을 제안한다. 먼저 인간의 감정표현 음성데이터를 실제로 구축하고 이러한 음성데이터에서 감정을 표현하는데 사용되는 에너지, 지속시간, 피치(pitch) 등 특징을 추출한 후, 일반적인 음성에 위 과정에서 추출한 감정표현 특징을 적용하였으며 부가적인 주파수대역 필터링을 통해 기쁨, 슬픔, 화남, 두려움, 혐오, 놀람 등 6가지 감정을 표현할 수 있게 하였다. 감정표현을 위한 음성처리 알고리즘은 현재 음성합성에서 가장 널리 사용되고 있는 TD-PSOLA[1] 방법을 사용하였다.

  • PDF

Text-to-Speech System Using Variable Synthesis Units (가변합성단위를 사용한 문서 음성 변환 시스템)

  • 조관선;이철희
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1998.06a
    • /
    • pp.99-102
    • /
    • 1998
  • 본 논문에서는 자연스러운 음성을 합성하기 위해 가변합성단위를 사용한 합성시스템을 제안한다. 음소나 diphone과 같은 작은 단위를 사용하는 기존의 시스템은 음성세그먼트 연결시 접속점이 많아지는 단점이 있다. 반면에 단어나 복합음소와 같이 큰 단위를 사용할 경우 접속점의 수가 감소하여 음질이 향상되지만 단위수 증가로 무제한 합성이 어려워진다. 이러한 문제를 해결하기 위하여 본 논문에서는 접속점의 수를 줄이고 적정한 크기의 메모리로 향상된 음질을 얻기 위한 방법으로 어절 및 CVC와 같은 큰 단위와 반음절과 같은 작은 단위를 선택적으로 사용하여 음성을 합성한다. 실험은 특정문장을 대상으로 각각 반음절, CVC로 합성한 음성과 이들을 어절과 혼합하여 합성한 음성을 비교하였으며 그 결과 가변단위를 사용하여 합성한 음성이 비교적 자연스러움을 알 수 있었다.

  • PDF

Text-to-Speech Synthesizer with the Process of Minimizing Concatenation Distortion (접합 왜곡의 최소화 과정이 포함된 음성합성기)

  • 박훈재;김상훈;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.4
    • /
    • pp.38-44
    • /
    • 1998
  • 대용량의 음성합성용 데이터베이스를 용이하게 구축하기 위해 음성인식 시스템을 이용한 음소 경계 분할이 이루어지고 있다. 그러나 자동 분할 결과를 직접 이용하여 합성음 을 생성할 경우 음소 경계 에러로 인하여 접합 왜곡이 많이 발생하게 된다. 이러한 문제를 해결하기 위해서, 본 연구에서는 단위 접합시 경계 에러를 고려하여 적합한 접합 위치를 찾 고자 하였다. 여기서 적합한 접합 위치는 스펙트럼의 불연속이 최소화된 접합점을 의미한다. 합성음에 대한 MOS(Mean Opinion Score) 테스트와 스펙트로그램(spectrogram)의 모양을 비교하므로써 제안된 방법의 성능을 평가하였다. 제안된 방법은 두 단계로 이루어져 있다. 첫째, 레퍼런스 패턴(reference pattern)과 두 개의 테스트 패턴(test pattern)을 선택하는 단 계와, 둘째, 앞과 뒤 테스트 패턴 사이의 적합한 접합위치를 찾는 단계이다. 본 연구에서는 패턴 사이의 스펙트로그램 비교를 위해 켑스트럼(cepstrum) 피라미터와 패턴 분류기 (pattern classifier)인 DTW(Dynamic Time Warping) 알고리즘을 사용하였다. 제안된 알고 리즘을 평가한 청취 테스트의 결과에서 제안된 알고리즘을 적용하여 합성된 합성음의 음질 이 자동 분절로 생성된 단위를 그대로 이용한 경우의 음질보다 우수함을 보였다.

  • PDF

Using of The Korean Language Voice Synthesis For E-Mail Manager System (한국어 음성 합성을 이용한 이메일 매니저)

  • Jo, Gyu-Sang;Lee, Young-Hoon;Lee, Byeong-Ryeol;Seo, Dae-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.266-270
    • /
    • 2009
  • IT 관련 산업의 발전에 의한 저변의 확대로 장애우들의 IT 사용 수요가 늘고 있다. 본 논문에서는 IT분야에서 가장 기초적으로 활용되는 E-Mail을 시각 장애우가 활용 하는 데에 불편함이 없도록 하는 이메일 매니저 개발에 관련된 기법에 대해 논하고자 한다. TTS(Text-To Speech : 문자 텍스트를 음성으로 전환하여 들려줌)와 음성키보드(키보드 입력 시 입력한 문자를 음성으로 알려줌) 기능으로 시각 장애우가 이메일을 사용함에 있어 불편함을 느끼지 않도록 하였으며 본 시스템의 TTS 알고리즘은 국어 표준발음법을 참고로 하여 자바로 구현 하였다.

  • PDF

Contents Navigation System using Speech Recognition (음성인식 기반 컨텐츠 네비게이션 시스템)

  • Kim, Kee-Beak;Choi, Jong-Ho
    • KSCI Review
    • /
    • v.15 no.1
    • /
    • pp.99-102
    • /
    • 2007
  • 최근 들어 인간의 의지를 각종의 전자시스템에 전달하기 위한 수단으로 음성인식 기술을 이용하고자 하는 연구가 널리 진행되고 있다. 음성인식 인터페이스에서 가장 중요한 이슈는 처리시간의 감소 및 범용 인터페이스의 개발이다. 이러한 문제점을 해결하기 위하여 본 연구에서는 하드웨어 기반의 상용 IC로 생산되고 있는 음성인식프로세서인 RSC-4128이 내장된 음성인식 모듈 VR-STAMP를 사용하였다. 본 연구에서 새롭게 개발한 시스템은 T2SI(Text To Speaker Independent) 기반의 화자(話者)독립 방식으로 음성인식 신호를 컨텐츠 네비게이션 시스템의 제어신호로 활용하여 임베디드 시스템 및 PC 등에 설치된 윈도우즈 기반의 응용 소프트웨어를 제어할 수 있는 시스템이다. 필드 테스트를 통해 그 유용성을 확인한 결과, 본 연구에서 개발한 시스템은 컨텐츠 네비게이션은 물론 가전기기 제어 및 흠 네트워크 등에 널리 응용될 수 있을 것으로 판단된다.

  • PDF

Attached Communication Device for the Hearing-Impaired (청각장애인용 부착형 커뮤니케이션 디바이스)

  • Byeon, Hye-Sung;Oh, Tae-Jin;Jung, Min-Gyu;Jung, Yeong-Jin;Kim, Woongsup
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.338-341
    • /
    • 2019
  • 본 설계는 청각장애인을 위한 기술이다. 청각장애인은 일상생활에서 음성을 통한 의사소통이 어렵기 때문에, 비장애인과의 정보 격차를 줄이기 위한 '안경 부착형 커뮤니케이션 디바이스'를 개발하였다. Speech-To-Text 기술을 적용하여 음성이 인식되면 텍스트로 변환하여 출력한다. 따라서 음성에 대한 정보를 텍스트로 볼 수 있게끔 구현하였다. 또한 청각장애인은 소리로 파악할 수 있는 위험 요소에 노출되어 있다. 혹시 모를 안전사고에 빠르게 대처하고자 현재 위치 정보를 보호자에게 전송하는 기능을 구현하였다.

User Evaluation of the Real-Time Mobile Learning System with Improved Student Instructor Interaction (개선된 학생 강사간의 상호작용을 지원하는 실시간 모바일 원격교육 시스템의 사용자 평가)

  • Hwang, Haedong;Lee, Jang Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.562-565
    • /
    • 2015
  • 최근 모바일 기기의 사용이 급증하면서 모바일 단말기를 기반으로 하는 모바일 원격교육 시스템이 연구되고 있다. 우리는 태블릿 기반의 실시간 원격교욱 시스템을 개발한 경험이 있다. 이 시스템은 학생이 실시간으로 강사의 강의를 보고 들으며 슬라이드 및 애노테이션을 볼 수 있게 해준다. 또한 이 시스템은 학생이 채팅기능을 통해 강사에게 질문을 허용함으로써 강사 학생간의 상호작용을 지원한다. 그러나 이 시스템은 학생들이 채팅창에 가상키보드를 통해서만 입력하는 것을 허용하였기 때문에 입력 속도가 떨어지고 편의성이 저하되는 문제점이 있었다. 따라서 본 연구에서는 채팅기능의 Speech to Text 기능을 추가하여 학생들의 음성입력을 지원하도록 시스템의 강사 학생간의 상호작용 부분을 개선하였다. 그리고 강사 학생간의 상호작용에 대한 사용자 평가를 통하여 개선된 시스템이 기존의 시스템에 비하여 입력 속도 및 편의성 면에서 어느 정도 개선되었음을 알 수 있었다.

Tree-Structured IVR Interface in IP-PBX for ZigBee Device Monitoring and Control (ZigBee 디바이스 모니터링 및 제어를 위한 IP-PBX IVR 트리 구조 인터페이스)

  • Kim, Jiyong;Kim, Jiho;Kim, Hyung-Guk;Song, Ohyoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1150-1153
    • /
    • 2012
  • 전화를 이용하여 원격의 장치를 모니터링하고 제어하는 시스템 중 본 논문에서는 IP-PBX(private branch exchange)기반 서비스 플랫폼을 응용서비스를 실제 구현하여 전화응용서비스 개발의 필수적인 몇 가지 요소로써 IP-PBX, 서비스 서버, TTS(Text to Speech) 서버 등을 선정하며 IVR(Interactive Voice Response)시스템을 설정하기에 많은 시간과 비용이 들기에 ZigBee 디바이스 모니터링 및 제어를 위한 IP-PBX 트리 구조 인터페이스를 제안한다.

Dialing Interface Design for Safe Driving using Hand Gesture (손동작을 이용한 운전 안전성을 높이기 위한 전화 다이얼 인터페이스 설계)

  • Jang, WonAng;Lee, DoHoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.449-452
    • /
    • 2012
  • 운전 중에 주의를 분산시키는 요소는 대부분 인터페이스 조작에 있으며 교통사고의 직접적인 원인이 된다. 스마트 자동차에 대한 관심이 높아지면서 운전자 안전에 대한 다양한 연구가 모색되고 있다. 순간의 시선이동으로 인해 판단력과 조작능력을 상실 할 수 있는 현재의 인터페이스는 안전성이 보장 되지 못한다. 본 논문에서는 이러한 운전자의 주의를 분산시키는 요소로 부터 안전성을 확보하기 위해서 차량 내 카메라를 이용하여 손동작을 인식하여 직관적인 제스처로 전화번호를 입력하거나 검색할 수 있는 안전한 인터페이스를 제안한다. 제안한 시스템은 직관적 동작과 TTS(Text To Speech)를 활용하여 사용자 편의성과 안전성을 높였다.

Voice-based Control System Using Standard-based IoT Platforms (표준 사물인터넷 플랫폼을 활용한 음성 제어 시스템)

  • Jeong, Isu;Baek, Seungwoo;Lee, Sungchan;Yun, Jaeseok
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.01a
    • /
    • pp.454-455
    • /
    • 2019
  • 본 논문에서는 표준 기반 사물인터넷 (IoT: Internet of Things) 플랫폼을 활용한 음성 제어 시스템을 구현하고 그 성능을 검증한다. 사물인터넷 산업 표준인 원엠투엠 (oneM2M) 오픈 소스 플랫폼을 활용하여 음성으로 댁내 기기를 제어할 수 있는 프로토타입 시스템을 구현하였다. 음성 기반 제어를 위해 구글의 Speech-to-Text API를 활용하고 오픈 소스 하드웨어에 원엠투엠 플랫폼을 탑재하여 어디서든지 서버 플랫폼에 연결된 댁내 가전기기들을 제어할 수 있음을 보였다. 본 논문에서 구현한 시스템을 통해 표준화된 오픈 소스 플랫폼과 클라우드 음성 인식 API를 활용하여 확장성과 연결성을 갖춘 커넥티드 홈을 구현할 수 있음을 알 수 있다.

  • PDF