• 제목/요약/키워드: Voice-Based Interface

검색결과 130건 처리시간 0.022초

모바일기반 음성인터페이스에 관한 연구 (A Study on the Voice Interface for Mobile Environment)

  • 김수훈;안종영
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.199-204
    • /
    • 2013
  • 구글의 안드로이드 기반 음성인터페이스는 웹 어플리케이션에 국한되어 있으며 사용자층 또한 극히 드문 현실이다. 본 연구에서는 기존의 안드로이드기반 음성엔진을 사용하여 음성인터페이스가 이루어 질 수 있는 방법론을 제시하고 관련 어플리케이션을 개발하였다. 또한 안드로이드기반 어플리케이션에 있어서 일상 잡음환경에서 음성인식 어플리케이션의 음성인식 성능 즉, 음성인터페이스에 관한 환경을 연구하였으며 그에 알맞은 모바일 환경에서의 음성인터페이스를 제시하였다.

GMM based Nonlinear Transformation Methods for Voice Conversion

  • Vu, Hoang-Gia;Bae, Jae-Hyun;Oh, Yung-Hwan
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.67-70
    • /
    • 2005
  • Voice conversion (VC) is a technique for modifying the speech signal of a source speaker so that it sounds as if it is spoken by a target speaker. Most previous VC approaches used a linear transformation function based on GMM to convert the source spectral envelope to the target spectral envelope. In this paper, we propose several nonlinear GMM-based transformation functions in an attempt to deal with the over-smoothing effect of linear transformation. In order to obtain high-quality modifications of speech signals our VC system is implemented using the Harmonic plus Noise Model (HNM)analysis/synthesis framework. Experimental results are reported on the English corpus, MOCHA-TlMlT.

  • PDF

미디어 멀티태스킹 환경에서 인터페이스의 감각양식 차이가 인지부하와 과업수행에 미치는 영향에 관한 연구 다중 자원 이론과 스레드 인지 모델을 기반으로 (The Effects of Interface Modality on Cognitive Load and Task Performance in Media Multitasking Environment)

  • 이다나;한광희
    • 한국HCI학회논문지
    • /
    • 제14권2호
    • /
    • pp.31-39
    • /
    • 2019
  • 본 연구는 빠르게 발전하는 음성 기반의 디바이스가 스크린 중심의 미디어 멀티태스킹 환경에 어떤 변화를 가져올 수 있을지 확인하고자 했다. 서로 다른 자원 구조를 가진 과업을 동시에 수행할 때 정보 처리 효율이 높아진다는 이론적 근거를 토대로, 시각 주의가 필요한 과제와 음성 또는 스크린 기반의 디바이스를 활용해 정보를 검색하는 과업을 동시에 수행하는 실험이 진행되었다. 실험 결과, 과업수행 환경과 인터페이스 감각양식은 모두 인지부하에 유의미한 영향을 미쳤다. 음성 인터페이스 그룹에서 전반적으로 인지부하 수준이 높게 나타났는데, 단독으로 사용된 단일 과업 조건보다 시각 과제를 동시에 수행한 다중 과업 조건에서 시각 인터페이스 그룹과의 차이가 줄어들었다. 과업 수행도의 경우 음성 인터페이스 그룹에서 시각 과제에 대한 수행능력이 시각 인터페이스 그룹보다 더 높게 측정되었다. 이러한 결과는 멀티태스킹 환경에서 음성 인터페이스를 사용했을 때 동시적 과업을 청각 경로와 시각 경로로 나누어 처리함으로써 인지부하와 과업수행에 이점이 나타났음을 의미한다. 이는 시각 자원의 충돌이 발생하기 쉬운 스크린 중심의 미디어 멀티태스킹 환경에서 음성 기반의 디바이스가 효율적 정보 처리를 촉진시키는 잠재적 역할을 할 수 있다는 함의점을 제공한다. 본 연구는 다중 자원 이론을 통해 자원의 분산처리에 대한 이론적 증거를 제시하고, 스레드 인지 모델을 기반으로 음성 인터페이스를 활용했을 때의 이점을 더욱 구체적으로 규명하고자 했다.

AI의 음성 디자인에서 고려해야 할 감성적 요소 및 국가별 음성 트랜드에 관한 연구 - 핀란드와 노르웨이의 전문가 인뎁스 인터뷰를 중심으로 (Research on Emotional Factors and Voice Trend by Country to be considered in Designing AI's Voice - An analysis of interview with experts in Finland and Norway)

  • 남궁기찬
    • 한국융합학회논문지
    • /
    • 제11권9호
    • /
    • pp.91-97
    • /
    • 2020
  • 사용자와의 인터랙션이 가능한 음성 기반의 인터페이스는 AI 기술의 발달에 따라 사용이 확대되고 있다. 하지만, 현재까지의 음성 기반 인터페이스에 대한 연구는 음성 인식의 정확성 향상 등 기술적인 연구들이 대부분이었다. 이렇다 보니, 대부분의 음성 기반 인터페이스의 목소리는 차별화된 감성을 제공하지 않으며 획일화되어 있다. 본 연구에서는 AI 인터페이스의 음성에 적합한 감성 요소를 더하는 것을 목적으로 한다. 이를 위해 음성 인터페이스 디자인에서 고려되어야 할 감성적 요소를 도출하였다. 또한, 국가별로 차이를 보이는 보이스 트렌드를 조사하였다. 본 연구를 위해 자국의 언어를 독립적으로 사용하는 핀란드와 노르웨이, 두 국가의 음성 산업 전문가들과 인터뷰를 진행하였다.

VoiceXML 기반 영어 교육 평가 시스템 설계 및 구현 (Design and Implementation of the English Education Testing System Interface Based on VoiceXML)

  • 장승주
    • 컴퓨터교육학회논문지
    • /
    • 제8권6호
    • /
    • pp.75-83
    • /
    • 2005
  • 본 논문에서는 외국어 학습 영역인 영어 듣기와 말하기 평가를 웹과 VoiceXML 기반 교육 평가 시스템을 이용하여 장소와 시간적 제한을 받지 않고 평가하는 방법을 연구하였다. VoiceXML 기반교육 평가 시스템은 사용자 등록 모듈, 평가 모듈, 평가 결과 모듈로 구성된다. 사용자 등록 모듈은 사용자 이름과 아이디, 비밀번호를 사용자 데이터베이스에 등록하여, 학습자가 평가를 하기 위해 전화를 했을 때 vxml 시나리오에 의해 제공되어지는 음성을 듣고 로그인을 하여 사용자를 확인할 수 있도록 하였다. VoiceXML 기반 전화 평가 시스템에서 출제자는 문제 출제와 평가, 평가 결과를 얻기 위한 시간, 노력을 경감할 수 있으며, 학습자는 언제 어디서나 유무선 전화기를 이용하여 VoiceXML 마크업 언어로 제공되는 시나리오에 의해 대화형 음성으로 제공되는 평가 문항을 듣고 직접 음성으로 평가함으로써 외국어 학습에 대한 효과를 올릴 수 있다.

  • PDF

눈동자 추적 기반 입력 및 딥러닝 기반 음성 합성을 적용한 루게릭 환자 의사소통 지원 시스템 (Communication Support System for ALS Patient Based on Text Input Interface Using Eye Tracking and Deep Learning Based Sound Synthesi)

  • 박현주;정승도
    • 디지털산업정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.27-36
    • /
    • 2024
  • Accidents or disease can lead to acquired voice dysphonia. In this case, we propose a new input interface based on eye movements to facilitate communication for patients. Unlike the existing method that presents the English alphabet as it is, we reorganized the layout of the alphabet to support the Korean alphabet and designed it so that patients can enter words by themselves using only eye movements, gaze, and blinking. The proposed interface not only reduces fatigue by minimizing eye movements, but also allows for easy and quick input through an intuitive arrangement. For natural communication, we also implemented a system that allows patients who are unable to speak to communicate with their own voice. The system works by tracking eye movements to record what the patient is trying to say, then using Glow-TTS and Multi-band MelGAN to reconstruct their own voice using the learned voice to output sound.

VoiceXML 기반 음성인식시스템을 이용한 서비스 개발 (The Interactive Voice Services based on VoiceXML)

  • 김학균;김은향;김재인;구명완
    • 대한음성학회지:말소리
    • /
    • 제43호
    • /
    • pp.113-125
    • /
    • 2002
  • As there are needs to search the Web information via wire or wireless telephones, VoiceXML forum was established to develop and promote the Voice eXtensible Markup Language (VoiceXML). VoiceXML simplifies the creation of personalized interactive voice response services on the Web, and allows voice and phone access to information on Web sites, call center databases. Also, it can utilize the Web-based technologies, such as CGI(Common Gateway Interface) scripts. In this paper, we have developed the voice portal service platform based on VoiceXML called TeleGateway. It enables integration of voice services with data services using the Automatic Speech Recognition (ASR) and Text-To-Speech (TTS) engines. Also, we have showed the various services on voice portal services.

  • PDF

고속 음성 문서 검색을 위한 Expected Matching Score 기반의 문서 확장 기법 (Expected Matching Score Based Document Expansion for Fast Spoken Document Retrieval)

  • 서민구;정규준;오영환
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 추계학술대회 발표논문집
    • /
    • pp.71-74
    • /
    • 2006
  • Many works have been done in the field of retrieving audio segments that contain human speeches without captions. To retrieve newly coined words and proper nouns, subwords were commonly used as indexing units in conjunction with query or document expansion. Among them, document expansion with subwords has serious drawback of large computation overhead. Therefore, in this paper, we propose Expected Matching Score based document expansion that effectively reduces computational overhead without much loss in retrieval precisions. Experiments have shown 13.9 times of speed up at the loss of 0.2% in the retrieval precision.

  • PDF

Development of a Work Management System Based on Speech and Speaker Recognition

  • Gaybulayev, Abdulaziz;Yunusov, Jahongir;Kim, Tae-Hyong
    • 대한임베디드공학회논문지
    • /
    • 제16권3호
    • /
    • pp.89-97
    • /
    • 2021
  • Voice interface can not only make daily life more convenient through artificial intelligence speakers but also improve the working environment of the factory. This paper presents a voice-assisted work management system that supports both speech and speaker recognition. This system is able to provide machine control and authorized worker authentication by voice at the same time. We applied two speech recognition methods, Google's Speech application programming interface (API) service, and DeepSpeech speech-to-text engine. For worker identification, the SincNet architecture for speaker recognition was adopted. We implemented a prototype of the work management system that provides voice control with 26 commands and identifies 100 workers by voice. Worker identification using our model was almost perfect, and the command recognition accuracy was 97.0% in Google API after post- processing and 92.0% in our DeepSpeech model.

근거리 통신망과 사설교환기의 음성통신을 위한 게이트웨이의 구현 (Implementation of a Gateway Protocol between LAN and PABX for Voice Communication)

  • 안용철;신병철
    • 한국통신학회논문지
    • /
    • 제19권7호
    • /
    • pp.1346-1363
    • /
    • 1994
  • 패킷 음성 프로토콜은 지금까지 많이 연구되고 구현되어왔다. 하지만 음성통신을 위한 근거리 통신망과 사설교환기사이의 연동에 대한 연구는 아직 많은 편은 아니다. 본 논문에서는 근거리 통신망과 기존의 사설교환기사이의 음성통신을 위한 게이트웨이를 설계하고 구현하였다. 구현한 게이트웨이의 프로토콜은 CCITT의 G.764 패킷 음성 프로토콜을 수정. 사용하였다. 연동을 위한 하드웨어 시스템을 구현하였으며, 이는 전화선과의 인터페이스 부분, 음성처리부분, PC 인터페이스 부분 및 제어부분, 그리고 DTMF(Dual Tone Multiple Frequency) 접속부분으로 나누어진다. 그리고 소프트웨어는 근거리 통신망 접속용 네트웍카드를 구동하는 패킷 드라이버를 이용하기위한 인터페이스 부분과 게이트웨이를 구동하는 드라이버, 그리고 프로토콜 처리부분으로 구성되어있다.

  • PDF