• Title/Summary/Keyword: 음성 인터페이스

Search Result 402, Processing Time 0.024 seconds

Design and Implementation of Voice Browser and VXML editor (VXML 편집기와 음성 브라우저의 설계 및 구현)

  • 김경란;홍기형
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.414-416
    • /
    • 2000
  • VXML은 VoiceXML 포럼에서 제안한 대화형 음성 인터페이스 표준으로 음성 관련 소프트웨어 개발을 용이하게 하는 장점이 있다. 또한 음성을 통해 인터넷의 다양한 정보를 검색할 수 있어 급속히 성장하고 있고 웹의 사용과 편리한 인터페이스의 사용자 요구를 충족시킬 수 있다. 본 논문에서는 VXML 문서를 작성할 수 있는 편집기와 VXML 문서를 처리하여 사용자와 상호 작용 할 수 있는 대화형 음성 브라우저의 설계와 구현에 대해 소개한다.

  • PDF

Speech Interface with Echo Canceller and Barge- In Functionality for Telematic System (텔레매틱스 시스템을 위한 반향제거 및 Barge-In 기능을 갖는 음성인터페이스)

  • Kim, Jun;Bae, Keun-Sung
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.5
    • /
    • pp.483-490
    • /
    • 2009
  • In this paper, we develop a speech interface that has acoustic echo cancelling and barge-in functionalities in the car environment. In the echo canceller, DT (Double-Talk) detection algorithm using the correlation coefficients between reference and desired signals can make DT detection errors often in the background noise. We reduce the DT detection errors by using the average power of noise and echo estimated from the input signal. In addition, to make it possible for drivers to give speech command to the system by interrupting the speaker output, barge-in functionality is implemented with the combination of DT detection and appropriate gain control of the speaker output. Through the computer simulation with the assumed car environment and experiment in the real laboratory environment, implemented speech interface has shown good performance in removing acoustic echo signals in the noisy environment with proper operation of barge-in functionality.

Voice Driven Sound Sketch for Animation Authoring Tools (애니메이션 저작도구를 위한 음성 기반 음향 스케치)

  • Kwon, Soon-Il
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.4
    • /
    • pp.1-9
    • /
    • 2010
  • Authoring tools for sketching the motion of characters to be animated have been studied. However the natural interface for sound editing has not been sufficiently studied. In this paper, I present a novel method that sound sample is selected by speaking sound-imitation words(onomatopoeia). Experiment with the method based on statistical models, which is generally used for pattern recognition, showed up to 97% in the accuracy of recognition. In addition, to address the difficulty of data collection for newly enrolled sound samples, the GLR Test based on only one sample of each sound-imitation word showed almost the same accuracy as the previous method.

Development of a multimodal interface for mobile phones (휴대폰용 멀티모달 인터페이스 개발 - 키패드, 모션, 음성인식을 결합한 멀티모달 인터페이스)

  • Kim, Won-Woo
    • 한국HCI학회:학술대회논문집
    • /
    • 2008.02a
    • /
    • pp.559-563
    • /
    • 2008
  • The purpose of this paper is to introduce a multimodal interface for mobile phones and to verify its feasibility. The multimodal interface integrates multiple input devices together including speech, keypad and motion. It can enhance the late and time for speech recognition, and shorten the menu depth.

  • PDF

Virtual Object Generation Technique Using Multimodal Interface With Speech and Hand Gesture (음성 및 손동작 결합 인터페이스를 통한 가상객체의 생성)

  • Kim, Changseob;Nam, Hyeongil;Park, Jong-Il
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.147-149
    • /
    • 2019
  • 가상현실 기술의 발전으로 보다 많은 사람이 가상현실 콘텐츠를 즐길 수 있게 되었다. PC나 스마트폰과 같은 이전의 콘텐츠 플랫폼과 달리 가상현실에서는 3차원 정보를 전달할 수 있는 인터페이스가 요구된다. 2차원에서 3차원으로의 변화는 보다 높은 자유도를 가지는 반면, 사용자는 새로운 인터페이스에 적응해야 하는 불편함 또한 존재한다. 이러한 불편함을 해소하기 위하여 본 논문에서는 가상현실상에서 음성과 손동작을 결합한 인터페이스를 제안한다. 제안하는 인터페이스는 음성과 손동작은 현실 세계에서의 의사소통을 모방하여 구현하였다. 현실 세계의 의사소통을 모방하였기 때문에 사용자는 추가적인 학습이 없이 가상현실 플랫폼에 보다 쉽게 적응할 수 있다. 또한, 본 논문에서는 가상객체를 생성하는 예제를 통하여 기존의 3차원 입력장치를 대신할 수 있음을 보인다.

  • PDF

Korean Pause Prediction Model based on Dialogue Context (대화 맥락에 기반한 한국어 휴지 예측 모델)

  • Joung Lee;Jeongho Na;Jeongbeom Jeong;Maengsik Choi;Chunghee Lee;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.404-408
    • /
    • 2023
  • 음성 사용자 인터페이스(Voice User Interface)에 대한 수요가 증가함에 따라 음성 합성(Speech Synthesis) 시스템에서 자연스러운 음성 발화를 모방하기 위해 적절한 위치에 휴지를 삽입하는 것이 주된 과업으로 자리잡았다. 대화의 연속성을 고려했을 때, 자연스러운 음성 기반 인터페이스를 구성하기 위해서는 대화의 맥락을 이해하고 적절한 위치에 휴지를 삽입하는 것이 필수적이다. 이에 따라 본 연구는 대화 맥락에 기반하여 적절한 위치에 휴지를 삽입하는 Long-Input Transformer 기반 휴지 예측 모델을 제안하고 한국어 대화 데이터셋에서 검증한 결과를 보인다.

  • PDF

Implementation of the Multi-Channel Speech Recognition System for the Telephone Speech (전화음성인식을 위한 멀티채널 음성인식 시스템 구현)

  • Yi Siong-Hun;Suh Youngjoo;Kang Dong-Gyu
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.179-182
    • /
    • 2000
  • 본 논문은 전화음성 서비스 시스템의 핵심 기술인 멀티채널 음성인식 시스템의 구현에 대해서 기술하고자 한다. 구현한 시스템은 전화망 인터페이스 모듈, 음성입력 모듈, 음성인식 모듈, 및 서비스 제어모듈로 구성되어 있다. 전화망 인터페이스 모듈은 전화망을 이용한 교환기와의 호 처리 및 이벤트 처리를 담당하며, 전화망 접속카드와 밀접한 관계를 가지고 있다. 음성입력 및 인식 모들은 호 접속이 이루어진 채널로부터 음성을 입력받아 단어인식 기능을 수행하는 부분으로서 멀티 채널을 수용할 수 있는 구조로 설계되어 있다. 음성인식 모델은 문맥 종속형 CHMM 모델이며, 각각의 HMM 모델은 3-state, skip path 로 구성되어 있다. 음성인식 모듈내의 함수들은 모두 re-entrant 하도록 구성함으로써 멀티 채별이 가능하며, 각각의 채널은 모두 독립적인 메모리 공간에서 동작하도록 되어있다. 이와 같은 멀티채널 전화음성인식 시스템은 Dialogic보드를 이용하여 Windows NT에서 동작하도록 구현하였다. 실험결과, 구현된 시스템은 실시간으로 상용서비스가 가능한 인식율을 보였으며 원활한 멀티채널 지원이 가능하였다.

  • PDF

A Full Body Gumdo Game with an Intelligent Cyber Fencer using Multi-modal(3D Vision and Speech) Interface (멀티모달 인터페이스(3차원 시각과 음성 )를 이용한 지능적 가상검객과의 전신 검도게임)

  • 윤정원;김세환;류제하;우운택
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.9 no.4
    • /
    • pp.420-430
    • /
    • 2003
  • This paper presents an immersive multimodal Gumdo simulation game that allows a user to experience the whole body interaction with an intelligent cyber fencer. The proposed system consists of three modules: (i) a nondistracting multimodal interface with 3D vision and speech (ii) an intelligent cyber fencer and (iii) an immersive feedback by a big screen and sound. First, the multimodal Interface with 3D vision and speech allows a user to move around and to shout without distracting the user. Second, an intelligent cyber fencer provides the user with intelligent interactions by perception and reaction modules that are created by the analysis of real Gumdo game. Finally, an immersive audio-visual feedback by a big screen and sound effects helps a user experience an immersive interaction. The proposed system thus provides the user with an immersive Gumdo experience with the whole body movement. The suggested system can be applied to various applications such as education, exercise, art performance, etc.

A Study on Voice User Interface for Domestic Appliance (가전제품의 VUI 가이드라인에 대한 연구)

  • Chae, Haeng-Suk;Hong, Ji-Young;Lee, Ju-Hwan;Jeon, Myoung-Hoon;Kim, Min-Sun;Heo, U-Beom;Ahn, Jeong-Hee;Han, Kwang-Hee
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02b
    • /
    • pp.185-192
    • /
    • 2007
  • 음성 사용자 인터페이스(Voice User Interface, 이하 VUI) 는 음성을 매개로 일어나는 인간과 기계 간 인터페이스를 뜻한다. 음성 인식율의 향상과 음성 재생 장치의 발달에 힘입어 최근 들어 휴대폰과 카 네비게이션 시스템에 주로 적용되고 있다. 최근 이러한 경향은 A/V 시스템 등 가전제품(Domestic Appliance) 에도 확대되고 있는데 본 연구에서는 사용자와 필수적이고 빈번한 상호작용이 일어나는 백색 가전을 대상으로 사용자를 만족시키는 음성 인터페이스의 주요 속성 중 음성 생성(Speech Generation)과 관련된 음성 표현을 중점 연구하였다. 연구방법으로 먼저 주부들이 느끼는 가전에서의 문제점과 VUI 로서 해결가능성에 대하여 F.G.I. 를 통하여 조사하여 주요 이슈를 도출하고, 대표적 백색 가전인 에어컨, 세탁기, 김치냉장고, 냉장고, 식기세척기, 오븐레인지 등 6개 제품에 대하여 음성의 물리적 특성, 내용적 특성, 기능에 따른 배치에 대하여 조건에 따라 다양한 프로토타입을 제작한 후 실제 환경과 유사한 실험실 상황에서 사용자의 선호도, 적합도 및 수행을 측정하였다. 연구 결과 각 이슈에 따라 가전제품에 적합한 VUI 가이드라인 특성을 찾아내었다.

  • PDF

A study of new interface system for the disabled and old people who do not well using electronic equipment (전자기기 사용이 불편한 장애인이나 노인들을 위한 새로운 인터페이스에 대한 연구)

  • Chung, Sung-Boo;Kim, Joo-Woong
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.16 no.12
    • /
    • pp.2595-2600
    • /
    • 2012
  • In this study, we propose the new interface system for the disabled and old people who do not well using electronic equipment that is used physical switch interface system. The proposed new interface system is consisted of speech and motion recognition system. Speech recognition system is mike in the headset, and motion recognition system is 3-axis accelerometer in the headset. In order to verify the usefulness of the proposed system, we make an experiment on new interface.