• 제목/요약/키워드: Voice-Based Interface

검색결과 130건 처리시간 0.022초

HMM을 기반으로 한 자율이동로봇의 음성명령 인식시스템의 개발 (Development of Autonomous Mobile Robot with Speech Teaching Command Recognition System Based on Hidden Markov Model)

  • 조현수;박민규;이현정;이민철
    • 제어로봇시스템학회논문지
    • /
    • 제13권8호
    • /
    • pp.726-734
    • /
    • 2007
  • Generally, a mobile robot is moved by original input programs. However, it is very hard for a non-expert to change the program generating the moving path of a mobile robot, because he doesn't know almost the teaching command and operating method for driving the robot. Therefore, the teaching method with speech command for a handicapped person without hands or a non-expert without an expert knowledge to generate the path is required gradually. In this study, for easily teaching the moving path of the autonomous mobile robot, the autonomous mobile robot with the function of speech recognition is developed. The use of human voice as the teaching method provides more convenient user-interface for mobile robot. To implement the teaching function, the designed robot system is composed of three separated control modules, which are speech preprocessing module, DC servo motor control module, and main control module. In this study, we design and implement a speaker dependent isolated word recognition system for creating moving path of an autonomous mobile robot in the unknown environment. The system uses word-level Hidden Markov Models(HMM) for designated command vocabularies to control a mobile robot, and it has postprocessing by neural network according to the condition based on confidence score. As the spectral analysis method, we use a filter-bank analysis model to extract of features of the voice. The proposed word recognition system is tested using 33 Korean words for control of the mobile robot navigation, and we also evaluate the performance of navigation of a mobile robot using only voice command.

Mobile ATM: A Generic and flexible network infrastructure for 3G mobile services

  • Jun Li;Roy Yates;Dipankar Raychaudhuri
    • Journal of Communications and Networks
    • /
    • 제2권1호
    • /
    • pp.35-45
    • /
    • 2000
  • this paper presents the concept of "mobile ATM', a proposal for third-generation (3G) mobile communication network infrastructure capable of supporting flexible evolution of radio technologies from today's cellular and data services towards future wireless multimedia services. Mobile ATM provides generic mobility management and QoS-based transport capabilities suitable for integration of multiple radio access technologies including cellular voice. wireless data, and future broadband wireless services. The architecture of a mobile ATM network is outlined in terms of the newly-defined "W-UNI" interface at the radio link and "M-UNI"and "M-UNI" interface which supports unified access for WATM and non-ATM mobile terminals through corresponding interworking functions (IWF) is explained. leading to an understanding of how different radio access technologies are supported by the same ATM-based core network infrastructure. Generic mechanisms for handoff and location management within the core mobile network are discussed. and related protocol extensions over the "W-UNI" and "M-UNI/NNI"interfaces are proposed. the issue of "crossover switch (COS)" selection in mobile ATM is considered, and a unified handoff signaling syntax which supports flexibility in COS selection is described. Typical signaling sequences for call connection and handoff using the proposed protocols are outlined. Experimental results form a proof-of-concept mobile ATM network prototype are presented in conclusion.

  • PDF

에이전트에 기반한 탈놀이 안내 시스템의 설계 및 구현 (Design and Implementation of an Agent-Based Guidance System for Mask Dances)

  • 강오한
    • 한국산업정보학회논문지
    • /
    • 제7권2호
    • /
    • pp.40-45
    • /
    • 2002
  • 본 논문에서는 웹을 통하여 탈놀이에 관한 멀티미디어 정보를 제공하는 에이전트 기반의 탈놀이안내 시스템을 설계하고 구현한다. 사용자가 요구사항을 입력하면 클라이언트는 서버에게 이를 전송하고, 서버는 입력된 조건을 만족하는 탈놀이의 동영상 및 안내음성을 웹을 통하여 클라이언트에게 전송하여 상영한다. 본 논문에서는 에이전트 기반의 안내 시스템을 개발하기 위하여 인터페이스 에이전트, 사용자 모델링 에이전트, 중재 에이전트, 자료관리 에이전트를 설계하고 구현하였다. 또한 개발한 탈놀이 안내 시스템은 멀티미디어 데이터를 생성하는 기본기능 외에도 키워드를 이용한 검색 학습 등의 다양한 기능을 제공한다.

  • PDF

인터넷기반 협동학습을 위한 통합브라우저의 설계 및 구현 (Design and Implementation of an Integrated Browser to Support Internet-Based Collaborative Learning)

  • 송태옥;안성훈;김태영
    • 컴퓨터교육학회논문지
    • /
    • 제3권1호
    • /
    • pp.23-30
    • /
    • 2000
  • 오늘날 가상학습공동체에서 이루어지는 협동학습의 교육적 가치와 활용은 활발히 논의되고 있다. 인터넷 기반 협동학습이 성공적으로 이루어지기 위해서는 높은 수준의 상호작용 도구가 필수적이다. 본 연구에서는 기존의 네트웍 클라이언트들(News, FTP, HTTP, SMTP, 음성 문자 채팅)의 불편한 인터페이스를 개선하였으며, 이들을 통합환경에서 이용할 수 있도록 통합브라우저를 설계 구현하였다. 그리하여 인터넷 기반 협동학습과 면대면 협동학습 사이의 학습환경의 차이를 줄이고 학습효과를 높이고자 하였다.

  • PDF

ISDN용 전화가입자 - 망 간 접속에 관한 연구 제 2 부 : ISDN용 가입자 단말장치-Digital Telethone-에 관한 연구 (A Study on the ISDN Telephone User-Network Interface Part2: A Study on the ISDN User Terminal; Digital Telephone)

  • 옥승수;김선형;김영철;조규섭;박병철
    • 한국통신학회논문지
    • /
    • 제12권1호
    • /
    • pp.71-81
    • /
    • 1987
  • ISDN의 효율적 활용을 위해서는 다양한 가입자 서어비스를 제공할 수 있는 terminal의 개발이 선결되어야 한다. 본 논문의 ISDN가입자-망 간 접속에 관한 2편의 논문중 제2부로서 ISDN가입자 단말장치의 일반적 관련요소에 대한 연구를 수행하였으며 ISDN이 제공할 수 있는 서어비스 중 가장 간단한 예로 전화 서어비스를 위한 stimulus mode type의 digital telephone을 설계, 제작하여 그 성능을 고찰하여 보았다. 본 digital telephone은 ECM(Echo Cancellation Method)방식을 사용하여 network에 접속되며 user-network간 신호방식으로 CCITT의 I.440-441에서 권고하는 LAPD Protocol을 채택하였고 소규모 ISDN교환 emulator와의 연동을 통하여 관련된 S/W 및 H/W개발의 타당성을 검증하였다. 또한 digital telephone으로서의 기본 기능인 음성의 디지틀화, man-machine interface등이 실현되었다.

  • PDF

UTRAN Iub 인터폐이스에서 QoS 기반의 AAL2/ATM 다중화 전송방안 (QoS Based AAL2/ATM Multiplexing Schemes in the UTRAN Iub Interface)

  • 정창용;정조운;황호영;성단근;정수성;방만원
    • 한국통신학회논문지
    • /
    • 제28권6A호
    • /
    • pp.386-396
    • /
    • 2003
  • 최근에 이동통신 시스템이 3세대로 진화하면서 음성 위주의 서비스에서 점차 인터넷 서비스 같은 여러 다양한 서비스들을 지원하게 되었다. 그리고 급증하는 사용자들을 수용하기 위해 무선 가입자망의 Iub 인터페이스에서AAL2 다중화 기술을 도입하여 한정된 링크의 효율을 높이고 있다. 그러나 무선 자원의 부족과 지원되는 다양한 서비스들의 요구조건이 다르기 때문에 무선 가입자망에서는 제대로 각 서비스 별로 QoS를 만족시켜 주지 못하고있다. 기존의 AAL2/ATM의 다중화 시스템에서는 음성과 데이터의 다중화 효과와 실시간성, 비실시간성 서비스에 대해 QoS를 분석해 왔다. 본 논문에서는 여러 다양한 서비스들을 QoS 요구조건에 따라 분류하고 그 요구조건에 맞도록 통계적 다중화와 간단한 구조로 스케쥴하는 AAL2/ATM 다중화 전송방안을 제안한다. 모의실험 결과 각 서비스의 QoS 요구조건을 맞출 수 있어 기존의 방법보다 더 좋은 성능이 나타남을 확인하였다.

웨이블렛 기반 바크 코히어런스 함수를 이용한 VoIP 음질평가 (Speech Quality Measure for VoIP Using Wavelet Based Bark Coherence Function)

  • 박상욱;박영철;윤대희
    • 한국통신학회논문지
    • /
    • 제27권4A호
    • /
    • pp.310-315
    • /
    • 2002
  • 본 논문은 객관적 음질 평가법으로 웨이블렛 변환을 이용한 향상된 바크 코히어런스 함수 (Wavelet based Bark Coherence Function : WBCF)를 제안한다. 바크 코히어런스 함수 (Bark Coherence Function : BCF)는 심리 음향 영역에서 코히어런스 함수를 정의함으로서 음성 통신 시스템의 아날로그 부분에 의하여 발생할 수 있는 선형 왜곡에 강한 객관적 음질 평가법이다. VoIP (Voice over Internet Protocol)와 같은 패킷 기반의 음성 전달 시스템은 가변 지연등이 발생 될 수 있는데, 이것은 원음과 왜곡음의 정확한 시간축 정렬을 불가능하게 하여 기존의 객관적 음질 평가법의 성능을 저하시킨다. 제안된 WBCF는 고주파 영역에서 시간 분해능이 높으며, 저주파 영역에서 주파수 분해능이 높은 웨이블렛 변환을 사용한 후 BCF를 계산하여 VoIP 시스템에서의 객관적 음질을 평가한다. 주/객관적 음질 평가 실험을 통하여 WBCF가 ITU-T 권고안인 Perceptual Speech Quality Measure (PSQM)에 비하여 높은 성능을 가짐을 확인하였다.

ACELP/MP-MLQ에 기초한 dual-rate 음성 코더의 DSP 구현 (Implementation of the ACELP/MPMLQ-Based Dual-Rate Voice Coder Using DSP)

  • 이재식;손용기;전일;장태규;민병기
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.51-54
    • /
    • 2000
  • This paper describes the fixed-point DSP implementation of a CELP(code-excited linear prediction)-based speech coder. The effective realization methodologies to maximize the utilization of the DSP's architectural features, specifically Parallel movement and pipelining are also presented together with the implementation results targeted for the ITU-T standard G.723.1 using Motorola DSP56309. The operation of the implemented speech coder is verified using the test vectors offered by the standard as well as using the peripheral interface circuits designed for the coder's real-time operation.

  • PDF

ETRI 방송뉴스음성인식시스템 소개 (Introduction of ETRI Broadcast News Speech Recognition System)

  • 박준
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 춘계 학술대회 발표논문집
    • /
    • pp.89-93
    • /
    • 2006
  • This paper presents ETRI broadcast news speech recognition system. There are two major issues on the broadcast news speech recognition: 1) real-time processing and 2) out-of-vocabulary handling. For real-time processing, we devised the dual decoder architecture. The input speech signal is segmented based on the long-pause between utterances, and each decoder processes the speech segment alternatively. One decoder can start to recognize the current speech segment without waiting for the other decoder to recognize the previous speech segment completely. Thus, the processing delay is not accumulated. For out-of-vocabulary handling, we updated both the vocabulary and the language model, based on the recent news articles on the internet. By updating the language model as well as the vocabulary, we can improve the performance up to 17.2% ERR.

  • PDF

Design and Implementation of Procedural Self-Instructional Contents and Application on Smart Glasses

  • Yoon, Hyoseok;Kim, Seong Beom;Kim, Nahyun
    • Journal of Multimedia Information System
    • /
    • 제8권4호
    • /
    • pp.243-250
    • /
    • 2021
  • Instructional contents are used to demonstrate a technical process to teach and walkthrough certain procedures to carry out a task. This type of informational content is widely used for teaching and lectures in form of tutorial videos and training videos. Since there are questions and uncertainties for what could be the killer application for the novel wearables, we propose a self-instruction training application on a smart glass to utilize already-available instruction videos as well as public open data in creative ways. We design and implement a prototype application to help users train by wearing smart glasses specifically designed for two concrete and hand-constrained use cases where the user's hands need to be free to operate. To increase the efficiency and feasibility of the self-instruction training, we contribute to the development of a wearable killer application by integrating a voice-based user interface using speech recognizer, public open data APIs, and timestamp-based procedural content navigation structure into our proof-of-concept application.