• 제목/요약/키워드: Voice Recognition Interface

검색결과 99건 처리시간 0.029초

애니메이션 저작도구를 위한 음성 기반 음향 스케치 (Voice Driven Sound Sketch for Animation Authoring Tools)

  • 권순일
    • 한국콘텐츠학회논문지
    • /
    • 제10권4호
    • /
    • pp.1-9
    • /
    • 2010
  • 애니메이션 캐릭터의 동작을 만들어내기 위해 펜으로 스케치하는 형식의 인터페이스를 이용하는 저작 도구들이 연구되어 왔지만, 아직까지 음향적인 요소에 있어서 직관적인 인터페이스를 사용하여 만들어내는 방법은 연구되지 않았다. 본 논문에서는 사용자가 음향과 대응되는 의성어의 발성을 통하여 표현하면 이에 대응되는 음향샘플이 선택되어 삽입되는 방법을 제안하고자 한다. 일반적으로 사용되는 통계적 모델을 기반으로 하는 패턴인식 방법을 이용하여 의성어 발성만으로 대응되는 음향샘플을 어느 정도 인식할 수 있는지를 실험해본 결과 의성어의 음성샘플을 이용한 경우 최대 97%의 인식률을 얻을 수 있었다. 또한 새로운 음향샘플 등록 시에 발생하는 음성데이터 수집의 어려움을 극복하기 위하여 음성모델을 만드는 대신에 의성어의 음성샘플 하나만 사용하는 GLR Test를 활용해보니 기존의 방법과 거의 대등한 인식률을 실험적으로 확인할 수 있었다.

고차 미분에너지 기반 노인 음성에서의 음성 구간 검출 알고리즘 연구 (Development of Voice Activity Detection Algorithm for Elderly Voice based on the Higher Order Differential Energy Operator)

  • 이지연
    • 디지털융복합연구
    • /
    • 제14권11호
    • /
    • pp.249-255
    • /
    • 2016
  • 노인 음성은 연령에 따른 호흡, 발성, 공명 등의 생리적 변화에 의하여 다량의 잡음이 발생된다. 따라서 노인 음성으로 음성인식 및 합성, 분석 소프트웨어등과 같은 융복합 헬스케어 기기를 동작시키고자 할 때, 성능을 저하시키는 결과를 야기한다. 그러므로 노인 음성을 분석하여 그들의 목소리로 다양한 헬스케어 기기를 잘 운영할 수 있는 위한 연구 개발이 필요하다. 따라서 본 연구는 노인 음성 잡음을 고려하여 기존의 대칭 구조 고차 미분 에너지 함수를 이용하여 노인 음성에서의 음성 구간 검출 알고리즘을 연구하였으며, 자기상관함수와 AMDF 방법과 비교하여 노인 음성에서의 음성 구간 검출에 보다 우수한 성능을 가지는 것을 확인하였다. 본 논문에서 제시하는 음성 구간 검출 알고리즘은 노인을 위한 음성 인터페이스에 적용함으로써 노인들의 스마트 기기에의 접근성을 높이고, 더 나아가 노인들을 위한 융복합 웨어러블 디바이스 성능 개선 및 다양한 개발이 가능할 것으로 전망한다.

ETRI 방송뉴스음성인식시스템 소개 (Introduction of ETRI Broadcast News Speech Recognition System)

  • 박준
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 춘계 학술대회 발표논문집
    • /
    • pp.89-93
    • /
    • 2006
  • This paper presents ETRI broadcast news speech recognition system. There are two major issues on the broadcast news speech recognition: 1) real-time processing and 2) out-of-vocabulary handling. For real-time processing, we devised the dual decoder architecture. The input speech signal is segmented based on the long-pause between utterances, and each decoder processes the speech segment alternatively. One decoder can start to recognize the current speech segment without waiting for the other decoder to recognize the previous speech segment completely. Thus, the processing delay is not accumulated. For out-of-vocabulary handling, we updated both the vocabulary and the language model, based on the recent news articles on the internet. By updating the language model as well as the vocabulary, we can improve the performance up to 17.2% ERR.

  • PDF

Development of an Autonomous Mobile Robot with Functions of Speech Recognition and Collision Avoidance

  • Park, Min-Gyu;Lee, Min-Cheol
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2000년도 제15차 학술회의논문집
    • /
    • pp.475-475
    • /
    • 2000
  • This paper describes the construction of an autonomous mobile robot with functions of collision avoidance and speech recognition that is used for teaching path of the robot. The human voice as a teaching method provides more convenient user-interface to mobile robot. For safe navigation, the autonomous mobile robot needs abilities to recognize surrounding environment and avoid collision. We use u1trasonic sensors to obtain the distance from the mobile robot to the various obstacles. By navigation algorithm, the robot forecasts the possibility of collision with obstacles and modifies a path if it detects dangerous obstacles. For these functions, the robot system is composed of four separated control modules, which are a speech recognition module, a servo motor control module, an ultrasonic sensor module, and a main control module. These modules are integrated by CAN(controller area network) in order to provide real-time communication.

  • PDF

Study on Gesture and Voice-based Interaction in Perspective of a Presentation Support Tool

  • Ha, Sang-Ho;Park, So-Young;Hong, Hye-Soo;Kim, Nam-Hun
    • 대한인간공학회지
    • /
    • 제31권4호
    • /
    • pp.593-599
    • /
    • 2012
  • Objective: This study aims to implement a non-contact gesture-based interface for presentation purposes and to analyze the effect of the proposed interface as information transfer assisted device. Background: Recently, research on control device using gesture recognition or speech recognition is being conducted with rapid technological growth in UI/UX area and appearance of smart service products which requires a new human-machine interface. However, few quantitative researches on practical effects of the new interface type have been done relatively, while activities on system implementation are very popular. Method: The system presented in this study is implemented with KINECT$^{(R)}$ sensor offered by Microsoft Corporation. To investigate whether the proposed system is effective as a presentation support tool or not, we conduct experiments by giving several lectures to 40 participants in both a traditional lecture room(keyboard-based presentation control) and a non-contact gesture-based lecture room(KINECT-based presentation control), evaluating their interests and immersion based on contents of the lecture and lecturing methods, and analyzing their understanding about contents of the lecture. Result: We check that whether the gesture-based presentation system can play effective role as presentation supporting tools or not depending on the level of difficulty of contents using ANOVA. Conclusion: We check that a non-contact gesture-based interface is a meaningful tool as a sportive device when delivering easy and simple information. However, the effect can vary with the contents and the level of difficulty of information provided. Application: The results presented in this paper might help to design a new human-machine(computer) interface for communication support tools.

가상현실 기반의 인공지능 영어회화 시스템 (English Conversation System Using Artificial Intelligent of based on Virtual Reality)

  • 천은영
    • 한국융합학회논문지
    • /
    • 제10권11호
    • /
    • pp.55-61
    • /
    • 2019
  • 외국어 교육을 실현하기 위하여 기존의 다양한 교육 매체들이 제공되고 있지만, 교구 및 매체프로그램에 대한 비용이 많이 들고 실시간 대응력이 떨어지는 단점이 존재한다. 이 논문에서는 VR과 음성인식을 기반으로 한 인공지능 유형의 영어회화 시스템을 제안한다. 시스템 구축을 위해 Google CardBoard VR과 Google Speech API를 이용하며 가상현실 환경 제공 및 대화를 위한 인공지능 알고리즘을 개발하였다. 제안하는 음성인식 서버시스템에서는 사용자가 발화한 문장을 단어 단위로 분리해 데이터베이스에 저장된 데이터 단어들과 비교하여 확률적으로 가장 높은 것을 답으로 제공할 수 있으며 사용자들이 가상현실의 인물과 적절한 대화 및 응답이 가능하다. 대화가 제공되는 기능은 상황별 대화와 주제에 독립적이며, AI 비서와 나눈 대화 내용을 사용자 시스템에서 실시간 확인이 가능하도록 구현하였고 실험을 통하여 음성인식에 대한 응답비율을 확인하였다. 이 논문에서 제안하는 가상현실과 음성인식 기능을 접목한 시스템을 통하여 4차 산업혁명에 관련한 가상교육 콘텐츠 서비스 확장에 이바지할 것을 기대한다.

음성 사용자 인터페이스 내 피드백 유형이 사용자의 주관적 반응에 미치는 (Effects of Feedback Types on Users' Subjective Responses in a Voice User Interface)

  • 이다솜;이상원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.219-222
    • /
    • 2017
  • 본 연구에서는 음성 사용자 인터페이스가 적용된 시스템 사용 중 오류가 발생했을 때 제공되는 피드백이 시스템에 대한 사용자의 평가에 어떠한 영향을 줄 것인지에 대해 알아보았다. 피드백 유형(확인 피드백, 정교화 피드백)과 오류 유형(인식 실패, 수행 실패)을 독립 변수로 하고 사용자의 주관적 평가와 피드백 수용성, 향후 이용 의도를 종속 변수로 하는 요인설계 실험연구를 진행하였다. 이원 다변량 분산분석을 한 결과, 피드백 유형만 사용자의 주관적 평가와 피드백 수용성, 향후 이용의도에 영향을 미치는 것으로 나타났다. 또한, 피드백 수용성에 대해 피드백 유형과 오류 유형의 상호작용 효과가 발견되었다. 따라서 VUI 설계 시, 오류 정보를 자세히 알려주는 피드백을 제공하는 것을 고려해 볼 수 있을 것이다.

  • PDF

음성인식 기반 인터렉티브 미디어아트의 연구 - 소리-시각 인터렉티브 설치미술 "Water Music" 을 중심으로-

  • 이명학;강성일;김봉화;김규정
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.354-359
    • /
    • 2008
  • 소리-시각 인터랙티브 설치미술인 "Water Music" 은 관객의 음성에 따라서 변하는 물결의 파동을 표현한다. 음정인식 기반 인터페이스 기술을 이용하여 벽면에 비디오 프로젝션 된 시각적 물결이미지로 나타난다. 물결이미지는 동양화의 붓으로 그린 물결과 작은 원형의 입자들을 생성하여 표현된 영상으로 구성된다. 관객은 입김을 불어 넣거나 소리를 냄으로써 화면에서 연속적으로 생성되는 컴퓨터 프로그램 기반 물결의 움직임과 상호 반응할 수 있다. 이러한 공생적인 소리 시각 환경은 관객에게 생각으로 그리고 신체적으로 환영적 공간을 경험하도록 한다. 본 설치작업에서 관객과 상호 반응 할 수 있는 움직이는 물결을 생성하기 위하여 적용된 주요 프로그램은 Visual C++ and DirectX SDK이며, 풀 프레임 3D 렌더링 기술과 파티클 시스템이 사용되었다.

  • PDF

Design of Metaverse for Two-Way Video Conferencing Platform Based on Virtual Reality

  • Yoon, Dongeon;Oh, Amsuk
    • Journal of information and communication convergence engineering
    • /
    • 제20권3호
    • /
    • pp.189-194
    • /
    • 2022
  • As non-face-to-face activities have become commonplace, online video conferencing platforms have become popular collaboration tools. However, existing video conferencing platforms have a structure in which one side unilaterally exchanges information, potentially increase the fatigue of meeting participants. In this study, we designed a video conferencing platform utilizing virtual reality (VR), a metaverse technology, to enable various interactions. A virtual conferencing space and realistic VR video conferencing content authoring tool support system were designed using Meta's Oculus Quest 2 hardware, the Unity engine, and 3D Max software. With the Photon software development kit, voice recognition was designed to perform automatic text translation with the Watson application programming interface, allowing the online video conferencing participants to communicate smoothly even if using different languages. It is expected that the proposed video conferencing platform will enable conference participants to interact and improve their work efficiency.

모바일 환경에서 효과적인 사용자 인터페이스를 이용한 LMS에 관한 연구 (A Study on LMS Using Effective User Interface in Mobile Environment)

  • 김시정;조도은
    • 한국항행학회논문지
    • /
    • 제16권1호
    • /
    • pp.76-81
    • /
    • 2012
  • 다양한 모바일 기기의 보급 확산으로 u러닝 기반의 학습 관리 시스템의 연구가 활발히 진행 되고 있다. u-러닝 기반의 학습 관리 시스템은 콘텐츠 사용자의 접근 시간과 장소 그리고 다양한 접근 기기에 대한 제약이 없다는 점에서 매우 편리하다. 그러나 사용자에 대한 접근의 인증과 학습에 대한 집중 여부에 대한 판단이 매우 어렵다. 본 논문은 일반적인 사용자 이벤트 중심의 인터페이스가 아닌 음성과 사용자 안면 캡춰 인터페이스를 학습 관리 시스템에 적용 하였다. 사용자가 학습 관리 시스템에 접근 시 등록된 본인의 패스워드를 음성 입력하여 로그인 하고, 사용자가 콘텐츠를 통해 학습이 진행 되는 과정에서도 간단한 단어의 응답 발화를 통해 사용자의 학습 태도 및 학습 성과를 판단하게 한다. 제안된 학습 관리 시스템의 평가 결과 사용자의 학습 성취도와 집중도가 향상 되었으며 이에 따른 사용자의 비정상적인 학습태도에 대한 관리자의 모니터링을 가능 하게 했다.