• 제목/요약/키워드: Audio-Visual Rendering

검색결과 10건 처리시간 0.022초

A 3D Audio-Visual Animated Agent for Expressive Conversational Question Answering

  • Martin, J.C.;Jacquemin, C.;Pointal, L.;Katz, B.
    • 한국정보컨버전스학회:학술대회논문집
    • /
    • 한국정보컨버전스학회 2008년도 International conference on information convergence
    • /
    • pp.53-56
    • /
    • 2008
  • This paper reports on the ACQA(Animated agent for Conversational Question Answering) project conducted at LIMSI. The aim is to design an expressive animated conversational agent(ACA) for conducting research along two main lines: 1/ perceptual experiments(eg perception of expressivity and 3D movements in both audio and visual channels): 2/ design of human-computer interfaces requiring head models at different resolutions and the integration of the talking head in virtual scenes. The target application of this expressive ACA is a real-time question and answer speech based system developed at LIMSI(RITEL). The architecture of the system is based on distributed modules exchanging messages through a network protocol. The main components of the system are: RITEL a question and answer system searching raw text, which is able to produce a text(the answer) and attitudinal information; this attitudinal information is then processed for delivering expressive tags; the text is converted into phoneme, viseme, and prosodic descriptions. Audio speech is generated by the LIMSI selection-concatenation text-to-speech engine. Visual speech is using MPEG4 keypoint-based animation, and is rendered in real-time by Virtual Choreographer (VirChor), a GPU-based 3D engine. Finally, visual and audio speech is played in a 3D audio and visual scene. The project also puts a lot of effort for realistic visual and audio 3D rendering. A new model of phoneme-dependant human radiation patterns is included in the speech synthesis system, so that the ACA can move in the virtual scene with realistic 3D visual and audio rendering.

  • PDF

가상환경의 인터랙티브 사운드를 위한 'EVE-SoundTM' 툴킷 ('EVE-SoundTM' Toolkit for Interactive Sound in Virtual Environment)

  • 남양희;성숙정
    • 정보처리학회논문지B
    • /
    • 제14B권4호
    • /
    • pp.273-280
    • /
    • 2007
  • 본 논문은 2D/3D 가상환경에서 실감 사운드의 실시간 합성을 위한 $EVE-Sound^{TM}$ 툴킷의 설계와 개발결과를 제시한다. $EVE-Sound^{TM}$는 사운드 효과 계산에 필요한 장면요소를 간추리는 전처리 도구와 실시간 렌더링 API들로 구성되며, 다중 모달리티의 실감 재현을 필요로 하는 가상현실, 게임 등의 각종 인터랙티브 콘텐츠에서 사용자에게 고급 그래픽 환경을 허용하면서 동시에 사운드의 실시간 재현을 가능하게 함을 목표로 하였다. 3차원 사운드 계산이 매우 복잡하기 때문에 기존의 사운드 API들이 간단한 사운드 효과와 재생을 제공하는 것과 달리, 복잡한 가상환경에서 3차원 사운드의 원리를 반영하되 그 렌더링을 실시간화하는 데 초점을 두었고, 이를 위해 새로운 장면 간략화 및 공간사운드 계산 방법이 제시되었다. 응용 사례 및 실험, 알고리즘 분석을 통해 제시된 툴킷의 활용성 및 향상된 실시간성을 확인하였다.

Real-time 3D Audio Downmixing System based on Sound Rendering for the Immersive Sound of Mobile Virtual Reality Applications

  • Hong, Dukki;Kwon, Hyuck-Joo;Kim, Cheong Ghil;Park, Woo-Chan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권12호
    • /
    • pp.5936-5954
    • /
    • 2018
  • Eight out of the top ten the largest technology companies in the world are involved in some way with the coming mobile VR revolution since Facebook acquired Oculus. This trend has allowed the technology related with mobile VR to achieve remarkable growth in both academic and industry. Therefore, the importance of reproducing the acoustic expression for users to experience more realistic is increasing because auditory cues can enhance the perception of the complicated surrounding environment without the visual system in VR. This paper presents a audio downmixing system for auralization based on hardware, a stage of sound rendering pipelines that can reproduce realiy-like sound but requires high computation costs. The proposed system is verified through an FPGA platform with the special focus on hardware architectural designs for low power and real-time. The results show that the proposed system on an FPGA can downmix maximum 5 sources in real-time rate (52 FPS), with 382 mW low power consumptions. Furthermore, the generated 3D sound with the proposed system was verified with satisfactory results of sound quality via the user evaluation.

음성인식 기반 인터렉티브 미디어아트의 연구 - 소리-시각 인터렉티브 설치미술 "Water Music" 을 중심으로-

  • 이명학;강성일;김봉화;김규정
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.354-359
    • /
    • 2008
  • 소리-시각 인터랙티브 설치미술인 "Water Music" 은 관객의 음성에 따라서 변하는 물결의 파동을 표현한다. 음정인식 기반 인터페이스 기술을 이용하여 벽면에 비디오 프로젝션 된 시각적 물결이미지로 나타난다. 물결이미지는 동양화의 붓으로 그린 물결과 작은 원형의 입자들을 생성하여 표현된 영상으로 구성된다. 관객은 입김을 불어 넣거나 소리를 냄으로써 화면에서 연속적으로 생성되는 컴퓨터 프로그램 기반 물결의 움직임과 상호 반응할 수 있다. 이러한 공생적인 소리 시각 환경은 관객에게 생각으로 그리고 신체적으로 환영적 공간을 경험하도록 한다. 본 설치작업에서 관객과 상호 반응 할 수 있는 움직이는 물결을 생성하기 위하여 적용된 주요 프로그램은 Visual C++ and DirectX SDK이며, 풀 프레임 3D 렌더링 기술과 파티클 시스템이 사용되었다.

  • PDF

Application of Virtual Studio Technology and Digital Human Monocular Motion Capture Technology -Based on <Beast Town> as an Example-

  • YuanZi Sang;KiHong Kim;JuneSok Lee;JiChu Tang;GaoHe Zhang;ZhengRan Liu;QianRu Liu;ShiJie Sun;YuTing Wang;KaiXing Wang
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제16권1호
    • /
    • pp.106-123
    • /
    • 2024
  • This article takes the talk show "Beast Town" as an example to introduce the overall technical solution, technical difficulties and countermeasures for the combination of cartoon virtual characters and virtual studio technology, providing reference and experience for the multi-scenario application of digital humans. Compared with the live broadcast that combines reality and reality, we have further upgraded our virtual production technology and digital human-driven technology, adopted industry-leading real-time virtual production technology and monocular camera driving technology, and launched a virtual cartoon character talk show - "Beast Town" to achieve real Perfectly combined with virtuality, it further enhances program immersion and audio-visual experience, and expands infinite boundaries for virtual manufacturing. In the talk show, motion capture shooting technology is used for final picture synthesis. The virtual scene needs to present dynamic effects, and at the same time realize the driving of the digital human and the movement with the push, pull and pan of the overall picture. This puts forward very high requirements for multi-party data synchronization, real-time driving of digital people, and synthetic picture rendering. We focus on issues such as virtual and real data docking and monocular camera motion capture effects. We combine camera outward tracking, multi-scene picture perspective, multi-machine rendering and other solutions to effectively solve picture linkage and rendering quality problems in a deeply immersive space environment. , presenting users with visual effects of linkage between digital people and live guests.

대화형 방송을 위한 3차원 오디오 방송단말 (A 3D Audio Broadcasting Terminal for Interactive Broadcasting Services)

  • 박기윤;이태진;강경옥;홍진우
    • 방송공학회논문지
    • /
    • 제10권1호
    • /
    • pp.22-30
    • /
    • 2005
  • 본 논문에서는 사용자 제어에 따라 3차원 오디오 장면을 재구성할 수 있는 대화형 오디오 방송단말에 관하여 기술한다. MPEG-4 AudioBIFS 규격에 따라 계층적으로 표현한 오디오 장면의 속성을 사용자 제어에 따라 갱신하고, 주어진 속성을 참조하여 오디오 데이터를 3차원 공간상에 재합성하는 방식을 취한다. 단말은 MPEG-4 Audio 최상위 노드와 몇몇 비디오 노드를 지원하며, 센서 노드와 라우트 요소를 이용하는 대신에 노드 유형에 따른 사용자 인터페이스를 미리 정의함으로써 필드 갱신 BIFS 명령어를 지원한다. 3차원 오디오 데이터를 재생하는 기능은 사용자의 입력에 대한 피드백을 풍부하게 하여 대화형 방송의 효과를 극대화하고, 사실감을 제고하는 데 중요한 역할을 담당한다. 본 단말에서는 3차원 오디오 기술을 이용하여 음상의 위치, 지향성, 모양, 잔향특성 등을 사용자가 제어할 수 있다. 본 논문에서는 가상 합주 프로그램 등의 서비스 예를 통해 대화형 방송단말의 서비스 모델을 제시한다.

가상현실 환경에서 기하학적 음향 기술 기반의 3차원 사운드 모델링 기술에 관한 연구 (A Study of 3D Sound Modeling based on Geometric Acoustics Techniques for Virtual Reality)

  • 김정길
    • 한국위성정보통신학회논문지
    • /
    • 제11권4호
    • /
    • pp.102-106
    • /
    • 2016
  • 스마트 폰의 대중화와 고속 무선 통신 기술의 도움으로 고품질 멀티미디어 콘텐츠가 모바일 기기에서 보편화되고 있다. 특히, Oculus Rift의 출시는 소비자 시장에서 가상현실 기술의 새로운 시대를 열고 있다. 또한 컴퓨터 게임을 보다 사실적 구동을 위한 3D 오디오 기술은 곧 차세대 모바일 기기에 적용될 것이며, 시각적인 것보다 더 광범위한 사실적 경험을 제공 할 것으로 예상된다. 따라서 이 논문에서는 가상현실 기반의 응용 프로그램에서 3D 사운드 모델링을 위한 개념, 알고리즘 및 시스템에 대하여 기술하고자 하며 특히 기하학적 음향 기술 기반의 알고리즘에 초점을 맞추었다. 이를 위하여 먼저, 사운드 전파를 모델링하기 위해 물리적 기반의 기하학적 알고리즘과 다중 채널 기술 중심으로 오디오 렌더링을 위한 중요한 설계 원칙 소개와 오디오 렌더링 파이프 라인을 씬 그래프 기반의 가상 현실 시스템 및 최신 하드웨어 구조 소개를 포함한다.

대화형 T-DMB 컨텐츠의 효율적인 전송을 위한 장면기술정보 최적화 기법 (An Optimization Technique of Scene Description for Effective Transmission of Interactive T-DMB Contents)

  • 이송록;정원식;유영재;차경애
    • 방송공학회논문지
    • /
    • 제11권3호
    • /
    • pp.363-378
    • /
    • 2006
  • 디지털멀티미디어방송(Digital Multimedia Broadcasting, DMB)은 고품질의 방송 영상 및 부가 데이터를 이동 중인 차량 내에서나 모바일폰, PDA 등과 같은 휴대형 단말에서 수신할 수 있는 이동 멀티미디어 방송 서비스이다. 미디어 및 상호작용 정보의 인코딩 규격으로는 MPEG-4 표준을 사용하며, 대화형 컨텐츠의 사용자 상호작용 등의 정보는 장면기술정보인 MPEG-4 BIFS(Binary Format for Scene)에 의해서 이루어진다. 사용자와의 상호작용이 풍부하고 장면 구성이 복잡한 컨텐츠일수록 BIFS 데이터가 전송되기 위해서 요구되는 비트율도 증가한다. 그러나 이동 단말에 고품질의 비디오 및 오디오 데이터를 전송하는 DMB 환경에서는 BIFS 스트림의 전송율은 매우 제한적이다. 한편 사용자 단말기에서 DMB 컨텐츠를 재생하려면 비디오, 오디오 등 미디어 객체들을 디코딩하기 전에 장면 구성 정보인 BIFS 스트림을 디코딩 및 파싱하여야 한다. 그러므로 MPEG-4의 높은 미디어 압축율에도 불구하고 제한된 대역폭과 장면 구성 정보 등 부가 데이터 전송 및 디코딩으로 인한 지연이 발생될 수 있다. 따라서 방송 컨텐츠의 특성 상 사용자의 임의 접근 시에도 재생될 컨텐츠의 BIFS 데이터를 파싱하여 대기 시간을 최소화하도록 초기 장면 구성 정보를 효율적으로 전송해야 한다. 본 연구에서는 지상파 DMB 대화형 컨텐츠의 장면기술정보인 BIFS 스트림을 저전송율 환경에 적응된 형태로 전달하기 위해서, 장면기술정보를 최적화하는 기법을 제안한다.

멀티캐스트 화상회의를 위한 3-D 음향시스템 설계 (Design of a Three Dimensional Audio System for Multicast Conferencing)

  • 김영오;고대식
    • 한국통신학회논문지
    • /
    • 제25권1B호
    • /
    • pp.71-76
    • /
    • 2000
  • 다수의 참여자가 존재하는 멀티미디어 화상회의 시스템에서, 참여자의 얼굴은 화상을 통하여 쉽게 구별할 수 있지만, 음성의 경우는 모든 참여자의 음성이 1차원적으로 처리되기 때문에 참여자의 구분이 어렵고 공간적인 실감을 느끼지 못한다. 본 논문에서는 HRTF(Head Realted Transfer Function: 머리전달 함수)와 거리감 재생 기법을 이용한 3-D 음향재현 시스템을 구현하고, 멀티캐스트 화상회의 시스템의 적절한 화자 배치를 연구분석하였다. 고도각과 수평각을 이용한 청취실험결과, 수평각이 고도각에 비하여 양호한 방향감 구별 인지도를 보였으며, 특히 4명의 참여자가 존재하는 화상회의 시스템의 경우 $10^{\circ}$, 90$^{\circ}$, 270$^{\circ}$, 350$^{\circ}$의 HRTF를 이용한 공간배치가 효율적인 것을 확인하였다. 끝으로 5인 이상의 참여자가 존재하는 경우와 현실감의 개선을 위하여 거리감이 이용될 수 있음을 제안한다.

  • PDF

Speech Interactive Agent on Car Navigation System Using Embedded ASR/DSR/TTS

  • Lee, Heung-Kyu;Kwon, Oh-Il;Ko, Han-Seok
    • 음성과학
    • /
    • 제11권2호
    • /
    • pp.181-192
    • /
    • 2004
  • This paper presents an efficient speech interactive agent rendering smooth car navigation and Telematics services, by employing embedded automatic speech recognition (ASR), distributed speech recognition (DSR) and text-to-speech (ITS) modules, all while enabling safe driving. A speech interactive agent is essentially a conversational tool providing command and control functions to drivers such' as enabling navigation task, audio/video manipulation, and E-commerce services through natural voice/response interactions between user and interface. While the benefits of automatic speech recognition and speech synthesizer have become well known, involved hardware resources are often limited and internal communication protocols are complex to achieve real time responses. As a result, performance degradation always exists in the embedded H/W system. To implement the speech interactive agent to accommodate the demands of user commands in real time, we propose to optimize the hardware dependent architectural codes for speed-up. In particular, we propose to provide a composite solution through memory reconfiguration and efficient arithmetic operation conversion, as well as invoking an effective out-of-vocabulary rejection algorithm, all made suitable for system operation under limited resources.

  • PDF