• 제목/요약/키워드: Spatial Audio

검색결과 90건 처리시간 0.021초

A/V용 적외선 송수신장치를 이용한 디지털 비트스트림 무선 통신 시스템 (Digital Bit Stream Wireless Communication System Using an Infrared Spatial Coupler for Audio/Video Signals)

  • 예창희;이광순;최덕규;송규익
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(1)
    • /
    • pp.309-312
    • /
    • 2001
  • In this paper, we proposed a system for bit stream wireless communication using audio/video infrared transceiver and implemented a circuit. The proposed transmitter system converted bit stream into analog signal format that is similar to NTSC. Then the analog signal can be transmitted by infrared spatial coupler for A/V signals. And the receiver system recover the bit stream by inverse process of transmitter.

  • PDF

MPEG-I Immersive Audio 표준화 및 기술 동향 (Standardization of MPEG-I Immersive Audio and Related Technologies)

  • 장대영;강경옥;이용주;유재현;이태진
    • 전자통신동향분석
    • /
    • 제37권3호
    • /
    • pp.52-63
    • /
    • 2022
  • Immersive media, also known as spatial media, has become essential with the decrease in face-to-face activities in the COVID-19 pandemic era. Teleconference, metaverse, and digital twin have been developed with high expectations as immersive media services, and the demand for hyper-realistic media is increasing. Under these circumstances, MPEG-I Immersive Media is being standardized as a technologies of navigable virtual reality, which is expected to be launched in the first half of 2024, and the Audio Group is working to standardize the immersive audio technology. Following this trend, this article introduces the trend in MPEG-I immersive audio standardization. Further, it describes the features of the immersive audio rendering technology, focusing on the structure and function of the RM0 base technology, which was chosen after evaluating all the technologies proposed in the January 2022 "MPEG Audio Meeting."

A Study on Setting the Minimum and Maximum Distances for Distance Attenuation in MPEG-I Immersive Audio

  • Lee, Yong Ju;Yoo Jae-hyoun;Jang, Daeyoung;Kang, Kyeongok;Lee, Taejin
    • 방송공학회논문지
    • /
    • 제27권7호
    • /
    • pp.974-984
    • /
    • 2022
  • In this paper, we introduce the minimum and maximum distance setting methods used in geometric distance attenuation processing, which is one of spatial sound reproduction methods. In general, sound attenuation by distance is inversely proportional to distance, that is 1/r law, but when the relative distance between the user and the audio object is very short or long, exceptional processing might be performed by setting the minimum distance or the maximum distance. While MPEG-I Immersive Audio's RM0 uses fixed values for the minimum and maximum distances, this study proposes effective methods for setting the distances considering the signal gain of an audio object. Proposed methods were verified through simulation of the proposed methods and experiments using RM0 renderer.

MPEG-I AEP 기반 실시간 6 자유도 공간음향 렌더링 시스템 (A Real Time 6 DoF Spatial Audio Rendering System based on MPEG-I AEP)

  • 강경옥;유재현;장대영;이용주;이태진
    • 방송공학회논문지
    • /
    • 제28권2호
    • /
    • pp.213-229
    • /
    • 2023
  • 본 논문에서는 가상환경에 위치한 청취자의 움직임에 대응하여 실시간으로 6DoF 공간음향을 제공하는 공간음향 렌더링 시스템에 대해 소개한다. 본 시스템은 MPEG-I Immersive Audio CfP 대응을 위하여 MPEG-I AEP를 개발환경으로 사용하여 구현되었으며 인코더와, 디코더를 포함하는 렌더러로 구성된다. 인코더는 인코더 입력 포맷(EIF) 파일에 포함된 가상공간 장면의 공간적 오디오 파라미터와, SOFA 파일로 제공되는 음원의 지향성 정보 등의 메타데이터를 오프라인으로 부호화하여 비트스트림으로 전달하는 역할을 하며, 렌더러는 전달된 비트스트림을 수신하여 청취자의 위치에 따라 실시간으로 6DoF 공간음향 렌더링을 수행한다. 개발된 렌더링 시스템에 적용한 주요 공간음향 처리 기술로는 음원 효과 및 장애물 효과 처리 기술이 있으며, 그 외 시스템 동작에 필요한 기술로는 도플러 효과 및 음장효과 처리 기술 등이 있다. 개발된 시스템에 대한 성능평가 결과로서 자체 주관평가 결과를 소개한다.

Towards Low Complexity Model for Audio Event Detection

  • Saleem, Muhammad;Shah, Syed Muhammad Shehram;Saba, Erum;Pirzada, Nasrullah;Ahmed, Masood
    • International Journal of Computer Science & Network Security
    • /
    • 제22권9호
    • /
    • pp.175-182
    • /
    • 2022
  • In our daily life, we come across different types of information, for example in the format of multimedia and text. We all need different types of information for our common routines as watching/reading the news, listening to the radio, and watching different types of videos. However, sometimes we could run into problems when a certain type of information is required. For example, someone is listening to the radio and wants to listen to jazz, and unfortunately, all the radio channels play pop music mixed with advertisements. The listener gets stuck with pop music and gives up searching for jazz. So, the above example can be solved with an automatic audio classification system. Deep Learning (DL) models could make human life easy by using audio classifications, but it is expensive and difficult to deploy such models at edge devices like nano BLE sense raspberry pi, because these models require huge computational power like graphics processing unit (G.P.U), to solve the problem, we proposed DL model. In our proposed work, we had gone for a low complexity model for Audio Event Detection (AED), we extracted Mel-spectrograms of dimension 128×431×1 from audio signals and applied normalization. A total of 3 data augmentation methods were applied as follows: frequency masking, time masking, and mixup. In addition, we designed Convolutional Neural Network (CNN) with spatial dropout, batch normalization, and separable 2D inspired by VGGnet [1]. In addition, we reduced the model size by using model quantization of float16 to the trained model. Experiments were conducted on the updated dataset provided by the Detection and Classification of Acoustic Events and Scenes (DCASE) 2020 challenge. We confirm that our model achieved a val_loss of 0.33 and an accuracy of 90.34% within the 132.50KB model size.

스피커 배열을 이용한 개인용 모니터와 TV의 오디오 시스템 (Personal Monitor & TV Audio System by Using Loudspeaker Array)

  • 이찬희;장지호;박진영;김양한
    • 한국소음진동공학회논문집
    • /
    • 제18권7호
    • /
    • pp.701-710
    • /
    • 2008
  • Including a TV set and a monitor, personal audio system is raising a great interest. In this study, we applied a method to make a good bright zone around the user and dark zone to other region by maximizing the ratio of sound energy between the bright and dark zone. It has been well known as acoustic contrast control. We have attempted to use a line loudspeaker array system to localize the sound in our listening zone. It depends on the size of the zone and array parameters, for example, array size, loudspeaker unit spacing, wave length of sound. We have considered these parameters as spatial variables and studied the effects. And we have found that each spatial variable has its own characteristic and shows very different effect. Genetic algorithms are introduced to find out the optimum value of spatial variables. As a result, we can improve the result of the acoustic contrast control by optimum value of spatial variables.

공간감 인자로서의 고주파 대역 포락선 양이 시간차의 유효성 (Salience of Envelope Interaural Time Difference of High Frequency as Spatial Feature)

  • 서정훈;전상배;성굉모
    • 한국음향학회지
    • /
    • 제29권6호
    • /
    • pp.381-387
    • /
    • 2010
  • 다채널 오디오 코딩 시스템을 평가함에 있어서 음색 요소뿐만 아니라 공간감 요소 역시 큰 중요성을 갖는다. 이러한 이유로 양이 시간차 왜곡 (Interaural Time Difference Distortion, ITDDist), 양이 크기차 왜곡 (Interaural Level Difference Distortion, ILDDist), 양이 상관관계 왜곡 (Interaural Cross Correlation Distortion, IACCDist)과 같은 공간감 요소를 추가하여 기존의 음질 객관 평가 권고안인 ITU-R Rec. BS. 1387-1을 다채널 오디오 시스템에 적용하기 위한 시도가 있었다. 이 다채널 오디오 시스템을 위한 확장 모델에서는 Duplex 이론에 따라, 양이 시간차 왜곡은 1.5kHz 이하의 저주파 영역에 대해서만 계산되었으며, 양이 크기차 왜곡은 2.5kHz 이상의 고주파 영역에 대해서만 계산되었다. 하지만 고주파 영역에 있어서 포락선의 양이 시간차는 공간감 인지에 있어서, 특히 음상 정위에 있어서 중요한 역할을 한다. 이러한 고주파 영역 포락선의 양이 시간차 공간감 인지에 미치는 영향을 정량적으로 분석하기 위해 해당 인자를 계산하는 방법이 본 논문에서 소개된다. 또한, 이렇게 계산된 고주파 영역 포락선의 양이 시간차는 다채널 오디오의 주관평가 결과와 높은 상관관계를 가짐을 확인한다.

An Efficient Representation Method for ICLD with Robustness to Spectral Distortion

  • Beack, Seung-Kwon;Seo, Jeong-Il;Kang, Kyung-Ok;Hanh, Min-Soo
    • ETRI Journal
    • /
    • 제27권3호
    • /
    • pp.330-333
    • /
    • 2005
  • The Inter-Channel Level Difference (ICLD) is a cue parameter to estimate spectral information in a binaural cue coding that has been recently in the spotlight as a multichannel audio signal compression technique. Even though the ICLD is an essential parameter, it is generally distorted by quantization. In this paper, a new modified ICLE representation method to minimize the quantization distortion is proposed by adopting a flexible determination of the reference channel and the unidirectional quantization. Our experimental result confirms that the proposed method improves the multichannel audio output quality even with the reduced bit-rate.

  • PDF

Acoustic Event Detection in Multichannel Audio Using Gated Recurrent Neural Networks with High-Resolution Spectral Features

  • Kim, Hyoung-Gook;Kim, Jin Young
    • ETRI Journal
    • /
    • 제39권6호
    • /
    • pp.832-840
    • /
    • 2017
  • Recently, deep recurrent neural networks have achieved great success in various machine learning tasks, and have also been applied for sound event detection. The detection of temporally overlapping sound events in realistic environments is much more challenging than in monophonic detection problems. In this paper, we present an approach to improve the accuracy of polyphonic sound event detection in multichannel audio based on gated recurrent neural networks in combination with auditory spectral features. In the proposed method, human hearing perception-based spatial and spectral-domain noise-reduced harmonic features are extracted from multichannel audio and used as high-resolution spectral inputs to train gated recurrent neural networks. This provides a fast and stable convergence rate compared to long short-term memory recurrent neural networks. Our evaluation reveals that the proposed method outperforms the conventional approaches.

DWT영역에서 LMS를 이용한 저 샘플링 비율 오디오 신호의 음질 향상 (Sound Enhancement of low Sample rate Audio Using LMS in DWT Domain)

  • 백수진;윤원중;박규식
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.54-60
    • /
    • 2004
  • 44.1 kHz 샘플링 비율의 표준 CD음질의 오디오 신호를 인터넷 상에서 전송 및 분배하기 위해서 네트워크 대역폭과 저장 공간의 제한점을 고려해야 한다. 이러한 제한은 오디오 신호의 샘플링 비율을 낮추거나 MP3와 같은 오디오 데이터 압축 기법을 이용하여 해결할 수 있지만, 공통적으로 고 주파수 (High frequency) 대역의 정보가 손실 된다는 문제가 발생한다. 이러한 고 주파수 손실은 결국 저 샘플링 비율의 오디오 신호를 생성하게 되며 표준 CD음질을 가지는 오디오 신호보다 제한된 저 주파수 대역만을 재생할 수 있게 된다. 일반적으로 오디오 신호의 고주파 성분은 위치정보와 명료도, 재생 환경 등에 대한 음의 풍부한 정보를 제공한다. 본 논문의 목적은 LMS 적응 필터링과 DWT 분석/합성을 이용하여 저 샘플링 비율을 가지는 오디오 신호로부터 고 주파수 대역의 정보를 효과적으로 추정하는 것이다. 제안된 알고리즘은 DWT 영역에서 LMS 적응 알고리즘을 이용하여 고 주파수 정보를 추정하고 DWT 합성을 이용하여 고 주파수 정보가 강화된 고음질의 오디오 신호를 재생한다. 제안된 알고리즘의 성능 평가를 위해 실제 음성신호와 음악 신호를 이용하여 컴퓨터 모의 실험과 청취 평가를 수행하여 기존 알고리즘과 비교하였으며, 실험 결과 제안된 알고리즘의 우수성을 확인하였다.