• 제목/요약/키워드: 3D audio

검색결과 210건 처리시간 0.02초

유효 잡음을 활용한 FTV 입체음향 개선방안 연구 (A Study on Immersive Audio Improvement of FTV using an effective noise)

  • 김종운;조현석;이윤배;여성대;김성권
    • 한국전자통신학회논문지
    • /
    • 제10권2호
    • /
    • pp.233-238
    • /
    • 2015
  • 본 논문에서는 FTV(Free-viewpoint TV) 서비스에서, 몰입도를 향상시킬 수 있는 유효 잡음 이용 입체 음향효과 방법을 제안한다. 농구장에서 초지향성 마이크 및 무선 마이크를 사용하여 선수와 심판의 연속적인 음향 정보를 획득함으로써 주파수 스펙트럼을 관찰하였으며, 스펙트럼을 분석하여 시청자가 Zoom-in을 할 경우, 유효 주파수 여부를 판단하였다. 따라서 FTV 서비스에서 시청자가 피사체를 향해 Zoom-in 시, 제거대상이었던 잡음을 활용할 필요가 있음을 제시하였다. 본 연구는 향후 FTV의 입체 음향 연구에 활용될 것으로 기대된다.

Digital Watermarking Using Psychoacoustic Model

  • Poomdaeng, S.;Toomnark, S.;Amornraksa, T.
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -2
    • /
    • pp.872-875
    • /
    • 2002
  • A digital watermarking technique applying psychoacoustic model for audio signal is proposed in this paper. In the watermarking scheme, the pseudo-random bit stream used as a watermark signal is embedded into the audio signal in both speech and music. The strength of the embedded signal is subject to the human auditory system in such a way that the disturbances on host audio signal are beyond the sensing of human ears. The experimental results show that the quality of the watermarked audio signal, in term of signal to noise ratio, can be improved up to 3.2 dB.

  • PDF

UHDTV를 위한 10.2 채널 기반 다채널 오디오 재현 기술 (Multichannel Audio Reproduction Technology based on 10.2ch for UHDTV)

  • 이태진;유재현;서정일;강경옥;김환우
    • 방송공학회논문지
    • /
    • 제17권5호
    • /
    • pp.827-837
    • /
    • 2012
  • 방송 환경이 점차 디지털로 발전해 나가면서, HDTV를 넘어서는 차세대 방송서비스에 관한 관심이 증대되고 있다. 차세대 방송 서비스는 2차원 영상 서비스에서 3차원 영상 서비스로, HD급 영상 서비스에서 UHD(Ultra High Definition)급 영상 시비스로, 5.1 채널 오디오 서비스에서 10 채널 이상의 다채널 오디오 서비스로 진화하여 고품질의 실감 방송 서비스를 제공하는 것을 목표로 하고 있다. 본 논문에서는 UHDTV 방송 서비스 환경에서 고품질의 오디오 서비스를 제공하기 위한 10.2 채널 기반의 다채널 오디오 재현 기술에 대해 설명한다. 10.2 채널 재현 시스템은 기존 5.1 채널 시스템을 기반으로 측면에 2개의 스피커를 추가하여 측면의 음상정위 성능을 향상시켰으며, 전면에 2개의 수직면 스피커와 후면에 1개의 천정 스피커를 추가하여 수평면 뿐 아니라 수직면에서의 음상정위가 가능하다. 10.2 채널 시스템에 대한 성능을 평가하기 위해 APM 모델을 활용한 객관적 음상정위 평가와 22.2 채널과 10.2 채널 재현시스템을 구축하여 청취자를 통한 실제 주관적 음상정위 평가를 수행하였다. 객관적, 주관적 음상정위 평가 결과 10.2 채널 시스템은 22.2 채널 시스템과 통계학적으로 동일한 음성정위 평가 결과를 보였고, 기존 5.1 채널 시스템 대비 우수한 음상정위 평가결과를 보여주었다.

Towards Low Complexity Model for Audio Event Detection

  • Saleem, Muhammad;Shah, Syed Muhammad Shehram;Saba, Erum;Pirzada, Nasrullah;Ahmed, Masood
    • International Journal of Computer Science & Network Security
    • /
    • 제22권9호
    • /
    • pp.175-182
    • /
    • 2022
  • In our daily life, we come across different types of information, for example in the format of multimedia and text. We all need different types of information for our common routines as watching/reading the news, listening to the radio, and watching different types of videos. However, sometimes we could run into problems when a certain type of information is required. For example, someone is listening to the radio and wants to listen to jazz, and unfortunately, all the radio channels play pop music mixed with advertisements. The listener gets stuck with pop music and gives up searching for jazz. So, the above example can be solved with an automatic audio classification system. Deep Learning (DL) models could make human life easy by using audio classifications, but it is expensive and difficult to deploy such models at edge devices like nano BLE sense raspberry pi, because these models require huge computational power like graphics processing unit (G.P.U), to solve the problem, we proposed DL model. In our proposed work, we had gone for a low complexity model for Audio Event Detection (AED), we extracted Mel-spectrograms of dimension 128×431×1 from audio signals and applied normalization. A total of 3 data augmentation methods were applied as follows: frequency masking, time masking, and mixup. In addition, we designed Convolutional Neural Network (CNN) with spatial dropout, batch normalization, and separable 2D inspired by VGGnet [1]. In addition, we reduced the model size by using model quantization of float16 to the trained model. Experiments were conducted on the updated dataset provided by the Detection and Classification of Acoustic Events and Scenes (DCASE) 2020 challenge. We confirm that our model achieved a val_loss of 0.33 and an accuracy of 90.34% within the 132.50KB model size.

2차원 바코드를 이용한 오디오 워터마킹 알고리즘 (A digital Audio Watermarking Algorithm using 2D Barcode)

  • 배경율
    • 지능정보연구
    • /
    • 제17권2호
    • /
    • pp.97-107
    • /
    • 2011
  • 본 논문에서는 2차원 바코드를 이용한 오디오 워터마킹 알고리즘을 제안하였다. 삽입되는 워터마크 정보로는 2차원 바코드인 QR 코드를 변형하여 이용하였다. 2차원 바코드가 1차원 바코드에 비하여 많은 정보를 표현할 수 있고, 코드자체가 에러 보정능력을 내재하고 있는 장점을 이용하여 워터마킹 알고리즘의 견고성을 높였다. 또한 부분적인 워터마크 정보의 손실에 대응하기 위하여 직교코드를 이용하여 삽입대역을 확산했으며, 삽입강도 0.7에서 50dB 이상의 우수한 품질을 확보할 수 있었다.

웹 기반의 가상현실 3D 국악 박물관 제작 (A Web-based 3D Virtual Reality Pavilion of Korean Traditional Music)

  • 최지애;심재선;김윤상
    • 디지털산업정보학회논문지
    • /
    • 제4권1호
    • /
    • pp.65-68
    • /
    • 2008
  • In this paper, a web-based 3D virtual reality (VR) pavillion of Korean Traditional Music was implemented. The VR pavillion is used for the virtual demonstration and experience of Korean Traditional Music, which provides the information as well as multimedia experience on eight instruments to users through internet. It provides eight web-pages and one an audio-visual classroom on the instruments.

A DNN-Based Personalized HRTF Estimation Method for 3D Immersive Audio

  • Son, Ji Su;Choi, Seung Ho
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제13권1호
    • /
    • pp.161-167
    • /
    • 2021
  • This paper proposes a new personalized HRTF estimation method which is based on a deep neural network (DNN) model and improved elevation reproduction using a notch filter. In the previous study, a DNN model was proposed that estimates the magnitude of HRTF by using anthropometric measurements [1]. However, since this method uses zero-phase without estimating the phase, it causes the internalization (i.e., the inside-the-head localization) of sound when listening the spatial sound. We devise a method to estimate both the magnitude and phase of HRTF based on the DNN model. Personalized HRIR was estimated using the anthropometric measurements including detailed data of the head, torso, shoulders and ears as inputs for the DNN model. After that, the estimated HRIR was filtered with an appropriate notch filter to improve elevation reproduction. In order to evaluate the performance, both of the objective and subjective evaluations are conducted. For the objective evaluation, the root mean square error (RMSE) and the log spectral distance (LSD) between the reference HRTF and the estimated HRTF are measured. For subjective evaluation, the MUSHRA test and preference test are conducted. As a result, the proposed method can make listeners experience more immersive audio than the previous methods.

MP3 저작권 보호를 위한 AOD 시스템의 설계 (Design of AOD System for MP3 Copyright Protection)

  • 김영준;김태윤
    • 정보처리학회논문지D
    • /
    • 제9D권2호
    • /
    • pp.323-328
    • /
    • 2002
  • 최근 초고속 통신망을 이용한 인터넷의 대중화와 더불어 인터넷을 기반으로 하는 전자상거래가 활발해지고 있다. 특히 인터넷을 통한 MP3 데이터 등의 멀티미디어 컨텐츠의 유통은 많은 연구의 대상이 되고 있다. 하지만 기존의 AOD(Audio On Demand) 시스템들은 실질적인 불법 복제방지와 저작권 보호에 미흡한 단점이 있다. 따라서 본 논문에서는 공개키 기반 구조(PKI: Public Key Infrastructure)에 기초하여 실질적인 불법복제방지와 저작권을 보호하는 AOD 시스템을 제안한다. 제안된 기법은 사용자의 공개키를 이용하여 MP3 데이터를 전송함으로써 전송 도중 제 3자로부터의 공격에 대응할 수 있고, 정당한 사용자 외에는 MP3 데이터를 사용하지 못하도록 함으로써 사용자와 판매자의 권리를 보장한다.

BcN용 미디어 프로세서형 단말(PMG)의 구현 및 성능시험 (Implementation and Performance Measurement of Personal Media Gateway for Applications over BcN Networks)

  • 장성환;양수경;차영철;최우석;손석배;김정준
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 한국정보통신설비학회 2005년도 하계학술대회
    • /
    • pp.329-332
    • /
    • 2005
  • In this paper, we describe implementation of personal media gateway (PMG) for applications over BcN networks. PMG is a TV based set-top terminal, which enables transmission of Full D1 high quality video and audio at the speed of maximum 2Mbps. It supports SIP protocol and QoS for the BcN networks. The hardware of the PMG consists of host module, audio/video codec processing module, DTMF module, and remote control I/O module. H.263 and MPEG4 software are implemented in DSP as codec for hi-directional communication and streaming, respectively. G.711 and Ogg-Vorbis are implemented as audio codec. We examined the quality of video using the Video Quality Test Equpment, which was developed by KT Convergence Lab. The experimental results show the video quality of MOS 4.1 and audio quality of MOS 4.3. We expect that PMG will be prospective business models, and create new customer value.

  • PDF