• 제목/요약/키워드: Audio Generation

검색결과 103건 처리시간 0.027초

차세대 디지털 TV 방송을 위한 오디오 규격 비교 분석 및 제언 (Audio Format Comparative Study and Suggestion for Next Generation DTV)

  • 이재홍
    • 한국음향학회지
    • /
    • 제30권6호
    • /
    • pp.337-343
    • /
    • 2011
  • 3D 디지털 시험 방송 개시와 함께, 다가오는 UHDTV 시대에 대비 한 차세대 디지털 방송 방식에 관한 연구가 활발히 진행되고 있다. 본 논문에서는 현행 사용 중이거나 연구되고 있는 주요 서라운드 오디오 규격을 비교 분석하고 차세대 디지털 방송용 오디오 규격을 제시한다. 현재 주목받고 있는 손실 및 비손실 압축 방식을 채용한 디지털 서라운드 오디오 규격인 Dolby True HD와 DTS HD MA (Master Audio) 규격과 함께 일본 NHK 연구소가 제안한 UHDTV용 22.2 채널 서라운드 규격에 대해 비교 검토한다. 이를 기초로 하여 우리나라의 주택 사정을 감안한 3D 서라운드 7.1 손실 압축 오디오 규격과 하이파이 오디오와의 호환성을 중시하는 2.0, 4.0 비손실 압축규격을 차세대 디지털 방송용 규격으로 제시한다. 이와 함께 개인별 HRTF (Head Related Transfer Function) 생성을 통하여 홀로그래픽 사운드에 근접하는 3차원 입체 음장 제공을 해줄 수 있는 바이노럴 (binaural) 헤드폰용 2 채널 오디오 데이터를 부음성 규격으로 별도로 전송 방안도 함께 제시한다. 각 전송 규격 별 소요 비트 레이트 율도 함께 산출하여 제시하였다.

오디오 Fingerprint를 이용한 음악인식 연구 동향 (Music Recognition Using Audio Fingerprint: A Survey)

  • 이동현;임민규;김지환
    • 말소리와 음성과학
    • /
    • 제4권1호
    • /
    • pp.77-87
    • /
    • 2012
  • Interest in music recognition has been growing dramatically after NHN and Daum released their mobile applications for music recognition in 2010. Methods in music recognition based on audio analysis fall into two categories: music recognition using audio fingerprint and Query-by-Singing/Humming (QBSH). While music recognition using audio fingerprint receives music as its input, QBSH involves taking a user-hummed melody. In this paper, research trends are described for music recognition using audio fingerprint, focusing on two methods: one based on fingerprint generation using energy difference between consecutive bands and the other based on hash key generation between peak points. Details presented in the representative papers of each method are introduced.

Research on Machine Learning Rules for Extracting Audio Sources in Noise

  • Kyoung-ah Kwon
    • International Journal of Advanced Culture Technology
    • /
    • 제12권3호
    • /
    • pp.206-212
    • /
    • 2024
  • This study presents five selection rules for training algorithms to extract audio sources from noise. The five rules are Dynamics, Roots, Tonal Balance, Tonal-Noisy Balance, and Stereo Width, and the suitability of each rule for sound extraction was determined by spectrogram analysis using various types of sample sources, such as environmental sounds, musical instruments, human voice, as well as white, brown, and pink noise with sine waves. The training area of the algorithm includes both melody and beat, and with these rules, the algorithm is able to analyze which specific audio sources are contained in the given noise and extract them. The results of this study are expected to improve the accuracy of the algorithm in audio source extraction and enable automated sound clip selection, which will provide a new methodology for sound processing and audio source generation using noise.

A Study on the Development for 3D Audio Generation Machine

  • Kim Sung-Eun;Kim Myong-Hee;Park Man-Gon
    • 한국멀티미디어학회논문지
    • /
    • 제8권6호
    • /
    • pp.807-813
    • /
    • 2005
  • The production and authoring of digital multimedia contents are most important fields in multimedia technology. Nowadays web-based technology and related multimedia software technology are growing in the IT industry and these technologies are evolving most rapidly in our life. The technology of digital audio and video processing is utilizing rapidly to improve quality of our life, Also we are more interested in high sense and artistic feeling in the music and entertainment areas by use of three dimensional (3D) digital sound technology continuously as well as 3D digital video technology. The service field of digital audio contents is increasing rapidly through the Internet. And the society of Internet users wants the audio contents service with better quality. Recently Internet users are not satisfying the sound quality with 2 channels stereo but seeking the high quality of sound with 5,] channels such as 3D audio of the movie films. But it might be needed proper hardware equipments for the service of 3D sound to satisfy this demand. In this paper, we expand the simple 3D audio generator developed and propose a web-based music bank by the software development of 3D audio generation player in 3D sound environment with two speakers minimizing hardware equipments, Also we believe that this study would contribute greatly to digital 3D sound service of high quality for music and entertainment mania.

  • PDF

MPEG Surround Extension Technique for MPEG-H 3D Audio

  • Beack, Seungkwon;Sung, Jongmo;Seo, Jeongil;Lee, Taejin
    • ETRI Journal
    • /
    • 제38권5호
    • /
    • pp.829-837
    • /
    • 2016
  • In this paper, we introduce extension tools for MPEG Surround, which were recently adopted as MPEG-H 3D Audio tools by the ISO/MPEG standardization group. MPEG-H 3D Audio is a next-generation technology for representing spatial audio in an immersive manner. However, considerably large numbers of input signals can degrade the compression performance during a low bitrate operation. The proposed extension of MPEG Surround was basically designed based on the original MPEG Surround technology, where the limitations of MPEG Surround were revised by adopting a new coding structure. The proposed MPEG-H 3D Audio technologies will play a pivotal role in dramatically improving the sound quality during a lower bitrate operation.

다채널 스피커 시스템을 위한 오디오 신호지 직렬 전송 (Serial Transmission of Audio Signals for Multi-channel Speaker Systems)

  • 권오균;송문빈;이승원;이영원;정연모
    • 한국음향학회지
    • /
    • 제24권7호
    • /
    • pp.387-394
    • /
    • 2005
  • 본 논문에서는 다채널 오디오 시스템의 스피커들을 직렬로 연결하기 위한 새로운 오디오 신호 전송 기법을 제시한다. 다채널 오디오 본체로부터의 아날로그 신호는 디지털 신호로 변환되고 신호 처리 과정을 거쳐서 직렬로 연결된 각 스피커에 전달된다. 여기서 신호 처리 과정은 오디오 신호의 특성을 고려한 데이터 압축과 전송을 위한 패킷 생성을 포함한다. 각 스피커는 전달된 패킷으로부터 해당하는 디지털 신호만을 검출하여 아날로그 신호로 다시 변환하여 음향을 재생한다. 제시된 모든 기능은 VHDL을 사용하여 모델링되었으며 FPGA 칩으로 구현하였고 실제 다채널 오디오 시스템에서 테스트하였다.

제어이론을 이용한 D급 디지털 오디오 증폭기의 모델링과 해석 (Modeling and Analysis of Class D Audio Amplifiers using Control Theories)

  • 류태하;류지열;도태용
    • 제어로봇시스템학회논문지
    • /
    • 제13권4호
    • /
    • pp.385-391
    • /
    • 2007
  • A class D digital audio amplifier with small size, low cost, and high quality is positively necessary in the multimedia era. Since the digital audio amplifier is based on the PWM signal processing, it is improper to analyze the principle of signal generation using linear system theories. In this paper, a class D digital audio amplifier based ADSM (Advanced Delta-Sigma Modulation) is considered. We first model the digital audio amplifier and then explain the operation principle using variable structure control algorithm. Moreover, the ripple signal generated by the hysteresis in the comparator has a significant effect on the system performance. Thus, we present a method to find the magnitude and the frequency of the ripple signal using describing function. Finally, simulations and experiments are provided to show the validity of the proposed methods.

4G 휴대 단말기 송신에 의한 오디오 잡음 영향 (The Noise Influence of 4G Mobile Transmitter on Audio Devices)

  • 윤혜주;이일규
    • 한국위성정보통신학회논문지
    • /
    • 제8권1호
    • /
    • pp.31-34
    • /
    • 2013
  • 본 논문은 4세대 이동통신인 Long Term Evolution (LTE) 단말기에 의해 발생된 간섭 신호가 음향기기에 유입되었을 때 음향기기의 잡음영향에 대해 검토하였다. 먼저, LTE 송신 신호에 대한 분석 및 측정을 바탕으로 음향기기에 간섭을 주는 LTE 간섭 신호는 송신 전력의 크기에 의해 결정됨을 확인하였다. 또한, LTE 단말기의 송신전력 및 단말기와 음향기기간의 거리를 변화시키면서 발생하는 음향기기의 잡음을 측정하였다. 측정 결과, LTE 단말기가 최대 전력(22 dBm)을 송신하더라도 단말기와 음향기기의 거리를 25 cm 이상 이격시킴으로써 음향기기에서 발생하는 잡음을 방지할 수 있었다.

Human Laughter Generation using Hybrid Generative Models

  • Mansouri, Nadia;Lachiri, Zied
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권5호
    • /
    • pp.1590-1609
    • /
    • 2021
  • Laughter is one of the most important nonverbal sound that human generates. It is a means for expressing his emotions. The acoustic and contextual features of this specific sound are different from those of speech and many difficulties arise during their modeling process. During this work, we propose an audio laughter generation system based on unsupervised generative models: the autoencoder (AE) and its variants. This procedure is the association of three main sub-process, (1) the analysis which consist of extracting the log magnitude spectrogram from the laughter database, (2) the generative models training, (3) the synthesis stage which incorporate the involvement of an intermediate mechanism: the vocoder. To improve the synthesis quality, we suggest two hybrid models (LSTM-VAE, GRU-VAE and CNN-VAE) that combine the representation learning capacity of variational autoencoder (VAE) with the temporal modelling ability of a long short-term memory RNN (LSTM) and the CNN ability to learn invariant features. To figure out the performance of our proposed audio laughter generation process, objective evaluation (RMSE) and a perceptual audio quality test (listening test) were conducted. According to these evaluation metrics, we can show that the GRU-VAE outperforms the other VAE models.

UHDTV를 위한 10.2 채널 기반 다채널 오디오 재현 기술 (Multichannel Audio Reproduction Technology based on 10.2ch for UHDTV)

  • 이태진;유재현;서정일;강경옥;김환우
    • 방송공학회논문지
    • /
    • 제17권5호
    • /
    • pp.827-837
    • /
    • 2012
  • 방송 환경이 점차 디지털로 발전해 나가면서, HDTV를 넘어서는 차세대 방송서비스에 관한 관심이 증대되고 있다. 차세대 방송 서비스는 2차원 영상 서비스에서 3차원 영상 서비스로, HD급 영상 서비스에서 UHD(Ultra High Definition)급 영상 시비스로, 5.1 채널 오디오 서비스에서 10 채널 이상의 다채널 오디오 서비스로 진화하여 고품질의 실감 방송 서비스를 제공하는 것을 목표로 하고 있다. 본 논문에서는 UHDTV 방송 서비스 환경에서 고품질의 오디오 서비스를 제공하기 위한 10.2 채널 기반의 다채널 오디오 재현 기술에 대해 설명한다. 10.2 채널 재현 시스템은 기존 5.1 채널 시스템을 기반으로 측면에 2개의 스피커를 추가하여 측면의 음상정위 성능을 향상시켰으며, 전면에 2개의 수직면 스피커와 후면에 1개의 천정 스피커를 추가하여 수평면 뿐 아니라 수직면에서의 음상정위가 가능하다. 10.2 채널 시스템에 대한 성능을 평가하기 위해 APM 모델을 활용한 객관적 음상정위 평가와 22.2 채널과 10.2 채널 재현시스템을 구축하여 청취자를 통한 실제 주관적 음상정위 평가를 수행하였다. 객관적, 주관적 음상정위 평가 결과 10.2 채널 시스템은 22.2 채널 시스템과 통계학적으로 동일한 음성정위 평가 결과를 보였고, 기존 5.1 채널 시스템 대비 우수한 음상정위 평가결과를 보여주었다.