• 제목/요약/키워드: Audio Technology

검색결과 636건 처리시간 0.023초

음성-영상 융합 음원 방향 추정 및 사람 찾기 기술 (Audio-Visual Fusion for Sound Source Localization and Improved Attention)

  • 이병기;최종석;윤상석;최문택;김문상;김대진
    • 대한기계학회논문집A
    • /
    • 제35권7호
    • /
    • pp.737-743
    • /
    • 2011
  • 서비스 로봇은 비전 카메라, 초음파 센서, 레이저 스캐너, 마이크로폰 등과 같은 다양한 센서를 장착하고 있다. 이들 센서들은 이들 각각의 고유한 기능을 가지고 있기도 하지만, 몇몇을 조합하여 사용함으로써 더욱 복잡한 기능을 수행할 수 있다. 음성영상 융합은 서로가 서로를 상호보완 해주는 대표적이면서도 강력한 조합이다. 사람의 경우에 있어서도, 일상생활에 있어 주로 시각과 청각 정보에 의존한다. 본 발표에서는, 음성영상 융합에 관한 두 가지 연구를 소개한다. 하나는 음원 방향 검지 성능의 향상에 관한 것이고, 나머지 하나는 음원 방향 검지와 얼굴 검출을 이용한 로봇 어텐션에 관한 것이다.

Towards Low Complexity Model for Audio Event Detection

  • Saleem, Muhammad;Shah, Syed Muhammad Shehram;Saba, Erum;Pirzada, Nasrullah;Ahmed, Masood
    • International Journal of Computer Science & Network Security
    • /
    • 제22권9호
    • /
    • pp.175-182
    • /
    • 2022
  • In our daily life, we come across different types of information, for example in the format of multimedia and text. We all need different types of information for our common routines as watching/reading the news, listening to the radio, and watching different types of videos. However, sometimes we could run into problems when a certain type of information is required. For example, someone is listening to the radio and wants to listen to jazz, and unfortunately, all the radio channels play pop music mixed with advertisements. The listener gets stuck with pop music and gives up searching for jazz. So, the above example can be solved with an automatic audio classification system. Deep Learning (DL) models could make human life easy by using audio classifications, but it is expensive and difficult to deploy such models at edge devices like nano BLE sense raspberry pi, because these models require huge computational power like graphics processing unit (G.P.U), to solve the problem, we proposed DL model. In our proposed work, we had gone for a low complexity model for Audio Event Detection (AED), we extracted Mel-spectrograms of dimension 128×431×1 from audio signals and applied normalization. A total of 3 data augmentation methods were applied as follows: frequency masking, time masking, and mixup. In addition, we designed Convolutional Neural Network (CNN) with spatial dropout, batch normalization, and separable 2D inspired by VGGnet [1]. In addition, we reduced the model size by using model quantization of float16 to the trained model. Experiments were conducted on the updated dataset provided by the Detection and Classification of Acoustic Events and Scenes (DCASE) 2020 challenge. We confirm that our model achieved a val_loss of 0.33 and an accuracy of 90.34% within the 132.50KB model size.

MPEG-II AAC의 MDCT/IMDCT를 위한 벡터 프로세서 설계 (The Design of Vector Processor for MDCT/IMDCT of MPEG-II AAC)

  • 이강현
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.329-332
    • /
    • 1999
  • Currently, the most important technology is compression methods in the multimedia society. In audio compression, the method using human auditory nervous property is used. This method using psychoacoustical model is applied to perceptual audio coding, because human's audibility is limited. MPEG-II AAC(Advanced Audio Coding) is the most advanced coding scheme that is of benefit to high quality audio coding. The compression ratio is 1.4 times compared with MPEG-I layer-III. In this paper, the vector processor for MDCT/IMDCT(Modified Discrete Cosine Transform /Inverse Modified Discrete Cosine Transform) of MPEG-II AAC is designed.

  • PDF

Implementation of On-site Audio Center based on AoIP

  • Lee, Jaeho;Kwon, Soonchul;Lee, Seunghyun
    • International journal of advanced smart convergence
    • /
    • 제6권2호
    • /
    • pp.51-58
    • /
    • 2017
  • Recently, rapid advances of Ethernet and IP technology have brought many changes in the sound industry. In addition, due to AoIP-based audio transmission technology, various problems of the acoustic system (sound quality deterioration due to long distance transmission, complicated wiring) have improved dramatically. However, when many distributed audio systems are connected with AoIP equipment, if there is a problem in the equipment, it is impossible to operate the connected system. AoIP equipment only can transmit audio signals but cannot adjust the system for acoustic environment. In this paper, AoIP equipment is to be installed with sound equipment on a one-to-one basis, so that various existing problems can be solved and adjustment of sound quality (reverberation, echo, delay and EQ) can be possible by AoIP-based OAC (On-site Audio Center) with built-in DSP function. As a result, uncompressed real-time transmission by distributed transmission/receipt module in OAC (On-site Audio Center) and high quality sound by adjustment of sound quality with built-in DSP can be acquired. It is expected that OAC based sound system will be the industry standard in ubiquitous environment.

디지털 TV 방송음량에 대한 연구 (A Study on analysis of digital TV loudness)

  • 이상운;조용성;김재경
    • 한국위성정보통신학회논문지
    • /
    • 제8권4호
    • /
    • pp.105-110
    • /
    • 2013
  • 방송이 아날로그방식에서 디지털방식으로 전환되면서 방송 음량의 다이나믹 레인지가 확대되나, 방송 음량에 대해 어떤 규제가 없는 상황에서 방송사 간 혹은 프로그램 간의 경쟁 등에 방송 음량이 점차 커지고 있다. 방송 시청 중 채널 간에 음량 변화가 큰 경우, 시청자들의 정서장애 등이 유발될 수도 있으며, 이를 해결하기 위해 ITU에서는 방송 음량 기준을 제정했다. 본 연구에서는 ITU-R에서 제시하는 음량 측정 알고리즘을 적용하여, 국내 주요 방송채널들의 음량을 측정 분석하고 음량을 관리하기 위한 방안을 제시하고자 한다.

청취환경 차이에 따른 3차원 오디오 기술 개발 동향 (Status of 3D Audio Technology Development for the difference of Listening Environments)

  • 서정일;이용주;장인선;유재현;강경옥
    • 방송과미디어
    • /
    • 제13권1호
    • /
    • pp.82-96
    • /
    • 2008
  • 3차원 오디오 기술은 3차원 오디오를 녹음하는 기술에서 부호화, 전송, 재현에 이르기까지 오디오 신호처리 과정을 포함한다. 하지만 오디오 신호를 재생하는 단말의 환경이 궁극적으로 3차원 오디오를 청취자에게 제공하는 마지막 단계가 되므로 재생환경에 따라서 적용되는 기술에 차이가 있다. 본 논문에서는 음악 콘텐츠를 소비하는 다양한 재생 단말에서 현실감을 증대시키기 위해 적용되는 3차원 오디오 기술의 연구동향을 살펴본다.

Convolutional Neural Network based Audio Event Classification

  • Lim, Minkyu;Lee, Donghyun;Park, Hosung;Kang, Yoseb;Oh, Junseok;Park, Jeong-Sik;Jang, Gil-Jin;Kim, Ji-Hwan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권6호
    • /
    • pp.2748-2760
    • /
    • 2018
  • This paper proposes an audio event classification method based on convolutional neural networks (CNNs). CNN has great advantages of distinguishing complex shapes of image. Proposed system uses the features of audio sound as an input image of CNN. Mel scale filter bank features are extracted from each frame, then the features are concatenated over 40 consecutive frames and as a result, the concatenated frames are regarded as an input image. The output layer of CNN generates probabilities of audio event (e.g. dogs bark, siren, forest). The event probabilities for all images in an audio segment are accumulated, then the audio event having the highest accumulated probability is determined to be the classification result. This proposed method classified thirty audio events with the accuracy of 81.5% for the UrbanSound8K, BBC Sound FX, DCASE2016, and FREESOUND dataset.

4G 휴대 단말기 송신에 의한 오디오 잡음 영향 (The Noise Influence of 4G Mobile Transmitter on Audio Devices)

  • 윤혜주;이일규
    • 한국위성정보통신학회논문지
    • /
    • 제8권1호
    • /
    • pp.31-34
    • /
    • 2013
  • 본 논문은 4세대 이동통신인 Long Term Evolution (LTE) 단말기에 의해 발생된 간섭 신호가 음향기기에 유입되었을 때 음향기기의 잡음영향에 대해 검토하였다. 먼저, LTE 송신 신호에 대한 분석 및 측정을 바탕으로 음향기기에 간섭을 주는 LTE 간섭 신호는 송신 전력의 크기에 의해 결정됨을 확인하였다. 또한, LTE 단말기의 송신전력 및 단말기와 음향기기간의 거리를 변화시키면서 발생하는 음향기기의 잡음을 측정하였다. 측정 결과, LTE 단말기가 최대 전력(22 dBm)을 송신하더라도 단말기와 음향기기의 거리를 25 cm 이상 이격시킴으로써 음향기기에서 발생하는 잡음을 방지할 수 있었다.

시간축 공격에 강인한 오디오 저작권보호 기술 (Robust Audio Copyright Protection Technology to the Time Axis Attack)

  • 배경율
    • 지능정보연구
    • /
    • 제15권4호
    • /
    • pp.201-212
    • /
    • 2009
  • 확산 스펙트럼 방식 워터마킹 기술은 일반적인 공격에 매우 강인한 알고리즘으로 알려져있으나 시간 축 변형 공격에 대해서 만큼은 취약성을 드러내고 있다. 본 연구에서는 확산 스펙트럼 방식 워터마킹 기술의 장점을 살리면서 시간 축 공격에도 강인한 알고리즘을 제안한다. 시간 축 공격은 오디오 신호의 주파수 성분을 변화시키거나 피치성분은 유지하면서 오디오 신호의 길이를 변화시키는 등의 공격을 포함하고 있다. 확산 스펙트럼 방식에 의해서 삽입된 워터마크를 검출하기 위해서는 시간 축 공격의 비율을 정확히 알아야만 한다는 어려움이 있으며, 그 비율을 알기 위해서는 많은 알고리즘의 처리가 필요하고 현실적으로 구현이 불가능한 등의 어려움이 있다. 본 연구에서는 이러한 문제점을 해결하기 위해서 오디오 신호를 시 불변 영역(time-invariant domain)으로 변환하고, 이 영역에서 확산 스펙트럼 방식의 워터마크를 삽입함으로써 확산 스펙트럼 방식의 장점을 유지하고 시간 축 공격에 대해서도 강인한 알고리즘을 제안하였다. 이를 위해서 오디오 신호에 대해 log scale time axis를 사용하고, log scale time axis 신호를 Fourier 변환함으로써 시 불변 영역을 얻을 수 있었다.

  • PDF

Design of Music Learning Assistant Based on Audio Music and Music Score Recognition

  • Mulyadi, Ahmad Wisnu;Machbub, Carmadi;Prihatmanto, Ary S.;Sin, Bong-Kee
    • 한국멀티미디어학회논문지
    • /
    • 제19권5호
    • /
    • pp.826-836
    • /
    • 2016
  • Mastering a musical instrument for an unskilled beginning learner is not an easy task. It requires playing every note correctly and maintaining the tempo accurately. Any music comes in two forms, a music score and it rendition into an audio music. The proposed method of assisting beginning music players in both aspects employs two popular pattern recognition methods for audio-visual analysis; they are support vector machine (SVM) for music score recognition and hidden Markov model (HMM) for audio music performance tracking. With proper synchronization of the two results, the proposed music learning assistant system can give useful feedback to self-training beginners.