DOI QR코드

DOI QR Code

Dual CNN Structured Sound Event Detection Algorithm Based on Real Life Acoustic Dataset

실생활 음향 데이터 기반 이중 CNN 구조를 특징으로 하는 음향 이벤트 인식 알고리즘

  • Suh, Sangwon (Realistic AV Research Group, Electronics and Telecommunications Research Institute) ;
  • Lim, Wootaek (Realistic AV Research Group, Electronics and Telecommunications Research Institute) ;
  • Jeong, Youngho (Realistic AV Research Group, Electronics and Telecommunications Research Institute) ;
  • Lee, Taejin (Realistic AV Research Group, Electronics and Telecommunications Research Institute) ;
  • Kim, Hui Yong (Realistic AV Research Group, Electronics and Telecommunications Research Institute)
  • 서상원 (한국전자통신연구원 실감AV연구그룹) ;
  • 임우택 (한국전자통신연구원 실감AV연구그룹) ;
  • 정영호 (한국전자통신연구원 실감AV연구그룹) ;
  • 이태진 (한국전자통신연구원 실감AV연구그룹) ;
  • 김휘용 (한국전자통신연구원 실감AV연구그룹)
  • Received : 2018.08.20
  • Accepted : 2018.10.24
  • Published : 2018.11.30

Abstract

Sound event detection is one of the research areas to model human auditory cognitive characteristics by recognizing events in an environment with multiple acoustic events and determining the onset and offset time for each event. DCASE, a research group on acoustic scene classification and sound event detection, is proceeding challenges to encourage participation of researchers and to activate sound event detection research. However, the size of the dataset provided by the DCASE Challenge is relatively small compared to ImageNet, which is a representative dataset for visual object recognition, and there are not many open sources for the acoustic dataset. In this study, the sound events that can occur in indoor and outdoor are collected on a larger scale and annotated for dataset construction. Furthermore, to improve the performance of the sound event detection task, we developed a dual CNN structured sound event detection system by adding a supplementary neural network to a convolutional neural network to determine the presence of sound events. Finally, we conducted a comparative experiment with both baseline systems of the DCASE 2016 and 2017.

음향 이벤트 인식은 다수의 음향 이벤트가 발생하는 환경에서 이를 인식하고 각각의 발생과 소멸 시점을 판단하는 기술로써 인간의 청각적 인지 특성을 모델화하는 연구다. 음향 장면 및 이벤트 인식 연구 그룹인 DCASE는 연구자들의 참여 유도와 더불어 음향 인식 연구의 활성화를 위해 챌린지를 진행하고 있다. 그러나 DCASE 챌린지에서 제공하는 데이터 세트는 이미지 인식 분야의 대표적인 데이터 세트인 이미지넷에 비해 상대적으로 작은 규모이며, 이 외에 공개된 음향 데이터 세트는 많지 않아 알고리즘 개발에 어려움이 있다. 본 연구에서는 음향 이벤트 인식 기술 개발을 위해 실내외에서 발생할 수 있는 이벤트를 정의하고 수집을 진행하였으며, 보다 큰 규모의 데이터 세트를 확보하였다. 또한, 인식 성능 개선을 위해 음향 이벤트 존재 여부를 판단하는 보조 신경망을 추가한 이중 CNN 구조의 알고리즘을 개발하였고, 2016년과 2017년의 DCASE 챌린지 기준 시스템과 성능 비교 실험을 진행하였다.

Keywords

BSGHC3_2018_v23n6_855_f0001.png 이미지

그림 1. 이중 CNN 기반 음향 이벤트 인식 알고리즘의 개략도 Fig. 1. Schematic diagram of dual CNN based sound event detection algorithm

BSGHC3_2018_v23n6_855_f0002.png 이미지

그림 2. 다층 퍼셉트론 모델 블록선도 Fig. 2. Block diagram of multi-layer perceptron model

BSGHC3_2018_v23n6_855_f0003.png 이미지

그림 3. Ground truth에 대한 시스템 출력의 시각화 Fig. 3. Visualization of system output to ground truth

표 1. 음향 이벤트 클래스 Table 1. Sound event classes

BSGHC3_2018_v23n6_855_t0001.png 이미지

표 2. 녹음 신호 규격 Table 2. Recording signal specifications

BSGHC3_2018_v23n6_855_t0002.png 이미지

표 3. 음향 이벤트 메타데이터 구성 예 Table 3. Examples of sound event metadata

BSGHC3_2018_v23n6_855_t0003.png 이미지

표 4. 문맥 사이즈와 홉 사이즈 변경에 따른 음향 이벤트 인식 결과 Table 4. Acoustic event detection results according to the context and hop size

BSGHC3_2018_v23n6_855_t0004.png 이미지

표 5. 실내 환경에서 음향 이벤트 별 상세 인식 결과 Table 5. Detailed results of detection per sound event in an indoor environment

BSGHC3_2018_v23n6_855_t0005.png 이미지

표 6. 실외 환경에서 음향 이벤트 별 상세 인식 결과 Table 6. Detailed results of detection per sound event in an outdoor environment

BSGHC3_2018_v23n6_855_t0006.png 이미지

표 7. 음향 이벤트 인식 시스템 성능 측정 결과 Table 7. Performance test for sound event detection systems

BSGHC3_2018_v23n6_855_t0007.png 이미지

References

  1. A. Temko et al., "CLEAR evaluation of acoustic event detection and classification systems," Lecture Notes in Computer Science, vol.4122, pp.311-322, 2007.
  2. D. Stowell et al., "Detection and classification of acoustic scenes and events," IEEE Transactions on Multimedia, vol.17, no.10, pp.1733-1746, 2015. https://doi.org/10.1109/TMM.2015.2428998
  3. DCASE Community, http://dcase.community/community_info
  4. J. Portelo et al., "Non-Speech Audio Event Detection," IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2009.
  5. DCASE 2016 Task3 Sound event detection in real life audio, http://www.cs.tut.fi/sgn/arg/dcase2016/task-sound-event-detection-in-real-life-audio
  6. DCASE 2017 Task3 Sound event detection in real life audio, http://www.cs.tut.fi/sgn/arg/dcase2017/challenge/task-sound-event-detection-in-real-life-audio
  7. A. Mesaros et al., "DCASE 2017 Challenge Setup: Tasks, Datasets and Baseline System," Detection and Classification of Acoustic Scenes and Events (DCASE), 2017.
  8. A. Mesaros, T. Heittola, and T. Virtanen, "TUT Database for Acoustic Scene Classification and Sound Event Detection," 24th European Signal Processing Conference (EUSIPCO), pp. 1128-1132, 2016.
  9. S. Adavanne, G. Parascandolo, P. Pertila, T. Heittola, and T. Virtanen, "Sound event detection in multichannel audio using spatial and harmonic features," Detection and Classification of Acoustic Scenes and Events (DCASE), 2016.
  10. I. Jeong, S. Lee, Y. Han, and K. Lee, "Audio event detection using multiple- input convolutional neural network," Detection and Classification of Acoustic Scenes and Events (DCASE), 2017.
  11. S. Adavanne, and T. Virtanen, "A report on sound event detection with different binaural features," Detection and Classification of Acoustic Scenes and Events (DCASE), 2017.
  12. K. He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," IEEE Conference on Computer Vision and Patter Recognition (CVPR), 2016.
  13. Large Scale Visual Recognition Challenge (LSVRC), http://image-net.org/challenges/LSVRC/ImageNet, http://www.image-net.org/
  14. ImageNet, http://www.image-net.org/
  15. Y. Jung, S. Seo, W. Lim, and H. Kim, "Design and construction of Acoustic Database for developing Sound Event Detection technique," IEIE Summer General Conference, June, 2018
  16. D. P. Kingma, and J. Ba, "Adam: A method for stochastic optimization," Proceedings of the 3rd International Conference on Learning Representations (ICLR), 2014.
  17. TensorFlow, https://www.tensorflow.org/
  18. Keras, https://keras.io/
  19. Metrics For sound event detection tasks, http://www.cs.tut.fi/sgn/arg/dcase2017/challenge/metrics