DOI QR코드

DOI QR Code

재발량 분석을 이용한 음향 상황 인지

Acoustic scene classification using recurrence quantification analysis

  • 박상욱 (고려대학교 전기전자전파공학과) ;
  • 최우현 (고려대학교 전기전자전파공학과) ;
  • 고한석 (고려대학교 전기전자전파공학과)
  • 투고 : 2015.10.08
  • 심사 : 2015.11.05
  • 발행 : 2016.01.31

초록

동일한 장소에서도 매우 다양한 음향이 발생하고, 서로 다른 장소에서도 유사한 음향이 발생하기 때문에 훈련 데이터가 적거나, 훈련 단계에서 일부 음향만 고려된 경우 음향 상황 인지 성능을 보장할 수 없다. 이러한 문제점을 해결하기 위한 방법으로 Bag of Words (BOW) 기반 히스토그램 특징이 소개되었다. 하지만 BOW 기반 히스토그램 특징은 일정 시간동안 발생한 음향의 분포를 이용하기 때문에 음향이 발생한 순차적인 정보는 고려할 수 없다. 음향 상황 인지에서 일정 시간 동안 발생한 음향의 주기성과 지속성은 상황을 인지하는데 중요한 정보가 될 수 있다. 따라서 본 논문에서는 재발량 분석을 이용하여 주기성과 지속성에 대한 특징을 추출하였다. 인식 실험에서 재발량 분석을 통해 추출된 특징을 함께 사용한 경우 기존 방법들 보다 향상된 성능을 확인했다.

Since a variety of sound occur in same place and similar sound occurs in other places, the performance of acoustic scene classification is not guaranteed in case of insufficient training data. A Bag of Words (BOW) based histogram feature is foreseen as a method to overcome the problem. However, since the histogram features is made by using a feature distribution, the ordering of sequence of features is ignored. A temporal information such as periodicity and stationarity are also important for acoustic scene classification. In this paper, temporal features about a periodicity and a stationarity are extracted by using a recurrent quantification analysis. In the experiment, performance of the proposed method is shown better than other baseline methods.

키워드

참고문헌

  1. W. Choi, S. Kim, M. Keum, D. K. Han, and H. Ko, "Acoustic and visual signal based context awareness system for mobile application," IEEE Trans. Cons. Elec. 57, 738-746 (2011). https://doi.org/10.1109/TCE.2011.5955216
  2. S. Chu, S. Narayanan, C.-C. Jay Kuo, and M. J. Matari, "Where am I? Scene recognition for mobile robots using audio features," in Proc. IEEE Int. Conf. Multimedia and Expo., 885-888 (2006).
  3. Y. Xu, W. J. Li, and K. K. Lee, Intelligent Wearable Interfaces, (John Wiley & Sons, New Jersey, 2008).
  4. T. Heittola, A. Mesaros, A. Eronen, and T. Virtanen, "Context-dependent sound event detection." EURASIP J. Audio, Speech, and Music Process. 1, 1-13 (2013).
  5. D. Barchiesi, D. Giannoulis, D. Stowell, and M.D. Plumbley, "Acoustic Scene Classification," IEEE Sig. Process. Mag. 32, 16-34, (2015).
  6. S. Park, W. Choi, and H. Ko, "Frequency-cepstral features for bag of words based acoustic context awareness" (in Korea), J. Acoust. Soc. Kr. 33, 248-254 (2014). https://doi.org/10.7776/ASK.2014.33.4.248
  7. J. P. Zbilut and C. L. Webber, Wiley Encyclopedia Biomedical Engineering: Recurrence quantification analysis, (John Wiley & Sons, New Jersey, 2006), pp. 1-9.
  8. V. Carletti, P. Foggia, G. Percannella, A. Saggese, N.Strisciuglio, and M. Vento, "Audio surveillance using a bag of aural words classifier," in Proc. IEEE Int. Conf. Ad. Video and Sig. Surveil., 81-86 (2013).
  9. C.C. Chang and C.J. Lin, "LIBSVM : a library for support vector machines," ACM Trans. Intelligent Sys. and Tech.,2, 1-27 (2011).