지능형 음향환경파라미터추정기술

  • 발행 : 2016.08.31


인간은 소리를 통해 많은 정보를 얻을 수 있다. 누가 어떤 말을 하는지 뿐만 아니라, 상황에 따라서는 소리가 발화된 환경 또한 시각적인 정보 없이 유추할 수 있다. 이러한 판단을 내리기까지, 인간은 경험을 통해 스스로 학습하는 과정을 거친다. 이와 같은 학습 과정에 생물의 사고과정을 모방하여 복잡한 상관관계를 추론하는 인공지능형 알고리즘을 적용하면, 인간의 두뇌가 경험을 통해 학습하고 판단하던 역할을 기계적으로도 모방할 수 있게 된다. 본고에서는 음향이 발화된 환경의 정보를 나타낼 수 있는 파라미터들에 대해 알아보고, 그 파라미터들을 지능형 알고리즘을 이용해 도출해내는 과정과 기법들을 소개한다.



  1. Hinton G, and Salakhutdinov R. Reducing the dimensionality of data with neural networks. Science 2006;313(5786):504-507. https://doi.org/10.1126/science.1127647
  2. Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition. in Proc. NIPS, 2009.
  3. Mohamed A, Dahl G, Hinton G. Acoustic modeling using deep belief networks. IEEE Transactions on Audio, Speech & Language Processing, 2012;20(1):14-22. https://doi.org/10.1109/TASL.2011.2109382
  4. Hinton G, Deng L, Dahl G, Mohamed A, Jaitly N, Senior A, Vanhoucke V, Nguyen P, Sainath T, Kingsbury B. Deep neural networks for acoustic modeling in speech recognition. IEEE Signal Process Magazine, 2012;29(6):82-97. https://doi.org/10.1109/MSP.2012.2205597
  5. P. A. Naylor and N. D. Gaubitch, Speech Dereverberation, Springer, 2010.
  6. Y. Hioka, K. Niwa, Estimating direct-to-reverberant ratio mapped from power spectral density using deep neural network. In Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, China, 20-25 March 2016; pp. 149-152.
  7. T. Falk, C. Zheng, and W.-Y. Chan. A non-intrusive quality and intelligibility measure of reverberant and dereverberated speech. IEEE Transactions on Audio, Speech & Language Processing, vol. 18, no. 7, pp. 1766-1774, Sept. 2010. https://doi.org/10.1109/TASL.2010.2052247
  8. N. D. Gaubitch, H. W. Lollmann, M. Jeub, T. H. Falk, P. A. Naylor, P. Vary, and M. Brookes. Performance comparison of algorithms for blind reverberation time estimation from speech. International Workshop on Acoustic Echo and Noise Control, Aachen, Germany, Sept. 2012.