A Unified Method for Vocal Source Separation From Stereophonic Music Signals

스테레오 음악 신호에서의 보컬 음원 분리를 위한 통합 알고리즘

  • Kim, Min-Je (Electronics and Telecommunications Research Institute) ;
  • Jang, In-Seon (Electronics and Telecommunications Research Institute) ;
  • Kang, Kyeong-Ok (Electronics and Telecommunications Research Institute)
  • Received : 2010.07.06
  • Published : 2010.09.25

Abstract

A unified method for separating musical sources, singing voice for example, from stereophonic mixtures is provided. We usually have two observed signals in stereophonic music contents, where more than two instruments are played together. If we regard each instrument as source, this problem becomes an underdetermined source separation problem and cannot be solved by conventional methods, which infers the spatial environment of the downmixing process happens. Instead, source-specific information has been exploited to recover a particular instrumental source. This paper provides a unifying structure consists of heterogenious ad-hoc separate algorithms, which are designed for separating vocal sources using stereophonic channel information and dominant pitch information of the sources, respectively. Experiments on real world music contents show that the proposed unification can neutralize the drawbacks of the two ad-hoc separation algorithms and finally enhance the separation results.

본 논문에서는 스테레오 형식의 음악 신호에서 가창 신호와 같은 음원을 분리하기 위한 통합 알고리즘을 제시한다. 스테레오 형식의 음악 신호에서 특정한 악기 음원을 분리하는 문제는, 획득한 음악 신호가 다양한 악기들이 동시에 연주되는 혼합신호라는 점을 고려하고, 각각의 악기를 음원이라고 가정할 때, 획득한 혼합 신호의 개수가 음원의 개수보다 적은 비결정(underdetermined) 환경에서의 음원 분리 문제가 된다. 비결정 환경에서는 신호가 혼합되는 공간에 대한 가정을 기반하는 전통적 음원 분리 방식을 적용하기 힘들며, 목표 음원의 특정한 특성을 활용하여 추출하게 된다. 본 논문에서 제안하는 통합 알고리즘은 이종의 특성을 활용하는 음악 음원 분리 알고리즘들을 유기적으로 통합하는 구조이며, 구체적으로는 가창 신호와 같은 특정한 음원 추출을 위해 주로 사용되어 왔던 스테레오 채널 정보를 활용하는 방식과, 모노 혼합 신호에서 두드러지는 음원의 음정을 이용하여 음원을 추출하는 두 가지 방식을 통합하는 것을 목표로 한다. 본 논문에서 제안하는 구조는 각각의 음악 음원 분리 알고리즘이 가지고 있는 고유의 약점을 해소함으로써, 목표 음원의 복원 신호가 통합 과정에 의해 향상될 수 있다는 강점이 있으며, 그것을 실제 상업 음악 콘텐츠를 대상으로 한 실험을 통해 검증한다.

Keywords

References

  1. I. Jang, J. Seo and K. Kang, "Design of a File Format For Interactive Music Service," ETRI Journal Letter (submitted for publication)
  2. ISO/IEC JTC 1/SC29/WG11 w11158, Text of ISO/IEC FDIS 23000-12 Interactive Music AF, MPEG, Feb. 2010.
  3. P. Chordia and A. Rae, "Using Source Separation to Improve Tempo Detection," Proc. ISMIR 2009, pp. 183-188.
  4. E. Tsunoo, T. Akase, N. Ono, and S. Sagayama, "Music Mood Classification by Rhythm and Bass-line Unit Pattern Analysis," Proc. ICASSP 2010, pp. 265-268
  5. M. Kim and S. Choi, "On spectral basis selection for single channel polyphonic music separation," in Proceedings of the International Conference on Artificial Neural Networks (ICANN), vol. 2. Warsaw, Poland: Springer, 2005, pp. 157–162.
  6. D. FitzGerald, M. Cranitch, and E. Coyle, "Shifted nonnegative matrix factorisation for sound source separation," in IEEE Workshop on Statistical Signal Processing, Bordeaux, France, 2005.
  7. T. Virtanen, A. Mesaros, and M. Ryynanen, "Combining Pitch-Based Inference and Non-Negative Spectrogram Factorization in Separating Vocals from Polyphonic Music," Proc. SAPA 2008.
  8. J.-L. Durrieu, A. Ozerov, C. Févotte, G. Richard and B. David, "Main instrument separation from stereophonic audio signals using a source/filter model," EUSIPCO 2009.
  9. http://www.adobe.com/products/audition
  10. M. Helén, T. Virtanen, "Separation of Drums From Polyphonic Music Using Non-negative Matrix Factorization and Support Vector Machine," Proc. 13th European Signal Processing Conference, 2005.
  11. J. Yoo, M. Kim, K. Kang, and S. Choi, "Nonnegative Matrix Partial Co-Factorization for Drum Source Separation," Proc. ICASSP 2010.
  12. M. Kim, J. Yoo, K. Kang, and S. Choi, "Blind Rhythmic Source Separation: Nonnegativity and Repeatability," Proc. ICASSP 2010.
  13. E. Vincent, R. Gribonval, and C. Fevotte, "Performance Measurement in Blind Audio Source Separation," IEEE Trans. Audio, Speech, and Language Processing, Vol. 14, no. 4, pp. 1462-1469, July 2006. https://doi.org/10.1109/TSA.2005.858005