DOI QR코드

DOI QR Code

커널 모델과 장단기 기억 신경망을 결합한 보컬 및 비보컬 분리

Vocal and nonvocal separation using combination of kernel model and long-short term memory networks

  • 조혜승 (광운대학교 전파공학과) ;
  • 김형국 (광운대학교 전파공학과)
  • 투고 : 2017.02.20
  • 심사 : 2017.07.31
  • 발행 : 2017.07.31

초록

본 논문에서는 커널 모델과 장단기 기억(Long-Short Term Memory, LSTM) 신경망을 결합한 보컬 및 비보컬 분리 방식을 제안한다. 기존의 음원 분리 방식은 비보컬 음원만 있는 구간에서 음원을 오추정하여 불필요한 비보컬 음원을 출력하는 한계가 있다. 따라서 본 논문에서는 커널 모델 기반의 보컬음 분리 방식에 LSTM 신경망 기반의 보컬 구간 분류 방식을 결합하여 보컬 음원의 오추정 문제를 개선하고 분리 성능을 향상시키고자 하였다. 또한 본 논문에서는 방식간의 결합 구조에 따라 병렬 결합형 분리 알고리즘과 직렬 결합형 분리 알고리즘을 제안하였으며, 실험을 통해 제안하는 방식들이 기존의 방식에 비해 더욱 향상된 분리 성능을 보이는 것을 확인할 수 있었다.

In this paper, we propose a vocal and nonvocal separation method which uses a combination of kernel model and LSTM (Long-Short Term Memory) networks. Conventional vocal and nonvocal separation methods estimate the vocal component even in sections where only non-vocal components exist. This causes a problem of the source estimation error. Therefore we combine the existing kernel based separation method with the vocal/nonvocal classification based on LSTM networks in order to overcome the limitation of the existing separation methods. We propose a parallel combined separation algorithm and series combined separation algorithm as combination structures. The experimental results verify that the proposed method achieves better separation performance than the conventional approaches.

키워드

참고문헌

  1. E. Vincent, N. Bertin, R. Gribonval, and F. Bimbot, "From blind to guided audio source separation: How models and side information can improve the separation of sound," IEEE Signal Processing Magazine 31, 107-115 (2014). https://doi.org/10.1109/MSP.2013.2297440
  2. A. Liutkus, D. Fitzgerald, and Z. Rafii, "Scalable audio separation with light kernel additive modeling," IEEE ICASSP, 76-80 (2015).
  3. S. Hochreiter and J. Schmidhuber, "Long short-termmemory," Neural computation 9, 1735-1780 (1997). https://doi.org/10.1162/neco.1997.9.8.1735
  4. G. Parascandolo, H. Huttunen, and T. Virtanen, "Recurrent neural networks for polyphonic sound event detection in real life recordings," IEEE ICASSP, 6440-6444 (2016).
  5. E.Vincent, R. Griboncal and C. Fevotte, "Performance measurement in blind audio source separation," IEEE Transactions on Audio, Speech and Language Processing, 1462-1469 (2006).