Abstract
Music transcription is extracting pitch (the height of a musical note) and rhythm (the length of a musical note) information from audio file and making a music score. In this paper, we decomposed a waveform into frequency and rhythm components using Non-Negative Matrix Factorization (NMF) and Non-Negative Sparse coding (NNSC) which are often used for source separation and data clustering. And using the subharmonic summation method, fundamental frequency is calculated from the decomposed frequency components. Therefore, the accurate pitch of each score can be estimated. The proposed method successfully performed music transcription with its results superior to those of the conventional methods which used either NMF or NNSC.
악보 전사란, 오디오 파일로부터 음고 (음표의 높낮이)와 리듬 (음표의 길이) 정보를 추출하여 악보를 만드는 것이다. 본 논문에서는 음원 분리 및 데이터 분류에 자주 사용되는 Non-Negative Matrix Factorization (NMF)와 Non-Negative Sparse Coding (NNSC) 방식을 사용하여 오디오 파일을 주파수와 리듬 성분으로 분류하였다. 또한 배음 통합 (subharmonic summation) 방법으로 분류된 주파수들로부터 기본 진동 주파수를 계산하였고, 이로써 악보를 야루는 음표의 높낮이를 정확히 얻을 수 있었다. 제안한 방식으로 악보 전사거 성공적으로 이루어졌고, NMF 혹은 NNSC만 사용하여 악보 전사를 하였던 기존의 논문들에 비해 향상된 결과를 얻을 수 있었다.