• 제목/요약/키워드: Query-by-singing/humming

검색결과 10건 처리시간 0.022초

A Design of Matching Engine for a Practical Query-by-Singing/Humming System with Polyphonic Recordings

  • Lee, Seok-Pil;Yoo, Hoon;Jang, Dalwon
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권2호
    • /
    • pp.723-736
    • /
    • 2014
  • This paper proposes a matching engine for a query-by-singing/humming (QbSH) system with polyphonic music files like MP3 files. The pitch sequences extracted from polyphonic recordings may be distorted. So we use chroma-scale representation, pre-processing, compensation, and asymmetric dynamic time warping to reduce the influence of the distortions. From the experiment with 28 hour music DB, the performance of our QbSH system based on polyphonic database is very promising in comparison with the published QbSH system based on monophonic database. It shows 0.725 in MRR(Mean Reciprocal Rank). Our matching engine can be used for the QbSH system based on MIDI DB also and that performance was verified by MIREX 2011.

A Novel Query-by-Singing/Humming Method by Estimating Matching Positions Based on Multi-layered Perceptron

  • Pham, Tuyen Danh;Nam, Gi Pyo;Shin, Kwang Yong;Park, Kang Ryoung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권7호
    • /
    • pp.1657-1670
    • /
    • 2013
  • The increase in the number of music files in smart phone and MP3 player makes it difficult to find the music files which people want. So, Query-by-Singing/Humming (QbSH) systems have been developed to retrieve music from a user's humming or singing without having to know detailed information about the title or singer of song. Most previous researches on QbSH have been conducted using musical instrument digital interface (MIDI) files as reference songs. However, the production of MIDI files is a time-consuming process. In addition, more and more music files are newly published with the development of music market. Consequently, the method of using the more common MPEG-1 audio layer 3 (MP3) files for reference songs is considered as an alternative. However, there is little previous research on QbSH with MP3 files because an MP3 file has a different waveform due to background music and multiple (polyphonic) melodies compared to the humming/singing query. To overcome these problems, we propose a new QbSH method using MP3 files on mobile device. This research is novel in four ways. First, this is the first research on QbSH using MP3 files as reference songs. Second, the start and end positions on the MP3 file to be matched are estimated by using multi-layered perceptron (MLP) prior to performing the matching with humming/singing query file. Third, for more accurate results, four MLPs are used, which produce the start and end positions for dynamic time warping (DTW) matching algorithm, and those for chroma-based DTW algorithm, respectively. Fourth, two matching scores by the DTW and chroma-based DTW algorithms are combined by using PRODUCT rule, through which a higher matching accuracy is obtained. Experimental results with AFA MP3 database show that the accuracy (Top 1 accuracy of 98%, with an MRR of 0.989) of the proposed method is much higher than that of other methods. We also showed the effectiveness of the proposed system on consumer mobile device.

거리 측정방법에 따른 쿼리-바이-싱잉/허밍 시스템의 성능 변화 (Performance of Query-by-singing/humming system depending on the distance metric)

  • 장세진;장달원;이석필
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.261-263
    • /
    • 2011
  • 이 논문에서는 쿼리-바이-싱잉/허밍 (Query-by-singing/humming, QbSH) 시스템에서의 거리 함수를 다양화하면서 그 성능 변화를 살펴본다. QbSH는 디지털 음악의 사용이 보편화되면서 음악 검색의 방법으로 많은 연구가 진행되어 왔으며, 많은 경우, dynamic time warping (DTW) 방법으로 사용해서 정합하고 있다. 그러나, DTW에서 사용하는 거리에 대해서는 특별한 관심을 가지지 않았으며, 일반적으로 절대적 차이값이나 그것의 제곱값을 많이 사용해 왔다. 이 논문에서는 여러 가지 거리에 대해서 성능을 측정하였다. 성능측정은 특정한 시스템에서 이루어진 것이기 때문에 일반성을 가지지 않을 수 있으나, DTW에서 사용하는 거리를 기존의 것과 다른 것으로 변화시켜서 성능을 향상시킬 가능성이 있음을 이 논문에서는 밝힌다. 본 논문에서는 10-12초 길이의 1000번의 쿼리 (Query)에 대해서 28시간 정도의 데이터베이스에서 실험한 결과, 논문에서 제안하는 거리가 기존의 절대적 차이값을 사용한 것보다 제1후보 검출 정확도가 10% 가량 상승함을 확인할 수 있었다.

  • PDF

허밍 기반 음원 검색을 위한 오디오 특징 시퀀스 데이터 색인 기법 개발 (Development of Audio Feature Sequence Data Indexing Method for Query by Singing and Humming)

  • 송재종;임태범
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.381-384
    • /
    • 2013
  • 본 논문에서는 허밍기반 음원 검색 시스템을 위한 오디오 특징 시퀀스 데이터 색인 기법을 제안한다. 우선 Query-by-Singing/Humming (QbSH) 시스템의 특징 데이터베이스를 생성하기 위하여 MP3 와 같은 다성음원에서 주요 멜로디를 추출하여 시퀀스데이터를 생성하고, 고속 검색을 지원하기 위한 시퀀스데이터를 색인화한다. 본 논문에서는 최소 Dynamic Time Warping (DTW) 거리 기법, 시퀀스 추상화 기법, 상한 값 기반 DTW 기법과 같이 세 가지의 시퀀스 데이터의 색인화 기술을 제시하고 각각에 대한 문제점을 파악하고, 성능을 평가한다. 이를 통하여 향상된 검색 시간과 검색 정확도를 얻을 수 있다.

  • PDF

쿼리-바이-싱잉/허밍 시스템의 매칭 엔진의 강인성 테스트 (Test for robustness of matching engine designed for query-by-singing/humming)

  • 장달원;장세진;이석필
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.257-259
    • /
    • 2012
  • 이 논문에서는 실험을 통해서, 기존에 제안하였던 쿼리-바이-싱잉/허밍 (Query-by-singing/humming, QbSH) 시스템의 매칭 엔진의 강인성을 검증하고 그 결과를 제시한다. QbSH 시스템은 디지털 음악의 사용이 보편화되면서 음악 검색의 방법으로 많은 연구가 진행되어 오고 있다. QbSH 시스템은 입력으로부터 멜로디의 특징을 추출하는 부분과 추출된 특징을 매칭하는 부분으로 나눌 수 있는데, 매칭 단계에서 특징이 추출된 두 개의 멜로디 사이의 유사도 또는 거리를 계산하여 가장 유사한 멜로디를 데이터베이스에서 찾게 된다. 이 논문에서는 이 중, 기존에 제안하였던 매칭 엔진 부분의 강인성을 알아보기 위해서 입력으로부터 멜로디의 피치 시퀀스를 추출하는 과정을 간략히 하여 그 결과를 살펴보았다. 즉, 기존에 제안한 매칭 엔진이 특정한 피치 시퀀스 추출 과정에서만 좋은 성능을 보이는 게 아님을 실험을 통해서 살펴보았다. 실험 결과, 피치 시퀀스를 추출하는 과정이 극도로 간략해지더라도, 매칭 엔진을 좋은 성능을 보여주었다.

  • PDF

다성음원 기반 QbSH 시스템을 위한 매칭엔진의 설계 및 구현 (Design and Implementation of Matching Engine for QbSH System Based on Polyphonic Music)

  • 박성주;정광수
    • 한국멀티미디어학회논문지
    • /
    • 제15권1호
    • /
    • pp.18-31
    • /
    • 2012
  • 본 논문은 다성음원에서 추출된 특성정보 기반 QbSH (Query-by-Singing/ Humming) 시스템의 매칭엔진에 대해 제안하였다. 다성음원 기반 QbSH 시스템은 사람의 노래나 허밍에서 추출된 특성정보와 MP3 파일과 같은 다성음원에서 추출된 특성정보를 비교하여, 가장 유사한 음원을 검색하는 시스템이다. 제안된 매칭엔진에는 다성음원에서 특성 추출시 발생하는 오류를 줄이고, 매칭성능을 향상시키기 위해 크로마-스케일 표현기법 (Chroma-Scale Representation), 보상기법 (Compensation) 및 비대칭적 DTW (Asymmetric Dynamic Time Warping) 알고리즘을 적용하였다. 또한 다양한 거리 함수 (Distance Metric)를 적용하여 매칭엔진의 성능향상을 확인하였다. 1,000개의 허밍 질의와 450곡의 다성음원 데이터베이스를 기반으로 제안한 QbSH 시스템의 성능 실험을 수행하다. 성능 평가를 통해 제안한 QbSH 시스템이 MRR (Mean Reciprocal Rank) 0.718의 정확도를 가지는 것으로 확인되었다.

오디오 Fingerprint를 이용한 음악인식 연구 동향 (Music Recognition Using Audio Fingerprint: A Survey)

  • 이동현;임민규;김지환
    • 말소리와 음성과학
    • /
    • 제4권1호
    • /
    • pp.77-87
    • /
    • 2012
  • Interest in music recognition has been growing dramatically after NHN and Daum released their mobile applications for music recognition in 2010. Methods in music recognition based on audio analysis fall into two categories: music recognition using audio fingerprint and Query-by-Singing/Humming (QBSH). While music recognition using audio fingerprint receives music as its input, QBSH involves taking a user-hummed melody. In this paper, research trends are described for music recognition using audio fingerprint, focusing on two methods: one based on fingerprint generation using energy difference between consecutive bands and the other based on hash key generation between peak points. Details presented in the representative papers of each method are introduced.

실용 QbSH 시스템 개발에 관한 연구 (A Study of Practicla QbSH System Development)

  • 송재종;장세진;박호종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.637-640
    • /
    • 2012
  • 본 논문에서는 다성 음원 기반의 다양한 응용 분야에서 적용이 가능한 실용 Query by Singing/Humming (QbSH) 시스템을 구현한다. 이를 위해서 검색 서버을 위한 소프트웨어 스택을 개발하고 다양한 형태의 클라이언트와 함께 임베디드 시스템과 같은 저성능 클라이언트를 위한 허밍검색 에이전트를 개발하여 기존의 클라이언트 시스템에 플러그인 할 수 있는 모듈을 개발한다. 실용 QbSH 시스템을 개발하기 위하여 각각의 핵심 알고리즘들의 최적의 조합을 이루어 통합된 전체시스템의 성능을 평가한다. 학술적인 연구에만 그쳤던 허밍기반 오디오 검색 서비스를 상업적으로 이용하기 위해 다양한 응용분야의 프로토타입을 구현한다.

크로마 레벨 표현, 동적 시간 왜곡, 꺾인 거리함수에 기반한 멜로디 사이의 유사도 개발 (Development of melody similarity based on chroma representation, dynamic time warping, and hinge distance)

  • 장달원;박성주;장세진;이석필
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.258-260
    • /
    • 2011
  • 이 논문에서는 쿼리-바이-싱잉/허밍 (Query-by-singing/humming, QbSH) 시스템 또는 커버 노래 인식 (cover song identification) 시스템에서 사용 가능한 멜로디 유사도를 제안한다. QbSH 또는 커버 노래 인식은 디지털 음악의 사용이 보편화되면서 음악 검색의 방법으로 많은 연구가 진행되어 오고 있다. 멜로디 유사도는 이런 시스템을 구현하는데 필수적인 요소이며, 두 개의 음악에서 멜로디가 추출되었다고 가정하고, 추출된 멜로디 사이의 유사한 정도를 수치로 표현한다. QbSh 시스템이나 커버 노래 인식 시스템은 멜로디 유사도에 기반하여 입력 노래와 유사한 노래를 데이터베이스에서 검색하는 작업을 수행한다. 이 논문에서 제안하는 멜로디 유사도 방식은 기존의 많이 연구되던 동적 시간 왜곡 (dynamic time warping, DTW) 방법과 크로마 표현 방법 (chroma representation)을 사용하였다. DTW방법은 비대칭적으로 사용하고 미디 노트 영역에서 표현된 멜로디 특징은 0이상 12 미만의 크로마 레벨로 표현하였다. 기존의 방법에서는 정수값을 많이 사용하였으나 이 논문에서는 실수값을 사용한다. DTW 에 사용하는 거리 함수를 기존에 사용하던 차이의 절대값 대신 꺾인 함수 형태를 사용함으로써 성능을 높였다. QbSH 시스템에서의 실험을 통해서 성능을 검증하였다. 본 논문에서는 10-12초 길이의 1000번의 쿼리(Query)에 대해서 28시간 정도의 데이터베이스에서 실험한 결과, 순위 역의 평균 (Mean reciprocal rank, MRR) 값이 0.713을 보였다.

  • PDF

Development of Audio Melody Extraction and Matching Engine for MIREX 2011 tasks

  • 송재종;장달원;이석필;박호종
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.164-166
    • /
    • 2012
  • In this paper, we proposed a method for extracting predominant melody of polyphonic music based on harmonic structure. Harmonic structure is an important feature parameter of monophonic signal that has spectral peaks at the integer multiples of its fundamental frequency. We extract all fundamental frequency candidates contained in the polyphonic signal by verifying the required condition of harmonic structure. Then, we combine those harmonic peaks corresponding to each extracted fundamental frequency and assign a rank to each after calculating its harmonic average energy. We run pitch tracking based on the rank of extracted fundamental frequency and continuity of fundamental frequency, and determine the predominant melody. For the query by singing/humming (QbSH) task, we proposed Dynamic Time Warping (DTW) based matching engine. Our system reduces false alarm by combining the distances of multiple DTW processes. To improve the performance, we introduced the asymmetric sense, pitch level compensation, and distance intransitiveness to DTW algorithm.

  • PDF