• 제목/요약/키워드: Query By Humming

검색결과 29건 처리시간 0.027초

크로마 레벨 표현, 동적 시간 왜곡, 꺾인 거리함수에 기반한 멜로디 사이의 유사도 개발 (Development of melody similarity based on chroma representation, dynamic time warping, and hinge distance)

  • 장달원;박성주;장세진;이석필
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.258-260
    • /
    • 2011
  • 이 논문에서는 쿼리-바이-싱잉/허밍 (Query-by-singing/humming, QbSH) 시스템 또는 커버 노래 인식 (cover song identification) 시스템에서 사용 가능한 멜로디 유사도를 제안한다. QbSH 또는 커버 노래 인식은 디지털 음악의 사용이 보편화되면서 음악 검색의 방법으로 많은 연구가 진행되어 오고 있다. 멜로디 유사도는 이런 시스템을 구현하는데 필수적인 요소이며, 두 개의 음악에서 멜로디가 추출되었다고 가정하고, 추출된 멜로디 사이의 유사한 정도를 수치로 표현한다. QbSh 시스템이나 커버 노래 인식 시스템은 멜로디 유사도에 기반하여 입력 노래와 유사한 노래를 데이터베이스에서 검색하는 작업을 수행한다. 이 논문에서 제안하는 멜로디 유사도 방식은 기존의 많이 연구되던 동적 시간 왜곡 (dynamic time warping, DTW) 방법과 크로마 표현 방법 (chroma representation)을 사용하였다. DTW방법은 비대칭적으로 사용하고 미디 노트 영역에서 표현된 멜로디 특징은 0이상 12 미만의 크로마 레벨로 표현하였다. 기존의 방법에서는 정수값을 많이 사용하였으나 이 논문에서는 실수값을 사용한다. DTW 에 사용하는 거리 함수를 기존에 사용하던 차이의 절대값 대신 꺾인 함수 형태를 사용함으로써 성능을 높였다. QbSH 시스템에서의 실험을 통해서 성능을 검증하였다. 본 논문에서는 10-12초 길이의 1000번의 쿼리(Query)에 대해서 28시간 정도의 데이터베이스에서 실험한 결과, 순위 역의 평균 (Mean reciprocal rank, MRR) 값이 0.713을 보였다.

  • PDF

MPQF 비동기 검색 인터페이스를 이용한 허밍 검색 시스템의 설계 및 구현 (Design and Implementation of Query-by-humming system using MPQF asynchronous search interface)

  • 이종설;장세진;이석필
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.215-218
    • /
    • 2012
  • 반도체 기술 및 방송통신기술의 발달에 따라 소비자는 복잡하고 다양한 서비스 환경을 접하고 있으며, 개인당 소비되는 콘텐츠의 양은 기하급수적으로 증가 되고 있다. 스마트폰과 같은 멀티미디어기기의 발전으로 기존의 단순 시청에서 벗어나 멀티미디어 검색과 추천과 같은 다양한 서비스들이 제공되고 있으며, 웹과 인터넷을 기반으로 하는 정보기술은 모바일 전자 기술의 발달에 따라 데스크톱이라는 공간적인 한계를 벗어나 유기적인 유비쿼터스 환경으로 변화하고 있다. 이와 같이 소비자들이 접하는 멀티미디어의 양이 증가됨에 따라, 멀티미디어를 검색하기 위한 다양 서비스들이 사업자들을 통해 제공되고 있다. 그러나 사업자들이 구축한 서버들은 공유되어지지 못하며, 공유되더라도 공유하기 위한 방법이 제각각이다. 이에 MPEG에서는 멀티미디어 콘텐츠를 검색하기 위한 질의 구조를 표준화 하여, 서비스 제공자 및 소비자들에게 유용한 검색 인터페이스를 제공하였다. 이에 본 논문에서는 MPEG Query Format에 기반 하여 임베디드 환경에서 광대한 양의 음악 콘텐츠에서 사용자가 원하는 허밍 질의를 편리하게 검색하기 위한 방법을 성계 및 구현한다.

  • PDF

Music Information Retrieval(MIR)을 활용한 음악적 리듬의 시각화 연구 -Onset 검출(Onset Detection) 알고리즘에 의한 시각화 어플리케이션 (A Study on Visualization of Musical Rhythm Based on Music Information Retrieval)

  • 최수환
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.1075-1080
    • /
    • 2009
  • 이 글은 Music Information Retrieval(MIR) 기법을 사용하여 오디오 콘텐츠의 리듬 정보를 자동으로 분석하고 이를 시각화하는 방법에 대해 다룬다. 특히 MIR을 활용한 간단한 시각화(sound visualization) 어플리케이션을 소개함으로써 음악 정보 분석이 디자인, 시각 예술에서 다양하게 활용될 수 있음을 보이고자 한다. 음악적 정보를 시각 예술로 담아내려는 시도는 20세기 초 아방가르드 화가들에 의해 본격적으로 시작되었다. 80년대 이후에는 컴퓨터 기술의 급속한 발전으로 사운드와 이미지를 디지털 영역에서 쉽게 하나로 다룰 수 있게 되었고, 이에 따라 다양한 오디오 비주얼 예술작품들이 등장하였다. MIR은 오디오 콘텐츠로부터 음악적 정보를 분석하는 DSP(Digital Signal Processing) 기술로 최근 디지털 콘텐츠 시장의 확장과 더불어 연구가 활발히 진행되고 있다. 특히 웹이나 모바일에서는 이미 다양한 상용 어플리케이션이 적용되고 있는데 query-by-humming과 같은 음악 인식 어플리케이션이 대표적인 경우이다. 이 글에서는 onset 검출(onset detection)을 중심으로 음악적 리듬을 분석하는 알고리즘을 살펴보고 기본적인 조형원리에 따라 이를 시각화하는 어플리케이션의 예를 소개한다.

  • PDF

오디오 Fingerprint를 이용한 음악인식 연구 동향 (Music Recognition Using Audio Fingerprint: A Survey)

  • 이동현;임민규;김지환
    • 말소리와 음성과학
    • /
    • 제4권1호
    • /
    • pp.77-87
    • /
    • 2012
  • Interest in music recognition has been growing dramatically after NHN and Daum released their mobile applications for music recognition in 2010. Methods in music recognition based on audio analysis fall into two categories: music recognition using audio fingerprint and Query-by-Singing/Humming (QBSH). While music recognition using audio fingerprint receives music as its input, QBSH involves taking a user-hummed melody. In this paper, research trends are described for music recognition using audio fingerprint, focusing on two methods: one based on fingerprint generation using energy difference between consecutive bands and the other based on hash key generation between peak points. Details presented in the representative papers of each method are introduced.

실용 QbSH 시스템 개발에 관한 연구 (A Study of Practicla QbSH System Development)

  • 송재종;장세진;박호종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.637-640
    • /
    • 2012
  • 본 논문에서는 다성 음원 기반의 다양한 응용 분야에서 적용이 가능한 실용 Query by Singing/Humming (QbSH) 시스템을 구현한다. 이를 위해서 검색 서버을 위한 소프트웨어 스택을 개발하고 다양한 형태의 클라이언트와 함께 임베디드 시스템과 같은 저성능 클라이언트를 위한 허밍검색 에이전트를 개발하여 기존의 클라이언트 시스템에 플러그인 할 수 있는 모듈을 개발한다. 실용 QbSH 시스템을 개발하기 위하여 각각의 핵심 알고리즘들의 최적의 조합을 이루어 통합된 전체시스템의 성능을 평가한다. 학술적인 연구에만 그쳤던 허밍기반 오디오 검색 서비스를 상업적으로 이용하기 위해 다양한 응용분야의 프로토타입을 구현한다.

마이크 성능과 노래 만족도가 허밍질의에 미치는 영향 (How Microphone Performance and Sung Confidence Influence on Query by Humming)

  • 현경우;남현우;박능수;권순일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.157-160
    • /
    • 2008
  • 이 논문은 허밍질의의 정확도 향상에 마이크와 같은 장비에 특성, 허밍을 하는 사용자의 숙련도가 어느 정도 반영되는지 알아본다. 연구의 결과 검색의 정확도는 마이크 성능에 독립적임을 보였고, 사용자가 노래를 아는 정도와 노래를 부른 만족도가 검색 순위를 상승시키는데 미치는 영향이 없거나 미미함을 실험결과를 통해 보다 이와 같은 실험 결과들은 허밍질의 검색의 정확도 향상을 위한 연구에서 참고자료로 사용될 것이다.

내용기반 음악정보 검색시스템을 위한 이용자 중심의 질의 인터페이스 설계에 관한 연구 (A User Study on Information Searching Behaviors for Designing User-centered Query Interface of Content-Based Music Information Retrieval System)

  • 이윤주;문성빈
    • 정보관리학회지
    • /
    • 제23권2호
    • /
    • pp.5-19
    • /
    • 2006
  • 본 연구에서는 기존의 시스템 중심의 방식에서 벗어나 각 이용자 집단에게 효율적이고 만족스러운 내용기반 음악 정보검색(Music Information Retrieval : MIR)의 질의인터페이스를 설계하고자 각 집단의 음악정보탐색행위를 연구하였다. 연구대상 집단은 음악분야의 전문 지식 여부에 따라 2개의 전공자 집단(작곡전공, 성악/기악전공)과 2개의 비전문가 집단(아마추어 비전문가, 순수 비전문가)으로 구분하여 모집하였다. 모집방법은 연구대상자 선정과정을 포함한 누증표집(snowball sampling) 기법과 이론적 샘플링(theoretical sampling) 기법을 이용하였고 최종적으로 전공자 집단 7명, 비전문가 집단 7명 모두 14명이 실험에 참가하였다. 탐색실험, think-aloud, 참여관찰, 탐색후 질문지법과 심층 인터뷰를 통해 얻은 자료를 분석 및 통합하여 결과를 도출하였다. 작곡 전공의 전문가 집단은 정확한 음렬로 질의를 입력할 수 있는 인터페이스(건반, 텍스트, 악보 입력)를 선호하였고, 비작곡 전공의 전문가 집단과 비전문가 집단은 허밍 질의 인터페이스를 선호하였다. 각 질의 방법의 입력오류를 최소화시키기 위한 연구가 더 필요하다.

Development of Audio Melody Extraction and Matching Engine for MIREX 2011 tasks

  • 송재종;장달원;이석필;박호종
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.164-166
    • /
    • 2012
  • In this paper, we proposed a method for extracting predominant melody of polyphonic music based on harmonic structure. Harmonic structure is an important feature parameter of monophonic signal that has spectral peaks at the integer multiples of its fundamental frequency. We extract all fundamental frequency candidates contained in the polyphonic signal by verifying the required condition of harmonic structure. Then, we combine those harmonic peaks corresponding to each extracted fundamental frequency and assign a rank to each after calculating its harmonic average energy. We run pitch tracking based on the rank of extracted fundamental frequency and continuity of fundamental frequency, and determine the predominant melody. For the query by singing/humming (QbSH) task, we proposed Dynamic Time Warping (DTW) based matching engine. Our system reduces false alarm by combining the distances of multiple DTW processes. To improve the performance, we introduced the asymmetric sense, pitch level compensation, and distance intransitiveness to DTW algorithm.

  • PDF

MPEG-7 오디오 하위 서술자를 이용한 음악 검색 방법에 관한 연구 (A Study on the Music Retrieval System using MPEG-7 Audio Low-Level Descriptors)

  • 박만수;박철의;김회린;강경옥
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2003년도 정기총회 및 학술대회
    • /
    • pp.215-218
    • /
    • 2003
  • 본 논문에서는 MPEG-7에 정의된 오디오 서술자를 이용한 오디오 특징을 기반으로 한 음악 검색 알고리즘을 제안한다. 특히 timbral 특징들은 음색 구분을 용이하게 할 수 있어 음악 검색뿐만 아니라 음악 장르 분류 또는 Query by humming에 이용 될 수 있다. 이러한 연구를 통하여 오디오 신호의 대표적인 특성을 표현 할 수 있는 특징벡터를 구성 할 수 있다면 추후에 멀티모달 시스템을 이용한 검색 알고리즘에도 오디오 특징으로 이용 될 수 있을 것이다 본 논문에서는 방송 시스템에 적용 할 수 있도록 검색 범위를 특정 컨텐츠의 O.S.T 앨범으로 제한하였다. 즉, 사용자가 임의로 선택한 부분적인 오디오 클립만을 이용하여 그 컨텐츠 전체의 O.S.T 앨범 내에서 음악을 검색할 수 있도록 하였다. 오디오 특징벡터를 구성하기 위한 MPEG-7 오디오 서술자의 조합 방법을 제안하고 distance 또는 ratio 계산 방식을 통해 성능 향상을 추구하였다. 또한 reference 음악의 템플릿 구성 방식의 변화를 통해 성능 향상을 추구하였다. Classifier로 k-NN 방식을 사용하여 성능 평가를 수행한 결과 timbral spectral feature들의 비율을 이용한 IFCR(Intra-Feature Component Ratio) 방식이 Euclidean distance 방식보다 우수한 성능을 보였다.

  • PDF