• 제목/요약/키워드: Audio retrieval

검색결과 102건 처리시간 0.026초

XML 메타데이터 모델링기법과 멀티미디어 검색시스템의 제안 (A Proposal of Multimedia Retrieval System and XML Meta-data Modeling Techniques)

  • 윤미희;조동욱
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2003년도 춘계종합학술대회논문집
    • /
    • pp.393-398
    • /
    • 2003
  • 비디오는 멀티미디어 데이터의 가장 대표적인 형태로, 텍스트나, 이미지, 오디오와 객체의 움직임 같은 풍부한 정보를 담고 있다. 비정형의 멀티미디어 데이터를 다양하고 효율적으로 표현하기 위해서는 XML(extensible Markup Language)을 사용하여 저장하고 검색하는 멀티미디어 검색시스템이 필수적이다. 그러므로 멀티미디어 데이터에 대한 검색을 위해서는 멀티미디어 데이터의 내용을 구조적으로 설명하는 메타데이터가 필요하고 이 메타데이터를 XML을 사용하여 표현하며 저장하고 검색하기 위한 멀티미디어 검색시스템이 요구된다. 본 논문에서는 XML 메타데이터 모델링 기법과 이 모델링 기법을 지반으로 한 멀티미디어 검색시스템을 제안한다.

  • PDF

멀티미디어 데이터베이스 기술현황과 발전방향

  • 김원
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1996년도 멀티미디어 데이터베이스 세미나
    • /
    • pp.3-29
    • /
    • 1996
  • Multimedia Management -Naive View -images, audio, and video -store these as BLOBs, along with a tag, in an RDB for read retrieval(omitted)

  • PDF

음악 특징점간의 유사도 측정을 이용한 동일음원 인식 방법 (Same music file recognition method by using similarity measurement among music feature data)

  • 성보경;정명범;고일주
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권3호
    • /
    • pp.99-106
    • /
    • 2008
  • 최근 다양한 분야에서(웹 포털, 유료 음원서비스 등) 디지털 음악의 검색이 사용되고 있다. 기존의 디지털 음악의 검색은 음악 데이터에 포함된 자체 메타 정보를 이용하여 이루어진다. 하지만 메타 정보가 다르게 작성되었거나 작성되지 않은 경우 정확한 검색은 어렵다. 요즘 이러한 문제의 보완 방안으로 음악자체를 이용하는 내용기반정보 검색 기법에 대한 연구가 이루어지고 있다. 본 논문에서는 음악의 파형에서 추출된 특징 정보간의 유사도 측정을 통하여 동일음원을 인식하는 방법에 대해 논하고자 한다. 디지털 음악의 특징 정보는 단순화시킨 MFCC (Mel Frequency Cepstral Coefficient)를 이용하여 음악의 파형으로부터 추출하였다. 디지털 음악간의 유사도는 Vision 및 Speech Recognition 분야에서 사용되던 DTW (Dynamic Time Warping) 기법을 활용하여 측정하였다. 제안된 동일 음원 인식 방법의 검증을 위한 같은 장르에서 무작위 추출된 1000곡에서 시행한 500번의 검색은 모두 성공했다. 검색에 사용된 500개의 디지털 오디오는 60개의 디지털음원을 압축방식과 비트율을 다르게 조합하여 만들었다. 실험의 결과로 DTW을 이용한 유사도 측정법이 동일음원을 인식할 수 있음을 증명하였다.

  • PDF

사운드 분류기를 이용한 영상검색에 관한 연구 (A Study on Image Retrieval Using Sound Classifier)

  • 김승한;이명순;노승용
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2006년 학술대회 논문집 정보 및 제어부문
    • /
    • pp.419-421
    • /
    • 2006
  • The importance of automatic discrimination image data has evolved as a research topic over recent years. We have used forward neural network as a classifier using sound data features within image data, our initial tests have shown encouraging results that indicate the viability of our approach.

  • PDF

내용기반 오디오 장르 분류를 위한 신호 처리 연구 (A Study on the Signal Processing for Content-Based Audio Genre Classification)

  • 윤원중;이강규;박규식
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.271-278
    • /
    • 2004
  • 본 논문에서는 디지털 신호처리를 이용하여 Classic, Hiphop, Jazz, Rock, Speech 등 5개의 오디오 장르를 자동적으로 분류하는 내용기반 오디오 장르 분류기를 제안하였다. 20초 분량의 질의 오디오로부터 23ms 크기의 Hamming window를 이동시켜 가며 Spectral Centroid, Rolloff, Flux 등 STFT 기반의 특징 계수들과 MFCC, LPC 등의 계수들을 구하여 총 54차에 해당하는 특징 벡터 열을 추출하였으며 분류 알고리즘으로는 k-NN, Gaussian, GMM 분류기를 사용하였다. 최적의 특징 벡터를 선별하는 알고리즘으로 총 54차의 특징벡터 중 가장 성능이 좋은 특징 계수들을 찾아 순차적으로 재배치하는 SFS(Sequential Forward Selection)방법을 사용하였고, 이를 이용하여 최적화 된 10차의 특징 벡터만을 선정해서 오디오 장르 분류에 사용하였다. SFS를 적용한 실험 결과 약 90% 가까운 분류 성공률을 보이고 있어 기존 연구에 비하여 약 10%∼20% 정도의 성능 향상을 꾀 할 수 있었다. 한편 실제 사용자들이 오디오 자동 장르 분류 시스템을 사용할 때 일어날 수 있는 상황을 가정하여 임의 구간에서 질의 데이터를 추출하여 실험을 수행하였으며 실험 결과 오디오 파일의 맨 앞과 맨 뒤 등 worst-case 질의를 제외하고는 약 80%대의 분류 성공률을 얻을 수 있었다.

Music Information Retrieval(MIR)을 활용한 음악적 리듬의 시각화 연구 -Onset 검출(Onset Detection) 알고리즘에 의한 시각화 어플리케이션 (A Study on Visualization of Musical Rhythm Based on Music Information Retrieval)

  • 최수환
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.1075-1080
    • /
    • 2009
  • 이 글은 Music Information Retrieval(MIR) 기법을 사용하여 오디오 콘텐츠의 리듬 정보를 자동으로 분석하고 이를 시각화하는 방법에 대해 다룬다. 특히 MIR을 활용한 간단한 시각화(sound visualization) 어플리케이션을 소개함으로써 음악 정보 분석이 디자인, 시각 예술에서 다양하게 활용될 수 있음을 보이고자 한다. 음악적 정보를 시각 예술로 담아내려는 시도는 20세기 초 아방가르드 화가들에 의해 본격적으로 시작되었다. 80년대 이후에는 컴퓨터 기술의 급속한 발전으로 사운드와 이미지를 디지털 영역에서 쉽게 하나로 다룰 수 있게 되었고, 이에 따라 다양한 오디오 비주얼 예술작품들이 등장하였다. MIR은 오디오 콘텐츠로부터 음악적 정보를 분석하는 DSP(Digital Signal Processing) 기술로 최근 디지털 콘텐츠 시장의 확장과 더불어 연구가 활발히 진행되고 있다. 특히 웹이나 모바일에서는 이미 다양한 상용 어플리케이션이 적용되고 있는데 query-by-humming과 같은 음악 인식 어플리케이션이 대표적인 경우이다. 이 글에서는 onset 검출(onset detection)을 중심으로 음악적 리듬을 분석하는 알고리즘을 살펴보고 기본적인 조형원리에 따라 이를 시각화하는 어플리케이션의 예를 소개한다.

  • PDF

시청각기록물의 기술요소 확장에 관한 연구 (A Study on the Extension of the Description Elements for Audio-visual Archives)

  • 남영준;문정현
    • 한국비블리아학회지
    • /
    • 제21권4호
    • /
    • pp.67-80
    • /
    • 2010
  • 정보산업의 발달로 다양한 기록매체가 출현함에 따라 시청각기록물의 생산량과 이용률이 급증하였으나, 시청각기록물에 대한 인식은 부수적인 가치를 지닌 별도의 기록물로 취급되고 있다. 이와 같이 시청각기록물을 소장하고 있는 기관들은 그 형태의 종류와 보관방법 등의 부분에서 상당히 취약한 면모를 보이고 있으며, 관리하는 방식도 모두 다르기 때문에 이용자들이 시청각기록물의 검색 및 활용에 불편을 겪고 있다. 따라서 본 연구는 국내 주요 기관에서 사용되고 있는 시청각기록물 기술요소의 비교 분석을 통해 시청각기록물의 통합관리 가능성을 조사하였다. 이를 통해 시청각기록물의 기관별 메타데이터 요소와 기관 간 통합관리 가능성을 파악하며, 각 기관에서의 효율적인 시청각기록물의 관리 검색 서비스 제공과 이용에 대한 효과를 제안하고, 시청각기록물의 통합 메타데이터 기술요소 개선안을 제시하였다.

A Practical Digital Video Database based on Language and Image Analysis

  • Liang, Yiqing
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1997년도 International Conference MULTIMEDIA DATABASES on INTERNET
    • /
    • pp.24-48
    • /
    • 1997
  • . Supported byㆍDARPA′s image Understanding (IU) program under "Video Retrieval Based on Language and image Analysis" project.DARPA′s Computer Assisted Education and Training Initiative program (CAETI)ㆍObjective: Develop practical systems for automatic understanding and indexing of video sequences using both audio and video tracks(omitted)

  • PDF

고속 음성 문서 검색을 위한 Expected Matching Score 기반의 문서 확장 기법 (Expected Matching Score Based Document Expansion for Fast Spoken Document Retrieval)

  • 서민구;정규준;오영환
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 추계학술대회 발표논문집
    • /
    • pp.71-74
    • /
    • 2006
  • Many works have been done in the field of retrieving audio segments that contain human speeches without captions. To retrieve newly coined words and proper nouns, subwords were commonly used as indexing units in conjunction with query or document expansion. Among them, document expansion with subwords has serious drawback of large computation overhead. Therefore, in this paper, we propose Expected Matching Score based document expansion that effectively reduces computational overhead without much loss in retrieval precisions. Experiments have shown 13.9 times of speed up at the loss of 0.2% in the retrieval precision.

  • PDF

음악검색을 위한 가변임계치 기반의 음성 질의 변환 기법 (A Threshold Adaptation based Voice Query Transcription Scheme for Music Retrieval)

  • 한병준;노승민;황인준
    • 전기학회논문지
    • /
    • 제59권2호
    • /
    • pp.445-451
    • /
    • 2010
  • This paper presents a threshold adaptation based voice query transcription scheme for music information retrieval. The proposed scheme analyzes monophonic voice signal and generates its transcription for diverse music retrieval applications. For accurate transcription, we propose several advanced features including (i) Energetic Feature eXtractor (EFX) for onset, peak, and transient area detection; (ii) Modified Windowed Average Energy (MWAE) for defining multiple small but coherent windows with local threshold values as offset detector; and finally (iii) Circular Average Magnitude Difference Function (CAMDF) for accurate acquisition of fundamental frequency (F0) of each frame. In order to evaluate the performance of our proposed scheme, we implemented a prototype music transcription system called AMT2 (Automatic Music Transcriber version 2) and carried out various experiments. In the experiment, we used QBSH corpus [1], adapted in MIREX 2006 contest data set. Experimental result shows that our proposed scheme can improve the transcription performance.