• Title/Summary/Keyword: 오디오 분할

Search Result 49, Processing Time 0.035 seconds

서포트 벡터 머신과 퍼지 클러스터링 기법을 이용한 오디오 분할 및 분류 (Audio Segmentation and Classification Using Support Vector Machine and Fuzzy C-Means Clustering Techniques)

  • ;강명수;김철홍;김종면
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.19-26
    • /
    • 2012
  • 최근 멀티미디어 정보가 급증함에 따라 콘텐츠 관리에 대한 요구도 함께 증가되고 있다. 이에 오디오 분할 및 분류는 멀티미디어 콘텐츠를 효과적으로 관리할 수 있는 대안이 될 수 있다. 따라서 본 논문에서는 동영상에서 취득한 오디오 신호를 분할하고, 분할된 오디오 신호를 음악, 음성, 배경 음악이 포함된 음성, 잡음이 포함된 음성, 묵음(silence)으로 분류하는 정확도가 높은 오디오 분할 및 분류 알고리즘을 제안한다. 제안하는 알고리즘은 오디오 분할을 위해 서포트 벡터 머신(support vector machine, SVM)을 이용하였다. 오디오 신호의 분류를 위해서는 분할된 오디오 신호의 특징을 추출하고 이를 퍼지 클러스터링 알고리즘(fuzzy c-means, FCM)의 입력으로 사용하여 각 계층으로 오디오 신호를 분류하였다. 제안하는 알고리즘의 평가는 분할과 분류에 대해 각각 그 성능을 평가하였으며, 분할 성능 평가는 정확도율(precesion rate)과 오차율(recall rate)을 이용하였으며, 분류 성능 평가는 정확성(classification accuracy)을 사용하였다. 또한 오디오 분할의 경우는 이진 분류기와 퍼지 클러스터링을 이용한 기존의 알고리즘과 그 성능을 비교하였다. 모의 실험 결과, 제안한 알고리즘의 분류 성능이 기존 알고리즘 보다 정확도율과 오차율 면에서 모두 우수하였다.

스마트 TV의 골프동영상 썸네일 생성을 위한 오디오기반 경계영역 검출 기법 (Thumbnail Generation of Golf Videos Using Audio-Based Boundary Detection for Smart TV)

  • 최희민;이진호;김형국
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.494-495
    • /
    • 2011
  • 본 논문에서는 스마트 TV 시청시에 녹화하는 골프 동영상에서 오디오기반의 경계영역 검출를 이용하여 썸네일을 고속으로 생성하는 방법을 제안한다. 제안된 방법은 녹화되는 골프동영상의 인코딩된 오디오 정보로 부터 추출된 MDCT계수를 이용하여 온셋 구간 검출 및 오디오 세그먼테이션을 수행함으로써 골프 동영상을 6개의 오디오 클래스로 자동 분할한다. 분할된 오디오 세그먼트와 상응하는 비디오 프레임을 맵핑하여 골프 동영상의 썸네일을 생성한다. 제안된 오디오기반 경계영역 검출방법의 성능 측정 결과, 97.4%의 Recall과 96.85%의 Precision의 우수한 분류 성능을 나타내었다.

  • PDF

오디오 특징계수를 이용한 시계열 패턴 인덱스 화일의 뮤지션 검색 기법 (Musician Search in Time-Series Pattern Index Files using Features of Audio)

  • 김영인
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.69-74
    • /
    • 2006
  • 최근 멀티미디어 내용기반 검색 기술의 발달로 음악 정보 검색 기술 중 하나인 오디오 특징을 이용한 뮤지션 검색에 대한 관심이 증대되고 있다. 그러나 이와 관련한 음악 데이타베이스의 인덱싱 기법에 대한 연구는 부족한 실정이다. 본 논문에서는 시계열 패턴 인덱스 화일의 공간 분할 방법을 이용하여 오디오 특징 데이터를 사용한 뮤지션 검색 기법을 제시한다. 뮤지션 탐색을 위하여 오디오의 특징을 사용하며, 유사한 후보 뮤지션의 곡을 탐색하기 위한 인덱싱 기법으로 시계열 패턴 인덱스 화일을 사용한다. 실험 결과, 윤번 공간 분할 방법을 사용한 시계열 패턴 인덱스 화일이 뮤지션 검색에 있어서 효율적임을 보였다.

  • PDF

웨이블렛 변환을 이용한 오디오 코딩 (Audio Signal Coding Using Wavelet Transform)

  • 배석모;김도형;정재호
    • 한국음향학회지
    • /
    • 제16권4호
    • /
    • pp.64-70
    • /
    • 1997
  • 본 논문은 MPEG의 서브밴드 필터링을 웨이블렛 변환으로 대체하였을 때 얼마만큼의 계산량이 감소하는 가를 연구하였다. MPEG 오디오에서는 16비트 PCM 오디오 데이타를 입력으로 받아 서브밴드 필터링후 서브밴드 샘플을 양자화하여 전송하는 것을 기본으로 한다. MPEG의 서브밴드 필터링의 경우 32 대역의 등간격으로 분할한다. 이 경우 32개의 필터가 필요하고 각 필터는 512의 길이를 갖는 필터를 사용한다. 본 연구에서는 분할 대역을 6개로 하고 웨이블렛 필터중 가장 짧은 Haar 필터를 사용하였다. 제안된 시스템은 256kbps 이상의 전송율에서는 MPEG 오디오와 비슷한 수준의 CD 음질을 유지하였으며, 계산량 비교결과 부호화기는 약 40%, 복호화기는 약 70%의 감소를 보였다.

  • PDF

EM 최적화를 이용한 오디오 텍스처 합성 (Audio Texture Synthesis using EM Optimization)

  • 노창환;유민준;이인권
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.274-280
    • /
    • 2007
  • 오디오 텍스처 합성은 주어진 짧은 오디오 클립으로부터 임의의 길이를 갖는 새로운 오디오 클립을 생성하는 방법이다. 이는 애니메이션이나 영화에서 비디오와 정확한 동기화를 이루는 사운드 효과를, 혹은 임의의 길이를 갖는 배경 음악을 효율적으로 만들 수 있는 방법이다. 최근 Lie Lu는 주어진 예제 오디오 클립을 여러 조각으로 나눈 후, 이 조각들을 그래프 형태로 연결하고, 생성된 그래프를 탐색하면서 임의의 길이를 가지는 오디오 클립을 합성하는 방법을 제안하였다. 비교적 간단한 방법으로도 원본 오디오 클립과 비슷한 느낌의 오디오 클립을 만들어낸다는 장점이 있지만, 이는 원본 내의 여러 오디오 조각들이 단지 지속적으로 연결되는 형태로 합성되기 때문에 종종 반복되는 느낌을 받는다는 단점이 있다. 본 논문에서는 Lie Lu의 방법과는 달리 주어진 예제 오디오 클립을 직접 합성함으로써 반복성을 줄이면서도 원본과 비슷한 느낌을 갖는 결과 오디오 클립을 생성할 수 있는 방법을 제안한다. 특히 본 논문에서는 정확한 합성을 위하여 EM 최적화 방법을 사용한다. 본 논문에서 제안하는 합성 방법은 먼저 예제 오디오 클립을 일정 단위로 나누고 이렇게 나눠진 부분들을 일정 길이만큼 서로 겹쳐지게 합성하여 임의의 길이의 오디오 클립을 만든다. 그 후 만들어진 오디오 클립을 예제 오디오 클립과 부분 부분을 비교하여 확장된 오디오 클립과 최대한 비슷한 부분을 예제 오디오 클립에서 찾는다. 그 다음 찾아진 결과를 결과 오디오에 다시 합성하여 오디오 클립을 만든다. 이런 과정을 반복하여 최적화된 가장 적절한 결과값을 구한다. 이 결과는 분할된 부분들이 가장 자연스럽게 이어지는 결과가 된다. 본 논문에서는 최적화를 사용하여 오디오를 합성하기 때문에 합성 결과를 쉽게 조정할 수 있다는 장점이 있다. 최적화 문제에 특정 제약 조건을 넣음으로써 사용자가 원하는 부분의 음악이 결과 사운드의 특정 부분에 위치 할 수 있게 하고 이로써 특정 흐름을 만들어낼 수 있으며, 일부가 손실된 사운드 데이터의 복구를 가능하게 하는 등의 결과를 생성할 수 있다. EM 최적화를 사용한 오디오 텍스처 합성 방법은 기존의 합성 방법에 비해 질적인 측면에서 보다 좋은 결과를 생성할 수 있고, 비교적 반복이 덜한 패턴들을 만들어 낼 수 있다. 이를 입증하기 위해 이에 대한 사용자 설문 조사 결과가 제시된다.

  • PDF

오토마타를 이용한 가변재생 비디오 브라우징 시스템 (A Variable Playback Video Browsing System using Automata)

  • 김기원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.209-212
    • /
    • 2001
  • 본 논문의 연구 목적은 효율적인 비디오 브라우징에 관한 연구이다. 비디오 스트림을 효율적으로 저장 및 재생하는 브라우징 시스템의 기본 구조로는 결정적 유한 오토마타를 사용하였다. 인덱싱 단계에서는 기존의 비디오 정보 또는 오디오 정보 한가지만을 사용하여 분야별로 특수하게 모델링하는 방법을 개선하여 비디오 스트림과 오디오 스트림 모두를 이용하는 새로운 인덱싱 방법을 제시하였다. 즉, 일차적으로 비디오 정보를 이용하여 동영상 데이터를 장면 단위로 분할한 후, 오디오 정보를 이용하여 에피소드 단위로 분할하여 인덱싱을 실행하였다. 이를 결정적 유한 오토마타 형태의 논리적인 구조로 에피소드들을 재구성하여 사용자의 요구에 따라 가변적인 재생 시간을 갖는 비디오 브라우징 시스템을 설계하였다.

  • PDF

사용자 기반 실감 객체 오디오 파일 포맷 및 오디오 장면 묘사 기법 (An User Controllable Object Audio File Format and Audio Scene Description)

  • 조충상;김제우
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.25-33
    • /
    • 2010
  • 최근의 오디오 기술은 사용자 중심으로 변화하고 있으며, 사용자의 환경과 의도에 따라 능동적으로 서비스가 이루어지는 대화형 오디오 서비스 시대로 변화하고 있다. 이에 맞추어 시장에서는 고품질 오디오 서비스를 위한 무손실 오디오 기술을 탑재한 멀티미디어 기기와 사용자가 선택적으로 악기를 조절할 수 있는 객체 오디오 음원 서비스가 이루어지고 있다. 본 논문에서는 사용자가 컨트롤 할 수 있는 실감 객체 오디오 파일 포맷을 설계하고 실감 정보를 낮은 복잡도에서 저장 매체와 전송 매체에 적용 가능한 오디오 장면 묘사 방법을 제안한다. 설계된 실감 객체 오디오 파일 포맷은 MPEG-4 파일 포맷을 기반으로 설계되었다. MPEG-4 파일 포맷은 MPEG-4에 속하는 고성능 오디오 코덱을 오디오 코덱 객체 번호를 통해서 쉽게 적용가능하다. 또한 오디오 객체 개수의 변화에 따라 파일 포맷의 트랙을 변화 시켜 사용하면 되므로 객체 오디오를 포함하기에 적절하다. 본 연구에서 개발된 파일 포맷은 실감 객체오디오 생성시 MPEG-4 오디오 코덱으로 압축된 객체 오디오, 실감 객체 오디오를 위한 오디오 장면 묘사 데이터를 독립적인 트랙으로 포함하고 있다. 포함된 오디오 장면 묘사 기법은 저장 매체를 위해 전체 오디오 장면에 적용되는 오디오 묘사 기법과 각각의 오디오 객체에 적용되는 오디오 묘사 기법을 노드 구조로 설계 하였으며, 전송 매체를 위해서 기본적인 객체 오디오 동작을 하기위한 필수 정보와 오디오 세부장면 묘사를 위한 정보로 분할하여 설계하였다. 이를 바탕으로 본 연구에서는 실감 객체 오디오 시뮬레이터를 개발하였다. 개발된 시뮬레이터는 객체 음원과 오디오 장면 묘사 정보를 부호화하여 MPEG-4 파일 포맷에 저장하며, 생성된 실감 객체 오디오 파일은 재생 모듈에서 오디오 객체에 입력 받은 사용자 정보와 오디오 장면 묘사 정보가 적용되어 사용자에게 몰입감이 높은 실감 오디오 서비스를 제공한다.

MPEG-2 오디오 부호화기 설계 (Design of An MPEG-2 Audio Encoder Chip)

  • 정남훈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.205-208
    • /
    • 1998
  • 본 논문에서는 VLSI 기술에 바탕을 둔 top-down 접근 방식에 의하여 MPEG-2 오디오 부호화 알고리듬을 구현하였다. MPEG-2 오디오 부호화기의 알고리듬은 많은 연산량을 갖고 이질적인 특성을 갖고 이질적인 특성을 갖는 알고리듬들이 복합적으로 존재한다. 그러므로, 부호화기를 효과적으로 구현하기 위해서는 알고리듬 수준에서 구조적 수준에 이르기까지 많은 고찰이 이루어져야 한다. 본 논문에서는 우선 전체 부호화 알고리듬을 분석하여 이들을 다시 작업이라고 정의된 작은 부-알고리듬으로 나누었다. 다음으로, 분할된 작업들은 시간과 공간을 초대한 활용할 수 있도록 적절한 작업 순서를 부여하고, 좀 더 큰 모듈들로 모으는 클러스터링을 수행하였다. 마지막으로 이러한 분석 결과를 바탕으로, 실시간으로 동작하는 5.1 채널 MPEG-2 오디오 부호화기를 설계하였다. 설계된 시스템은 두 개의 하드웨어 블록과 한 개의 ASIP형 DSP 프로세서를 갖는 이질적인 다중 프로세서의 형태를 갖는다. 설계된 오디오 부호화기는 0.6$\mu\textrm{m}$ 표준 셀 기술을 이용하여 단일 칩으로 제작되었으며, PC에 탑재 가능한 시험 기판을 제작하여 동작을 검증하였다.

  • PDF

음악 장르 분류를 이용한 자동차 오디오 시스템에서의 이퀄라이저 자동 조절 방식 (Automatic Equalizer Control Method Using Music Genre Classification in Automobile Audio System)

  • 김형국;남상순
    • 한국ITS학회 논문지
    • /
    • 제8권4호
    • /
    • pp.33-38
    • /
    • 2009
  • 본 논문은 자동차 오디오 시스템에 내장된 라디오에서 실시간으로 재생되는 연속적인 오디오 신호로부터 음악 신호를 선별하고, 해당 음악에 대한 실시간 음악장르 분류를 통해 자동으로 이퀄라이저를 조절하는 방식을 제안한다. 제안된 방식에서는 음악분류 정확도를 높이고 실시간 신호처리를 실행하기 위해 연속적인 오디오 신호로부터 추출한 음색 특징 벡터와 리듬 특징 벡터를 GMM (Gaussian mixture model) 분류 방식에 적용하여 음악 분류를 수행한다. 제안된 방식은 카오디오 시스템의 라디오로부터 출력된 오디오 신호로부터 분할된 다양한 오디오 구간을 5가지 음악장르로 분류하여 음악 장르 분류 성능을 측정하였다.

  • PDF

가변 대역분할 웨이블릿필터를 이용한 오디오 부호화기 (Audio Coder Using Variable Subband Wavelet Filter)

  • 김준성;강현철;변윤식
    • 한국음향학회지
    • /
    • 제17권5호
    • /
    • pp.57-62
    • /
    • 1998
  • 본 논문에서는 입력신호의 시변특성에 따라 분석 필터의 대역을 가변 시키는 필터 뱅크의 구조를 제안한다. 제안된 필터뱅크는 일반적으로 32개의 균일한 대역으로 나누어 임 계대역의 표현을 적절히 표현하지 못하는 Polyphase 필터의 단점을 극복하면서 시스템 설 계에 높은 계산량을 요구하는 QMF-tree 필터의 단점을 보완한다. 본 연구에서는 분할 대역 은 4개에서 26개의 대역으로 가변하고, 웨이블릿 필터중 Daubechies필터를 사용하였다. 제 안된 구조의 부호화기는 128kbps에서 MPEG-a오디오와 비슷한 수준의 CD 음질을 유지하 며, 연산량 비교결과는 PolyPhase filter를 이용한 MPEG보다 부호화, 복호화 과정을 합쳐 다양한 전송률과 음원에서 평균 19%의 감소를 얻었다.

  • PDF