• 제목/요약/키워드: 음향신호 분리

검색결과 138건 처리시간 0.026초

뮤직비디오 브라우징을 위한 중요 구간 검출 알고리즘 (Salient Region Detection Algorithm for Music Video Browsing)

  • 김형국;신동
    • 한국음향학회지
    • /
    • 제28권2호
    • /
    • pp.112-118
    • /
    • 2009
  • 본 논문은 모바일 단말기, Digital Video Recorder (DVR) 등에 적용할 수 있는 뮤직비디오 브라우징 시스템을 위한 실시간 중요 구간 검출 알고리즘을 제안한다. 입력된 뮤직비디오는 음악 신호와 영상 신호로 분리되어 음악 신호에서는 에너지기반의 음악 특징값 최고점기반의 구조분석을 통해 음악의 후렴 구간을 포함하는 음악 하이라이트 구간을 검출하고, SVM AdaBoost 학습방식에서 생성된 모델을 이용해 음악신호를 분위기별로 자동 분류한다. 음악신호로부터 검출된 음악 하이라이트 구간과 영상신호로부터 검출된 가수, 주인공의 얼굴이 나오는 영상장면을 결합하여 최종적으로 중요구간이 결정된다. 제안된 방식을 통해 사용자는 모바일 단말기나 DVR에 저장되어 있는 다양한 뮤직비디오들을 분위기별로 선택한 후에 뮤직비디오의 30초 내외의 중요구간을 빠르게 브라우징하여 자신이 원하는 뮤직비디오를 선택할 수 있게 된다. 제안된 알고리즘의 성능을 측정하기 위해 200개의 뮤직비디오를 정해진 수동 뮤직비디오 구간과 비교하여 MOS 테스트를 실행한 결과 제안된 방식에서 검출된 중요 구간이 수동으로 정해진 구간보다 사용자 만족도 측면에서 우수한 결과를 나타내었다.

화자 구분 시스템의 관심 화자 추출을 위한 i-vector 유사도 기반의 음성 분할 기법 (I-vector similarity based speech segmentation for interested speaker to speaker diarization system)

  • 배아라;윤기무;정재희;정보경;김우일
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.461-467
    • /
    • 2020
  • 잡음이 많고 여러 사람이 있는 공간에서 음성인식의 성능은 깨끗한 환경보다 저하될 수밖에 없다. 이러한 문제점을 해결하기 위해 본 논문에서는 여러 신호가 섞인 혼합 음성에서 관심 있는 화자의 음성만 추출한다. 중첩된 구간에서도 효과적으로 분리해내기 위해 VoiceFilter 모델을 사용하였으며, VoiceFilter 모델은 여러 화자의 발화로 이루어진 음성과 관심 있는 화자의 발화로만 이루어진 참조 음성이 입력으로 필요하다. 따라서 본 논문에서는 Probabilistic Linear Discriminant Analysis(PLDA) 유사도 점수로 군집화하여 혼합 음성만으로도 참조 음성을 대체해 사용하였다. 군집화로 생성한 음성에서 추출한 화자 특징과 혼합 음성을 VoiceFilter 모델에 넣어 관심 있는 화자의 음성만 분리함으로써 혼합 음성만으로 화자 구분 시스템을 구축하였다. 2명의 화자로 이루어진 전화 상담 데이터로 화자 구분 시스템의 성능을 평가하였으며, 분리 전 상담사(Rx)와 고객(Tx)의 음성 Source to Distortion Ratio(SDR)은 각각 5.22 dB와 -5.22 dB에서 분리 후 각각 11.26 dB와 8.53 dB로 향상된 성능을 보였다.

청취자 위치 적응 실시간 사운드 재생 시스템의 개발 (Development of a Listener Position Adaptive Real-Time Sound Reproduction System)

  • 이기승;이석필
    • 한국음향학회지
    • /
    • 제29권7호
    • /
    • pp.458-467
    • /
    • 2010
  • 본 논문에서는 두 개의 스피커를 이용한 청취 환경에서 좌, 우 채널의 간섭 신호를 제거하기 위한 새로운 오디오 시스템을 개발하였다. 간섭 제거는 청취자의 위치에 따라 적응적으로 이루어져야 하기 때문에, 청취 위치를 추적하기 위한 기법이 적용되었다. 청취자 위치 추적은 2개의 마이크로폰을 통하여 이루어지며 채널 간 시간 지연을 이용하여 청취자의 방향을 추정하도록 하였다. 또한 잔향 환경에서의 사용을 고려하여 선형 예측 기법을 이용한 잔향 제거 기법이 적용되었다. 좌,우 채널의 간섭제거를 위한 음원-귀 간의 경로는 KEMAR 머리전달함수를 이용하여 나타내었다. 사용된 청취자 방향 측정 시스템의 유용성을 평가하기 위해 추정된 위치에서 채널 간섭의 성능을 평가하였다. 평가 척도로 채널 분리 비를 사용하였으며, 실험적인 결과, 사용자의 실제 위치와 추정된 위치 간에 다소 차이가 있더라도 -10 dB의 채널 분리비가 얻어짐을 확인 할 수 있었다. 제안된 알고리즘은 부동소수점 디지털 신호처리 프로세서를 이용하여 실시간 구현되었으며 청취자 평균 방향 오차는 5도, 주관적 간섭 제거율은 평균적으로 80 % 얻어짐을 알 수 있었다.

이중 마이크를 사용한 보청기의 궤환 및 잡음제거 알고리즘 (A Feedback and Noise Cancellation Algorithm of Hearing Aids Using Dual Microphones)

  • 이행우
    • 한국통신학회논문지
    • /
    • 제36권7C호
    • /
    • pp.413-420
    • /
    • 2011
  • 본 논문에서는 양이 보청기의 음향궤환 및 잡음을 제거하기 위한 새로운 알고리즘을 제안한다. 이 알고리즘은 이중 마이크를 사용하여 잔차신호에서 음성신호를 제거한 후 궤환제거 필터의 계수를 갱신시킴으로써 수렴성능을 향상시킨다. 먼저 궤환제거기가 마이크 선호에서 궤환신호를 제거하고, 이어서 빔포밍 기법을 이용하여 잡음을 제거한다. 양이 보청기의 안정적 수렴을 보장하기 위해 좌측 및 우측 보청기를 분리하여 먼저 좌측 보청기를 수렴시키고 나서 그 다음 우측 보청기를 수렴시키는 과정으로 진행한다. 본 연구에서 제안한 궤환 및 잡음제거기의 성능을 검증하기 위하여 시뮬레이션 프로그램을 작성하고 모의실험을 수행하였다. 실험 결과, 제안한 적응 알고리즘을 사용하면 기존의 알고리즘을 사용하는 경우보다 궤환제거기에서 평균 14.43 dB의 SFR(Signal to Feedback Ratio), 잡음제거기에서 평균 10.19 dB의 SNR(Signal to Noise Ratio) 개선효과를 향상시킬 수 있는 것으로 확인하였다.

MEMS 기반 생체모사 음향센서 제작 및 주파수 특성 분석 (Fabrication of Biomimetic MEMS Acoustic Sensor and Analysis of Its Frequency Characteristics)

  • 허신;정영도;이영화;송원준;김완두
    • 비파괴검사학회지
    • /
    • 제31권5호
    • /
    • pp.522-528
    • /
    • 2011
  • 인간의 청각기능을 보조하거나 대체할 수 있는 차세대 인공와우기술의 개발은 기존 인공와우의 단점인 잦은 충전, 장애 노출 등을 극복하고 향상된 음감을 전달할 수 있는 기술로서 세계적으로 많은 연구를 수행하고 있다. 본 연구에서는 달팽이관의 기저막이 갖는 주파수 분리 기능 및 유모세포(haircell)의 이온채널 작용에 의한 생체 전기신호 발생 기능을 할 수 있는 PVDF(polyvinylidene fluoride) 압전 박막형 인공기저막을 설계, 제작 및 시험평가를 하고자 하였다. 생체 기저막과 유사한 주파수 분리 특성을 갖는 사다리꼴 형상의 인공기저막을 제작하고, MEMS 공정을 이용한 전극 증착 및 유체 유동이 가능한 챔버를 형성하였다. 또한 인공기저막의 거동을 측정하기 위하여 비접촉 LDV측정 장비, 스피커, 기준 마이크로폰 등을 사용하여 실험 장치를 구성하였다. 기계적 성능시험 결과, PVDF 압전박막형 인공기저막은 입사하는 음파의 주파수 분리를 잘 수행할 수 있음을 실험적으로 입증하였다.

고음질 합성용 스펙트럼 보상된 시간축조절 피치 변경법 (On a Pitch Alteration Method by Time-axis Scaling Compensated with the Spectrum for High Quality Speech Synthesis)

  • 배명진;이원철;임성빈
    • 한국음향학회지
    • /
    • 제14권4호
    • /
    • pp.89-95
    • /
    • 1995
  • 파형부호화법은 음성신호에서 잉여성분 제거과정을 통해 유용한 파형의 꼴을 단순히 보존하는 방법이다. 음성합성분야에서 고음질의 파형부호화법은 분석에 의한 합성방식으로 주로 적용된다. 그렇지만 이러한 부호화법에서 파라미터들은 여기용과 성도 여파기용으로 분리되지 않기 때문에 이 파형부호화법을 규칙에 의한 합성 방식으로 사용하기는 어렵다. 파형부호화합을 규칙합성에 적용하려면 운율조절을 위해 피치변경법이 필요하다. 본 논문에서는 시간축 스케일링과 주파수상에서의 스펙트럼 보정을 통해 파형부호화법에서 피치를 변경할 수 있는 새로운 피치변경법을 제안하였다. 이 방식은 파형의 위상성분을 보존하는 시간-주파수 혼성법이고, 50%의 피치변경을 수행하였을 때 2.5%정도의 스펙트럼 왜곡을 나타내었다.

  • PDF

한국어 연결단어의 이음소 인식과 어절 형성에 관한 연구 (A Study on the Diphone Recognition of Korean Connected Words and Eojeol Reconstruction)

  • 김경선;정홍
    • 한국음향학회지
    • /
    • 제14권4호
    • /
    • pp.46-63
    • /
    • 1995
  • 본 논문에서는 시간지연신경망을 이용한 한국어 무제한 어휘 연결단어 인식 시스템에 대해 기술하였다. 인식단위로는 인접한 두음소의 천이과정을 포한하는 이음소 (diphone)를 사용하였으며 그 개수는 329개이다. 한국어 연결단어 인식과정은 음성신호의 특징 추출 과정, 이음소 인식과정과 후처리 과정의 세 단계로 구분된다. 특징 추출 단계에서는 입력 음성의 이음소 구간을 분리하여 16차의 필터밸크 (filter-bank) 계수를 구한다. 이음소 인식은 3단계의 계층적 구조로 이루어졌으며 총 30개의 시간지연신경망을 이용해 이음소를 인식한다. 특히, 사용된 시간지연신경망은 인식률을 높이기 위하여 기존의 시간 지연신경망 구조를 변경하였다. 후처리 단계는 음소 천이확률과 음소 혼동확률을 이용한 이음소 오인식 수정과정과 인식된 이음소를 결합하여 어절을 형성하는 과정으로 이루어진다.

  • PDF

해저면 반사 환경에서 음파의 파면을 이용하는 음원의 거리 추정 (Estimation of a source range using acoustic wavefront in bottom reflection environment)

  • 박정수;박중용;손수욱;배호석
    • 한국음향학회지
    • /
    • 제43권3호
    • /
    • pp.324-334
    • /
    • 2024
  • 파면곡률거리추정(Wavefront Curvature Ranging, WCR)은 음파의 파면곡률로부터 음원의 거리를 추정하는 방법이다. 기존의 파면곡률거리추정은 음속을 상수로 가정하고 삼각법으로 거리를 추정한다. 이 가정 때문에 해저면반사경로가 뚜렷하게 분리되는 해양환경에서는 거리 오차가 발생한다. 거리 오차를 줄이기 위해 해양의 음속구조를 적용하고 최대우도추정(Maximum Likelihood Estimation, MLE)방법으로 거리를 추정하는 정합 파면곡률거리추정(Matched Wavefront Curvature Ranging, MWCR) 을 제안하였다. 정합 파면곡률거리추정의 시뮬레이션 결과로부터 거리 오차의 감소를 확인하였다. 향후에 실측 신호로부터 거리 추정의 신뢰성을 확인하면 소나 시스템에 적용 가능할 것이다.

미디어 오디오에서의 DNN 기반 음성 검출 (DNN based Speech Detection for the Media Audio)

  • 장인선;안충현;서정일;장윤선
    • 방송공학회논문지
    • /
    • 제22권5호
    • /
    • pp.632-642
    • /
    • 2017
  • 본 논문에서는 미디어 오디오의 음향 특성 및 문맥 정보를 활용한 DNN 기반 음성 검출 시스템을 제안한다. 미디어 오디오 내에 포함되어 있는 음성과 비음성을 구분하기 위한 음성 검출 기법은 효과적인 음성 처리를 위해 필수적인 전처리 기술이지만 미디어 오디오 신호에는 다양한 형태의 음원이 복합적으로 포함되어 있으므로 기존의 신호처리 기법으로는 높은 성능을 얻기에는 어려움이 있었다. 제안하는 기술은 미디어 오디오의 고조파와 퍼커시브 성분을 분리하고, 오디오 콘텐츠에 포함된 문맥 정보를 반영하여 DNN 입력 벡터를 구성함으로써 음성 검출 성능을 개선할 수 있다. 제안하는 시스템의 성능을 검증하기 위하여 20시간 이상 분량의 드라마를 활용하여 음성 검출용 데이터 세트를 제작하였으며 범용으로 공개된 8시간 분량의 헐리우드 영화 데이터 세트를 추가로 확보하여 실험에 활용하였다. 실험에서는 두 데이터 세트에 대한 교차 검증을 통하여 제안하는 시스템이 기존 방법에 비해 우수한 성능을 보임을 확인하였다.

오디오 컨텐츠를 위한 비음수 행렬 분해 기법 기반의 실시간 단일채널 배경 잡음 추출 기법 (Online Monaural Ambient Sound Extraction based on Nonnegative Matrix Factorization Method for Audio Contents)

  • 이석진
    • 방송공학회논문지
    • /
    • 제19권6호
    • /
    • pp.819-825
    • /
    • 2014
  • 본 논문에서는 비음수 행렬 분해 (NMF) 기법을 이용하여 단일 채널에서 배경음 성분을 추출하는 알고리즘에 대해 서술한다. 이러한 배경음 성분 추출은 오디오 업믹싱 시스템을 고려하여 개발되었으며, 기존의 연구를 통하여 분리된 배경음 신호가 업믹싱 시스템에 적용될 경우 공간감을 향상시킬 수 있다는 사실이 이미 확인된 바 있다. 다만 기존의 기법은 음향 신호를 모두 축적하여 일괄적으로 처리해야 한다는 단점이 있어, 스트리밍 시스템이나 디지털 시그널 프로세서 (DSP) 등을 이용한 시스템에서 사용되기 어렵다. 본 논문에서는 이를 해소하기 위하여 실시간 비음수 행렬 분해 기법을 이용한 배경음 추출 시스템을 고안하여 실험하였다. 실험에서 처리된 음원을 스펙트럼 평활도를 이용하여 분석한 결과, 고안된 배경음 추출 시스템이 기존의 일괄 추출 시스템과 유사한 정도로 배경음 성분을 추출했음을 확인할 수 있었다.