• 제목/요약/키워드: 음원의 분리

검색결과 88건 처리시간 0.025초

주파수 특성 기저벡터 학습을 통한 특정화자 음성 복원 (Target Speaker Speech Restoration via Spectral bases Learning)

  • 박선호;유지호;최승진
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권3호
    • /
    • pp.179-186
    • /
    • 2009
  • 본 논문에서는 학습이 가능한 특정화자의 발화음성이 있는 경우, 잡음과 반향이 있는 실 환경에서의 스테레오 마이크로폰을 이용한 특정화자 음성복원 알고리즘을 제안한다. 이를 위해 반향이 있는 환경에서 음원들을 분리하는 다중경로 암묵음원분리(convolutive blind source separation, CBSS)와 이의 후처리 방법을 결합함으로써, 잡음이 섞인 다중경로 신호로부터 잡음과 반향을 제거하고 특정화자의 음성만을 복원하는 시스템을 제시한다. 즉, 비음수 행렬분해(non-negative matrix factorization, NMF) 방법을 이용하여 특정화자의 학습음성으로부터 주파수 특성을 보존하는 기저벡터들을 학습하고, 이 기저벡터들에 기반 한 두 단계의 후처리 기법들을 제안한다. 먼저 본 시스템의 중간단계인 CBSS가 다중경로 신호를 입력받아 독립음원들을(두 채널) 출력하고, 이 두 채널 중 특정화자의 음성에 보다 가까운 채널을 자동적으로 선택한다(채널선택 단계). 이후 앞서 선택된 채널의 신호에 남아있는 잡음과 다른 방해음원(interference source)을 제거하여 특정화자의 음성만을 복원, 최종적으로 잡음과 반향이 제거된 특정화자의 음성을 복원한다(복원 단계). 이 두 후처리 단계 모두 특정화자 음성으로부터 학습한 기저벡터들을 이용하여 동작하므로 특정화자의 음성이 가지는 고유의 주파수 특성 정보를 효율적으로 음성복원에 이용 할 수 있다. 이로써 본 논문은 CBSS에 음원의 사전정보를 결합하는 방법을 제시하고 기존의 CBSS의 분리 결과를 향상시키는 동시에 특정화자만의 음성을 복원하는 시스템을 제안한다. 실험을 통하여 본 제안 방법이 잡음과 반향 환경에서 특정화자의 음성을 성공적으로 복원함을 확인할 수 있다.

FDBM의 음원분리 성능평가 (Evaluation of a signal segregation by FDBM)

  • 이채봉
    • 한국전자통신학회논문지
    • /
    • 제8권12호
    • /
    • pp.1793-1802
    • /
    • 2013
  • 음원분리 방법으로는 여러 가지가 제안되고 있으나 그 중에서도 주파수영역 두 귀 모델(Frequency Domain Binaural Model : FDBM)은 저 연산량과 울림 제거에 효과적이다. FDBM에 의한 두 귀 보청 시스템은 SNR이나 기여도 함수(Coherence function)에 의한 평가로 하기 때문에 인간의 청취특성을 고려하지 않고 있다. 본 논문에서는 음질의 문제 해결을 위하여 FDBM의 음원분리 성능평가를 하였다. SNR, 기여도 함수, PESQ의 세 가지 수법을 이용하여 기본 특성에 대하여 시뮬레이션을 통하여 확인하였다. 모든 결과가 FDBM에 의해 좌우 채널간 평가치의 차가 작게 되었고, 좌우 채널이 거의 같은 레벨까지 개선되었음을 확인하였다. 그리고 음원방향을 바꾸고 음원 수를 증가시킨 경우에도 일정한 개선이 보였다. SNR과 기여도 함수, PESQ의 결과를 비교하면 PESQ의 평가에서는 입력 SNR를 변동시킨 경우에도 거의 모든 조건에서 분리에 의한 평가가 개선되었다.

음성 파형코딩 음원피치 변경에 관한 연구 -LPC와 주기반분법에 의한 피치변경법- (On Altering the Pitch of Speech Signals in Waveform Coding -Alteration Method by the LPC and the Pitch Halving-)

  • 배명진;윤희상;안수길
    • 한국음향학회지
    • /
    • 제10권5호
    • /
    • pp.11-19
    • /
    • 1991
  • 음성 신호의 합성기법들 중에서 파형코딩법은 음질이 우수하기 때문에 분석에 의한 합성법으로 많이 사용하고 있다. 그렇지만 음원과 성도의특성을 분리하지 않고 파형의 잉여분만을 제거한 후에 파 형자체를 저장하기 때문에 규칙에 의한 합성기법으로 사용하기에는 어려움이 많다. 본 논문은 파형코딩 법 중 선형 PCM 코딩법으로 저장된 음성파형에 대해 피치를 양분할 수 있는 주기반분법을 제안하여 파형자체의 음원을 분리하지 않고 피치 주기를 변경시킬 수 있는 새로운 피치 변경법을 제안하였다. 따 라서 음질이 우수한 파형코딩 합성법으로 규칙에 의한 합성을 수행할 수 있다.

  • PDF

오디오 업믹스를 위한 효율적인 주성분-주변성분 분리 알고리즘 (Efficient Primary-Ambient Decomposition Algorithm for Audio Upmix)

  • 백용현;전세운;이석필;박영철
    • 방송공학회논문지
    • /
    • 제17권6호
    • /
    • pp.924-932
    • /
    • 2012
  • 스테레오 업믹스(Upmix)에서 음원을 주성분(Primary)과 주변성분(Ambient)으로 분리하는 것은 주된 전처리 과정이며 주성분 분석법(Principal Component Analysis - PCA)을 이용한 연구가 진행되고 있다. 그러나 주성분 분석법은 분리 성능이 스테레오 음원이 가지는 주성분과 주변성분의 파워비(Primary Ambient Power Ratio - PAR Ratio) 및 주성분의 패닝 각도에 영향을 받는 다는 단점이 있다. 이전 연구에 따르면 PAR에 따른 단점을 극복하기 위한 변형된 주성분 분석법(Modified PCA) 방법이 제안되었으나 여전히 패닝 각도에 대한 단점은 극복하지 못하였다. 본 논문에서는 PAR 및 패닝 각도에 영향을 받지 않는 새로운 주성분 분석법 기반의 알고리즘을 제안하였다. 제안된 알고리즘은 스테레오 음원의 파워를 보존하는 기준을 두고 고유치의 비를 이용한 적절한 스케일 값을 통해 문제를 해결하였다. 제안된 알고리즘은 실험결과 PAR 및 주성분의 패닝 각도에 영향을 받지 않고 정확한 분리 성능을 보여줌을 확인하였다.

음원 내 보컬 주파수 대역 분석에 기반한 음향기기 추천시스템 (A system for recommending audio devices based on frequency band analysis of vocal component in sound source)

  • 김정현;석철민;김민주;김수연
    • 한국산업정보학회논문지
    • /
    • 제27권6호
    • /
    • pp.1-12
    • /
    • 2022
  • 음원 스트리밍 서비스와 Hi-Fi 시장이 성장함에 따라 다양한 음향기기들이 출시되고 있다. 이로 인해 소비자들의 제품 선택에 대한 폭은 넓어졌지만 자신의 음악적 취향과 일치하는 제품을 찾기는 더욱 어려워졌다. 본 연구에서는 사용자가 선호하는 음원으로부터 보컬 성분을 추출하고 이를 토대로 사용자에게 가장 적합한 음향기기를 추천하는 시스템을 제안하였다. 이를 위해 먼저 원본 음원을 Python의 Spleeter Library를 통해 분리하여 보컬 음원을 추출하고 제조사의 음향기기의 주파수 대역 데이터를 수집한 결과를 각각 격자 그래프로 나타내었다. 추출한 보컬 음원의 주파수 대역과 음향기기의 주파수 대역 측정치 데이터를 비교하기 위한 지표로서 Matching Gap Index(MGI)를 제안하였다. 산출된 MGI 값을 토대로 사용자 선호와의 유사도가 가장 높은 음향기기를 추천한다. 추천 결과는 음향 전문업체에서 제공하는 장르별 Equalizer 데이터를 이용하여 검증하였다.

2채널 트랜스오럴 필터를 이용한 최적 청취영역 확대에 관한 연구 (A Study on the Sweet-Spot Widening using 2-Channel Sound Transaural Filter)

  • 안찬식;황신;김순협
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.53-56
    • /
    • 2002
  • 본 논문은 2채널 스피커를 사용하여 청취자에게 보다 입체적인 음향 효과를 제시하기 위하여 크로스토크현상을 제거하고 청취자의 보다 자유로운 청취를 위해 최적 청취영역 확대를 위한 실험과 시스템 구현에 관한 것이다. 정면에 위치한 두 스피커로부터 교차경로인 크로스토크를 제거하기 위해 음질의 왜곡을 최소화하는 자유음장 모델을 이용하여 구현한 트랜스오럴 필터 사용하였고 최적 청취영역의 확대를 위해 스피커는 BPF(Band Pass Filter)를 이용하여 저주파와 고주파를 분리하여 각각 재생할 수 있는 스피커를 구성하였으며 저주파 영역은 제외하고 중고주파 영역을 이용하였으며 기존 크로스토크제거 시스템을 사용하여 고정된 한 점의 청취영역에서 좌${\cdot}$우로 5Cm씩 이동하au 100Cm까지 측정한 결과 30Cm, 55Cm, 75Cm, 90Cm, 100Cm에서 크로스토크제거됨을 알 수 있는 음의 분리도가 5dB이상 나타났다. 실험 결과 얻어진 각 지점들로부터 자유음장 모델을 이용하여 트랜스오럴 필터링 하였으며 각각의 간섭현상을 막기 위해 주파수 영역에서 심리음향에 기초한 1/3-Octave Band Pass Filter를 사용하여 음질 보상을 실시하였다. 음원을 제작하여 기존의 2채널 시스템에서 제시하는 음원을 각각의 위치의 음원과 비교하여 음질 평가를 실시하였으며 기존의 트랜스오럴 필터와 비교평가를 실시하였다.

  • PDF

실시간 음성 분리 시스템 구현을 위한 고속 병렬구조의 하드웨어 아키텍쳐 (Parallel Hardware Architecture for Real-time Blind Source Separation)

  • 정홍;김용;성주희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.25-27
    • /
    • 2004
  • 독립적인 여러 개의 음원의 convoultive mixture로부터 blind source separation(BSS)을 수행하는 것은 수년간 활발히 연구되어 오고있다. 그러나 많은 BSS 알고리즘이 존재함에도 불구하고, 직접적으로 하드웨어를 구현할 수 있는 알고리즘은 실제로 매우 드물다. 이 논문의 목표는 FPGA를 이용하여 실시간으로 효과적인 구현이 가능한 BSS 구조를 소개하는 것이다.

  • PDF

3D영상에 정합되는 스테레오 오디오 (Stereo Audio Matched with 3D Video)

  • 박성욱;정태윤
    • 한국지능시스템학회논문지
    • /
    • 제21권2호
    • /
    • pp.153-158
    • /
    • 2011
  • 본 연구에서는 동일한 내용의 영상을 2D로 감상할 때와 3D로 감상할 때 함께 재생되는 음향이 어떻게 달라져야하는지를 확인하는 주관적 실험을 수행하고 그 결과를 고찰하였다. 먼저 음향 정보는 음원이 자체적으로 제공하는 정보인 음원의 거리와 방위각(즉 위치) 그리고 음원의 환경 혹은 장면(scene)이 제공하는 정보인 공간감으로 분리가 가능하므로 이에 맞게 동일 내용의 2D/3D 영상이 음원의 위치 선정에 미치는 영향 평가 실험과 동일한 내용의 2D/3D 장면이 음향 공간감에 주는 영향 평가 실험을 수행하였다. 첫 번째 실험 결과 3D 영상을 감상하는 경우 2D 영상을 감상할 때 보다 스크린을 기준으로 음원의 거리와 방위각을 확대하여 인지한다는 결과를 얻을 수 있었다. 이는 2D 영상용 소리보다 거리와 방위각이 큰 3D 영상용 소리를 만들어야 한다는 것을 의미한다. 또한 3D 영상용 소리는 3D 영상뿐만 아니라 2D 영상과도 잘 어울린다는 결과를 얻었다. 두 번째 실험 결과, 3D 영상을 감상하는 경우 2D 영상을 감상할 때 보다 잔향이 더 많은 소리를 선호함을 알 수 있었다. 이는 3D 영상을 감상할때 공간감이 강화되기 때문으로 해석된다. 본 연구의 결과는 기본적으로 2D 영상용 음향을 제작하던 음향엔지니어가 3D영상용 음향을 제작하는 데 활용할 수 있으며, 2D to 3D 음향을 자동으로 변형하는 연구의 기초가 될 것이다. 더 나아가서 본 연구의 결과를 기반으로 제한된 대역폭에서 2D 와 3D를 동시에 지원하는 방송 시스템을 설계하는데 적용해 본다면, 방송 데이터 규격은 스테레오 영상, 음원의 위치가 강조된 3D 음향과 공간감을 주는 잔향 정보로 구성하는 것이 적절하다고 할 수 있다.

방향성 있는 음원이 적용된 음향 포물선 방정식 모델 (Acoustic parabolic equation model with a directional source)

  • 이근화;나영남;손수욱
    • 한국음향학회지
    • /
    • 제39권1호
    • /
    • pp.1-7
    • /
    • 2020
  • 해양에서 음향 포물선 방정식은 거리 의존 환경에서 단일 음원으로부터 음장을 계산하는데 효율적인 방법이다. 그렇지만 실제 문제에서는 종종 방향성 있는 음원을 사용해야하는 필요성이 있다. 본 논문에서는 포물선 방정식 모델에 손쉽게 방향성 있는 음원을 적용할 수 있는 두 가지 방법을 제안한다. 첫 번째 방법은 전 방향음원의 수학적 모델인 Delta 함수를 필터링 하는 것이다. 두 번째 방법은 포물선 방정식의 self-starter 해에 유리함수 필터를 적용하는 방법이다. 후자의 방법은 깊이 방향에 대해 상향 및 하향 음파를 분리하지 못한다는 단점이 있으나 모드 전파를 구현하는데는 유용하다. 검증을 위한 수치 예제가 Pekeris 환경과 심해 환경에서 주어졌다.