• 제목/요약/키워드: Speech Source Separation

검색결과 34건 처리시간 0.034초

A New Formulation of Multichannel Blind Deconvolution: Its Properties and Modifications for Speech Separation

  • Nam, Seung-Hyon;Jee, In-Nho
    • The Journal of the Acoustical Society of Korea
    • /
    • 제25권4E호
    • /
    • pp.148-153
    • /
    • 2006
  • A new normalized MBD algorithm is presented for nonstationary convolutive mixtures and its properties/modifications are discussed in details. The proposed algorithm normalizes the signal spectrum in the frequency domain to provide faster stable convergence and improved separation without whitening effect. Modifications such as nonholonomic constraints and off-diagonal learning to the proposed algorithm are also discussed. Simulation results using a real-world recording confirm superior performanceof the proposed algorithm and its usefulness in real world applications.

Application of Block On-Line Blind Source Separation to Acoustic Echo Cancellation

  • Ngoc, Duong Q.K.;Park, Chul;Nam, Seung-Hyon
    • The Journal of the Acoustical Society of Korea
    • /
    • 제27권1E호
    • /
    • pp.17-24
    • /
    • 2008
  • Blind speech separation (BSS) is well-known as a powerful technique for speech enhancement in many real world environments. In this paper, we propose a new application of BSS - acoustic echo cancellation (AEC) in a car environment. For this purpose, we develop a block-online BSS algorithm which provides robust separation than a batch version in changing environments with moving speakers. Simulation results using real world recordings show that the block-online BSS algorithm is very robust to speaker movement. When combined with AEC, simulation results using real audio recording in a car confirm the expectation that BSS improves double talk detection and echo suppression.

스테레오 패닝 음원을 위한 음원 분리 알고리즘 (A Source Separation Algorithm for Stereo Panning Sources)

  • 백용현;박영철
    • 한국정보전자통신기술학회논문지
    • /
    • 제4권2호
    • /
    • pp.77-82
    • /
    • 2011
  • 본 논문에서는 패닝 기법을 이용하여 믹싱된 스테레오 음원에서 음원을 분리하는 방법에 대하여 고찰한다. 음원 분리 알고리즘은 다채널 포맷 변환을 위한 업믹스나 음질 개선, 고품질 음원 분리 등 다양한 응용분야에 사용될 수 있다. 본 논문에서 사용하는 음원 분리 알고리즘은 믹싱된 스테레오 채널을 시간-주파수 별로 PCA(Principal Component Analysis) 분석 방법을 이용하여 각각의 음원들이 패닝된 방향을 추정하며, 추정된 방향의 성분만을 추출하는 방향 필터링 과정을 거쳐 음원들을 독립적으로 분리 해 낸다. 실험을 통해 각 음원 분리 알고리즘의 성능을 평가하였다.

공동 행렬대각화 조건 기반 온라인 음원 신호 분리 및 잔향제거 (Online blind source separation and dereverberation of speech based on a joint diagonalizability constraint)

  • 유호건;김도희;송민환;박형민
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.503-514
    • /
    • 2021
  • 신호에서의 잔향은 암묵음원분리 시스템의 성능을 크게 저하시키는 경향이 있다. 특히 온라인으로 진행되는 시스템일 때, 그 영향이 더욱 두드러진다. 최근 공동 행렬대각화를 활용하여 해당 문제를 해결하고자 하는 연구들이 이루어지고 있다. 본 논문에서는 이를 활용, 발전하여 잔향이 존재하는 환경에서의 미결정 다중 화자의 음원 분리 온라인 알고리즘에 잔향 제거 기능을 추가함으로써 분리한 음원의 품질을 개선하였다. WSJCAM0 데이터베이스에서 실험을 통해 기존에 사용되고 있는 온라인 알고리즘 성능과 비교하였다. 성능 평가는 신호 대 왜곡 비(Signal-to-Distortion Ratio, SDR)와 Perceptual Evaluation of Speech Quality(PESQ)를 통해 이루어졌고, 기존 알고리즘 대비 SDR은 평균 1.23 dB에서 3.76 dB로 향상되었고, PESQ는 1.15에서 2.12로 성능이 향상되었음을 검증하였다.

차량환경에서 음성명령어기 사용을 위한 음성개선방법 (Speech Enhancement for Voice commander in Car environment)

  • 백승권;한민수;남승현;이봉호;함영권
    • 방송공학회논문지
    • /
    • 제9권1호
    • /
    • pp.9-16
    • /
    • 2004
  • 본 논문에서는 차량용 음성명령어기의 사용을 위한 전처리 과정으로 음성개선 방법을 다룬다 특히 보다 주위 소음에 자유롭고 단말 조작에 있어 안정성을 보장하기 위하여 일반적 단일 마이크로폰으로 처리되는 잡음뿐만 아니라 음성명령어를 제외한 오디오 신호 등 비정적 통계적 특성을 갖는 소음들도 제거 될 수 있도록 음성개선 방법을 제안한다. 우리는 2개의 마이크로폰을 가지고 BSS 알고리즘을 적용하여 비정적 신호들을 분리하고, 분리된 신호에 대하여 Kalman 필터를 이용하여 시간상 단구간 정적 잡음을 제거한다. 인식 실험 결과를 통하여 공간적, 시간적 음성개선 방법이 순차적으로 적용될 때, 실제 차량 환경에서 음성 개선 알고리즘으로 적용될 수 있음을 보였다.

Two-Microphone Binary Mask Speech Enhancement in Diffuse and Directional Noise Fields

  • Abdipour, Roohollah;Akbari, Ahmad;Rahmani, Mohsen
    • ETRI Journal
    • /
    • 제36권5호
    • /
    • pp.772-782
    • /
    • 2014
  • Two-microphone binary mask speech enhancement (2mBMSE) has been of particular interest in recent literature and has shown promising results. Current 2mBMSE systems rely on spatial cues of speech and noise sources. Although these cues are helpful for directional noise sources, they lose their efficiency in diffuse noise fields. We propose a new system that is effective in both directional and diffuse noise conditions. The system exploits two features. The first determines whether a given time-frequency (T-F) unit of the input spectrum is dominated by a diffuse or directional source. A diffuse signal is certainly a noise signal, but a directional signal could correspond to a noise or speech source. The second feature discriminates between T-F units dominated by speech or directional noise signals. Speech enhancement is performed using a binary mask, calculated based on the proposed features. In both directional and diffuse noise fields, the proposed system segregates speech T-F units with hit rates above 85%. It outperforms previous solutions in terms of signal-to-noise ratio and perceptual evaluation of speech quality improvement, especially in diffuse noise conditions.

마이크로폰 배열에서 독립벡터분석 기법을 이용한 잡음음성의 음질 개선 (Microphone Array Based Speech Enhancement Using Independent Vector Analysis)

  • 왕씽양;전성일;배건성
    • 말소리와 음성과학
    • /
    • 제4권4호
    • /
    • pp.87-92
    • /
    • 2012
  • Speech enhancement aims to improve speech quality by removing background noise from noisy speech. Independent vector analysis is a type of frequency-domain independent component analysis method that is known to be free from the frequency bin permutation problem in the process of blind source separation from multi-channel inputs. This paper proposed a new method of microphone array based speech enhancement that combines independent vector analysis and beamforming techniques. Independent vector analysis is used to separate speech and noise components from multi-channel noisy speech, and delay-sum beamforming is used to determine the enhanced speech among the separated signals. To verify the effectiveness of the proposed method, experiments for computer simulated multi-channel noisy speech with various signal-to-noise ratios were carried out, and both PESQ and output signal-to-noise ratio were obtained as objective speech quality measures. Experimental results have shown that the proposed method is superior to the conventional microphone array based noise removal approach like GSC beamforming in the speech enhancement.

화자 구분 시스템의 관심 화자 추출을 위한 i-vector 유사도 기반의 음성 분할 기법 (I-vector similarity based speech segmentation for interested speaker to speaker diarization system)

  • 배아라;윤기무;정재희;정보경;김우일
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.461-467
    • /
    • 2020
  • 잡음이 많고 여러 사람이 있는 공간에서 음성인식의 성능은 깨끗한 환경보다 저하될 수밖에 없다. 이러한 문제점을 해결하기 위해 본 논문에서는 여러 신호가 섞인 혼합 음성에서 관심 있는 화자의 음성만 추출한다. 중첩된 구간에서도 효과적으로 분리해내기 위해 VoiceFilter 모델을 사용하였으며, VoiceFilter 모델은 여러 화자의 발화로 이루어진 음성과 관심 있는 화자의 발화로만 이루어진 참조 음성이 입력으로 필요하다. 따라서 본 논문에서는 Probabilistic Linear Discriminant Analysis(PLDA) 유사도 점수로 군집화하여 혼합 음성만으로도 참조 음성을 대체해 사용하였다. 군집화로 생성한 음성에서 추출한 화자 특징과 혼합 음성을 VoiceFilter 모델에 넣어 관심 있는 화자의 음성만 분리함으로써 혼합 음성만으로 화자 구분 시스템을 구축하였다. 2명의 화자로 이루어진 전화 상담 데이터로 화자 구분 시스템의 성능을 평가하였으며, 분리 전 상담사(Rx)와 고객(Tx)의 음성 Source to Distortion Ratio(SDR)은 각각 5.22 dB와 -5.22 dB에서 분리 후 각각 11.26 dB와 8.53 dB로 향상된 성능을 보였다.

배경 잡음을 제거하는 음성 신호 잡음 제거기의 구현 (Implementation of Environmental Noise Remover for Speech Signals)

  • 김선일;양성룡
    • 전자공학회논문지 IE
    • /
    • 제49권2호
    • /
    • pp.24-29
    • /
    • 2012
  • 자동차 배기음은 음성과 무관한 거의 독립적인 음원이라고 볼 수 있다. 따라서 자동차 배기음과 섞인 음성 신호의 경우에 두 음원에 대한 사전 정보가 없는 상황이므로 Blind Source Separation 의 한 방법인 Independent Component Analysis를 이용하여 분리해 내었다. 스테레오 마이크를 통해 섞여 들어 온 두 음원을 분리해 내기 위해 Maximum Likelyhood Estimation을 이용하여 각 신호들 사이의 독립성을 최대화 하는 방향으로 분리하였다. 분리된 신호는 어느 쪽이 음성 신호인지 알 수 없으므로 주파수 영역에서 자기 공분산을 구한 후 이 공분산 값들의 기울기를 이용하여 음성 신호와 자동차 배기음 신호을 구분하였으며 이 두 알고리즘을 결합하여 음성 신호 잡음 제거기를 구현하였다.

음성 분리를 위한 스펙트로그램의 마루와 골을 이용한 시간-주파수 공간에서 소리 분할 기법 (A Method of Sound Segmentation in Time-Frequency Domain Using Peaks and Valleys in Spectrogram for Speech Separation)

  • 임성길;이현수
    • 한국음향학회지
    • /
    • 제27권8호
    • /
    • pp.418-426
    • /
    • 2008
  • 본 논문에서는 스펙트로그램에서 마루와 골을 이용한 주파수 채널 분할 알고리즘을 제안한다. 주파수 채널 분할 문제는 동일한 음원으로부터 발생한 음성이 포함된 주파수 채널들을 하나의 그룹으로 묶는 것을 의미한다. 제안된 알고리즘은 입력 신호의 평탄화된 스펙트럼에 기반한 알고리즘이다. 평탄화된 스펙트럼에서 마루와 골은 각각 세그먼트의 중심과 경계를 판단하기 위해 사용된다. 각 세그먼트를 하나의 소리로 묶는 그룹핑 단계 이전에 제안된 알고리즘에 의한 세그멘테이션 결과가 유용함을 평가하기 위하여 이상적인 마스크에 의한 세그멘테이션 결과와 제안된 방법을 비교한다. 제안된 방법을 협대역 잡음, 광대역 잡음, 다른 음성신호와 혼합된 음성신호에 대하여 실험하였다.