• 제목/요약/키워드: Computational auditory scene analysis (CASA)

검색결과 6건 처리시간 0.023초

CASA 기반 음성분리 성능 향상을 위한 형태 분석 기술의 응용 (Application of Shape Analysis Techniques for Improved CASA-Based Speech Separation)

  • 이윤경;권오욱
    • 대한음성학회지:말소리
    • /
    • 제65호
    • /
    • pp.153-168
    • /
    • 2008
  • We propose a new method to apply shape analysis techniques to a computational auditory scene analysis (CASA)-based speech separation system. The conventional CASA-based speech separation system extracts speech signals from a mixture of speech and noise signals. In the proposed method, we complement the missing speech signals by applying the shape analysis techniques such as labelling and distance function. In the speech separation experiment, the proposed method improves signal-to-noise ratio by 6.6 dB. When the proposed method is used as a front-end of speech recognizers, it improves recognition accuracy by 22% for the speech-shaped stationary noise condition and 7.2% for the two-talker noise condition at the target-to-masker ratio than or equal to -3 dB.

  • PDF

CASA 기반의 마이크간 전달함수 비 추정 알고리즘 (CASA Based Approach to Estimate Acoustic Transfer Function Ratios)

  • 신민규;고한석
    • 한국음향학회지
    • /
    • 제33권1호
    • /
    • pp.54-59
    • /
    • 2014
  • 본 논문은 비정상 (nonstationary)특성을 가지는 잡음환경에서 마이크간 전달함수 비 (RTF, Relative Transfer Function) 추정 알고리즘을 제안한다. 음성을 이용한 다양한 기기에 다중 마이크를 이용한 잡음제거 기술은 널리 사용되며, 이때 각 마이크간의 입력 신호 사이의 관계는 필수적으로 추정되어야 한다. 본 논문에서는 기존의 OM-LSA(Optimally-Modified Log-Spectral Amplitude)기반의 추정 방식에 CASA (Computational Auditory Scene Analysis)를 접목시킨 방식을 제안한다. 제안한 방법의 성능 검증을 위하여 비정상 백색 잡음 (nonstationary white Gaussian noise) 환경에서 10명 화자 발음을 이용한 마이크간 전달함수 비 추정 성능 평가 실험을 수행하였다. 잡음 신호가 초당 8dB 증감하는 환경에서 SBF (Signal Blocking Factor)가 평균 2.65dB 개선됨을 확인하였다.

잡음환경에서의 음성인식 성능 향상을 위한 이중채널 음성의 CASA 기반 전처리 방법 (CASA-based Front-end Using Two-channel Speech for the Performance Improvement of Speech Recognition in Noisy Environments)

  • 박지훈;윤재삼;김홍국
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2007년도 하계종합학술대회 논문집
    • /
    • pp.289-290
    • /
    • 2007
  • In order to improve the performance of a speech recognition system in the presence of noise, we propose a noise robust front-end using two-channel speech signals by separating speech from noise based on the computational auditory scene analysis (CASA). The main cues for the separation are interaural time difference (ITD) and interaural level difference (ILD) between two-channel signal. As a result, we can extract 39 cepstral coefficients are extracted from separated speech components. It is shown from speech recognition experiments that proposed front-end has outperforms the ETSI front-end with single-channel speech.

  • PDF

계산적 청각 장면 분석 시스템에서 가중치 상호상관계수를 이용한 음성 분리 (Speech Segmentation using Weighted Cross-correlation in CASA System)

  • 김정호;강철호
    • 전자공학회논문지
    • /
    • 제51권5호
    • /
    • pp.188-194
    • /
    • 2014
  • 계산적 청각 장면 분석 시스템의 특징 추출은 시간 연속성과 주파수 채널간에 유사성을 이용하여 청각 요소의 상관지도를 구성한다. 세그먼테이션은 상호상관계수 함수를 이용하여 2진 마스크를 구성하고, 마스크 성분 1(음성)은 동일한 주기성과 동기를 가진다. 그러나 채널간에 비슷한 주기성을 갖지만 지연이 있는 경우에 음성으로 잘못 결정되는 문제가 있다. 본 논문에서는 세그먼테이션에서 가중치 상호상관계수를 이용해 채널간에 유사성의 변별력을 높이는 방법을 제안한다. 계산적 청각 장면 분석 시스템의 음성분리 성능을 평가하기 위하여 배경 잡음(사이렌, 기계, 백색, 자동차, 군중) 환경에서 신호 대 잡음비(5dB, 0dB)의 변화에 따라 실험을 수행하였다. 본 논문에서는 기존의 방법과 제안한 방법과 비교한 결과, 제안한 방법이 기존의 방법에 비하여 각각 신호 대 잡음비 5dB에서 2.75dB 그리고 0dB에서 4.84dB 향상되었다.

Separation of Single Channel Mixture Using Time-domain Basis Functions

  • Jang, Gil-Jin;Oh, Yung-Hwan
    • The Journal of the Acoustical Society of Korea
    • /
    • 제21권4E호
    • /
    • pp.146-155
    • /
    • 2002
  • We present a new technique for achieving source separation when given only a single charmel recording. The main idea is based on exploiting the inherent time structure of sound sources by learning a priori sets of time-domain basis functions that encode the sources in a statistically efficient manner. We derive a learning algorithm using a maximum likelihood approach given the observed single charmel data and sets of basis functions. For each time point we infer the source parameters and their contribution factors. This inference is possible due to the prior knowledge of the basis functions and the associated coefficient densities. A flexible model for density estimation allows accurate modeling of the observation, and our experimental results exhibit a high level of separation performance for simulated mixtures as well as real environment recordings employing mixtures of two different sources. We show separation results of two music signals as well as the separation of two voice signals.

Separation of Single Channel Mixture Using Time-domain Basis Functions

  • 장길진;오영환
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.146-146
    • /
    • 2002
  • We present a new technique for achieving source separation when given only a single channel recording. The main idea is based on exploiting the inherent time structure of sound sources by learning a priori sets of time-domain basis functions that encode the sources in a statistically efficient manner. We derive a learning algorithm using a maximum likelihood approach given the observed single channel data and sets of basis functions. For each time point we infer the source parameters and their contribution factors. This inference is possible due to the prior knowledge of the basis functions and the associated coefficient densities. A flexible model for density estimation allows accurate modeling of the observation, and our experimental results exhibit a high level of separation performance for simulated mixtures as well as real environment recordings employing mixtures of two different sources. We show separation results of two music signals as well as the separation of two voice signals.