Abstract
In this paper, we propose a novel approach to noise power estimation for speech enhancement in noisy environments. The method based on IMCRA (improved minima controlled recursive averaging) which is widely used in speech enhancement utilizes a rough VAD (voice activity detection) algorithm which excludes speech components during speech periods in order to improves the performance of the noise power estimation by reducing the speech distortion caused by the conventional algorithm based on the minimum power spectrum derived from the noisy speech. However, since the VAD algorithm is not sufficient to distinguish speech from noise at non-stationary noise and low SNRs (signal-to-noise ratios), the speech distortion resulted from the minimum tracking during speech periods still remained. In the proposed method, minimum power estimate obtained by IMCRA is modified by SMT (spectral minima tracking) to reduce the speech distortion derived from the bias of the estimated minimum power. In addition, in order to effectively estimate minimum power by considering the distribution characteristic of the speech and noise spectrum, the presented method combines the minimum estimates provided by IMCRA and SMT depending on the weighting factor based on the subband. Performance of the proposed algorithm is evaluated by subjective and objective quality tests under various environments and better results compared with the conventional method are obtained.
본 논문에서는 잡음환경에서 음성 향상 (speech enhancement)을 위한 새로운 잡음전력 추정 방법을 제안한다. 음성 향상 알고리즘에 널리 적용되고 있는 IMCRA (improved minima controlled recursive averaging) 기법은 오염된 음성신호로부터 추정된 최소 전력 스펙트럼에 기반하여 잡음전력을 추정하는 기존의 방법을 개선하기 위해 간단한 음성 검출 알고리즘을 이용하여 대략적으로 음성 성분이 제거된 전력 스펙트럼에서 최소값을 추정함으로써 음성구간에서 발생할 수 있는 음성왜곡 문제점을 개선하였다. 하지만 비정상 잡음이나 신호 대 잡음 비 (SNR signal-to-noise ratio)가 낮은 환경에서는 음성 검출 성능이 저하되어 음성구간에서 음성왜곡이 발생되는 기존의 문제점이 여전히 발생된다. 따라서 제안된 방법에서는 향상된 잡음전력 추정을 위하여 기존의 IMCRA에서 추정된 최소 전력 스펙트럼에 대하여 스펙트럼 최소값 추적 (SMT, spectral minima tracking) 기법을 적용하고 IMCRA에 의한 최소값과 SMT에 의해 추정된 최소값을 서브밴드 (subband)에 따라 가중치를 적용하여 결합한다. 제안된 알고리즘은 기존의 방법과 주관적 및 객관적 음질평가 테스트를 통해 비교 평가한 결과 다양한 배경잡음 환경에서 향상된 성능을 보였다.