Abstract
A new time adapted threshold using the standard deviations of Wavelet coefficients after Wavelet transform by frame scale is proposed. The time adapted threshold is set up using the sum of standard deviations of Wavelet coefficient in level 3 approximation and weighted level 1 detail. Level 3 approximation coefficients represent the voiced sound with low frequency and level 1 detail coefficients represent the unvoiced sound with high frequency. After reducing noise by soft thresholding with the proposed time adapted threshold, there are still residual noises in silent interval. To reduce residual noises in silent interval, a detection algorithm of silent interval is proposed. From simulation results, it can be noticed that SNR and MSE of the proposed algorithm are improved than those of Wavelet transform and than those of Wavelet packet transform.
본 논문은 잡음 환경의 음성 인식을 위하여 음성에 부가된 잡음을 제거하는 방법으로 프레임 단위로 웨이브렛 변환을 하여 웨이브렛 계수의 표준편차를 이용하여 시간 적응 임계값을 정하는 새로운 방법을 제안한다. 음성의 특성을 고려하기 위하여 고주파 성분을 많이 가지는 무성음의 경우는 첫 번째 스케일의 detail 신호에서, 저주파 성분을 많이 가지는 유성음의 경우는 세 번째 스케일의 approximation 신호의 표준편차를 이용하여 시간 적응 임계값을 설정하였다 또한 제안한 방법으로 잡음을 제거한 후에도 묵음구간에 잔여 잡음이 존재하게 되므로 묵음구간을 검출하여 묵음구간의 잔여 잡음을 제거하였다 실험을 통해 제안한 방법이 일반적인 웨이브렛 변환과 웨이브렛 패킷 변환을 이용한 방법보다 SNR과 MSE측면에서 향상됨을 확인 할 수 있었다.