• 제목/요약/키워드: Speech Enhancement Algorithm

검색결과 134건 처리시간 0.03초

보청기를 위한 IMCRA 기반 저연산 음성 향상 알고리즘 (Low-Complexity Speech Enhancement Algorithm Based on IMCRA Algorithm for Hearing Aids)

  • 전유용;이상민
    • 재활복지공학회논문지
    • /
    • 제11권4호
    • /
    • pp.363-370
    • /
    • 2017
  • 본 논문에서는 향상된 최소값 제어 재귀 평균 (improved minima controlled recursive averaging, IMCRA) 알고리즘과 로그 최소값 평균 제곱 오차 (log minimum mean square error, logMMSE)를 기반으로 한 저연산 음성 향상 알고리즘을 제안한다. IMCRA 알고리즘은 버퍼를 이용하여 일정 구간에서 입력 신호 전력의 최소값을 추적하고 최소값과 입력 신호의 비율을 통해 음성 존재를 확인한다. 이러한 과정에서 많은 연산이 필요하며 연산량을 줄이기 위해서 음성 존재 확률을 기반으로한 주파수 밴드별 시변 스무딩으로 최소값을 추적한다. 제안된 알고리즘은 0dB, 5dB, 10dB 그리고 15dB 신호 대 잡음비에서 평균 2.778%, 3.481%, 2.980% 그리고 2.162% 음성 품질이 향상되었으며, 평균 9.570% 연산량이 감소한 것을 확인하였다.

자동 음성 인식기를 위한 단채널 음질 향상 알고리즘의 성능 분석 (Performance Analysis of a Class of Single Channel Speech Enhancement Algorithms for Automatic Speech Recognition)

  • 송명석;이창헌;이석필;강홍구
    • The Journal of the Acoustical Society of Korea
    • /
    • 제29권2E호
    • /
    • pp.86-99
    • /
    • 2010
  • This paper analyzes the performance of various single channel speech enhancement algorithms when they are applied to automatic speech recognition (ASR) systems as a preprocessor. The functional modules of speech enhancement systems are first divided into four major modules such as a gain estimator, a noise power spectrum estimator, a priori signal to noise ratio (SNR) estimator, and a speech absence probability (SAP) estimator. We investigate the relationship between speech recognition accuracy and the roles of each module. Simulation results show that the Wiener filter outperforms other gain functions such as minimum mean square error-short time spectral amplitude (MMSE-STSA) and minimum mean square error-log spectral amplitude (MMSE-LSA) estimators when a perfect noise estimator is applied. When the performance of the noise estimator degrades, however, MMSE methods including the decision directed module to estimate a priori SNR and the SAP estimation module helps to improve the performance of the enhancement algorithm for speech recognition systems.

A New Least Mean Square Algorithm Using a Running Average Process for Speech Enhancement

  • Lee, Soo-Jeong;Ahn, Chan-Sik;Yun, Jong-Mu;Kim, Soon-Hyob
    • The Journal of the Acoustical Society of Korea
    • /
    • 제25권3E호
    • /
    • pp.123-130
    • /
    • 2006
  • The adaptive echo canceller (AEC) has become an important component in speech communication systems, including mobile station. In these applications, the acoustic echo path has a long impulse response. We propose a running-average least mean square (RALMS) algorithm with a detection method for acoustic echo cancellation. Using colored input models, the result clearly shows that the RALMS detection algorithm has a convergence performance superior to the least mean square (LMS) detection algorithm alone. The computational complexity of the new RALMS algorithm is only slightly greater than that of the standard LMS detection algorithm but confers a major improvement in stability.

Speech Enhancement Using Receding Horizon FIR Filtering

  • Kim, Pyung-Soo;Kwon, Wook-Hyu;Kwon, Oh-Kyu
    • Transactions on Control, Automation and Systems Engineering
    • /
    • 제2권1호
    • /
    • pp.7-12
    • /
    • 2000
  • A new speech enhancement algorithm for speech corrupted by slowly varying additive colored noise is suggested based on a state-space signal model. Due to the FIR structure and the unimportance of long-term past information, the receding horizon (RH) FIR filter known to be a best linear unbiased estimation (BLUE) filter is utilized in order to obtain noise-suppressed speech signal. As a special case of the colored noise problem, the suggested approach is generalized to perform the single blind signal separation of two speech signals. It is shown that the exact speech signal is obtained when an incoming speech signal is noise-free.

  • PDF

복소 라플라시안 확률 밀도 함수에 기반한 음성 향상 기법 (Noisy Speech Enhancement Based on Complex Laplacian Probability Density Function)

  • 박윤식;조규행;장준혁
    • 대한전자공학회논문지SP
    • /
    • 제44권6호
    • /
    • pp.111-117
    • /
    • 2007
  • 본 논문에서는 복소 라플라시안 확률밀도함수 (PDF, Probability Density Function)에 기반한 새로운 음성 향상 기법을 제시한다. 적용된 복소 라플라시안 PDF가 기존의 가우시안 PDF보다 오염된 음성 분포를 정확하게 표현한다는 것을 Goodness-of-Fit (GOF) 테스트로 확인하였고, 음성 향상 알고리즘의 음성부재확률을 위해 우도비 (LR, Likelihood Ratio)를 적용하였다. 제시된 알고리즘의 성능은 객관적 테스트에 의해 평가하였고 기존의 가우시안 PDF보다 개선된 음성 향상 결과를 나타내었다.

SVM의 확률 출력을 이용한 새로운 Global Soft Decision 기반의 음성 향상 기법 (Global Soft Decision Using Probabilistic Outputs of Support Vector Machine for Speech Enhancement)

  • 조규행;장준혁
    • 한국음향학회지
    • /
    • 제27권2호
    • /
    • pp.75-79
    • /
    • 2008
  • 본 논문에서는 support vector machine (SVM) 기반의 global soft decison (GSD)을 이용한 새로운 음성 향상 기법을 제시한다. 일반적으로 soft decision (SD) 이득 수정 및 잡음 전력 추정에 근거한 음성 향상 기법이 hard decision을 이용한 음성향상 기법 보다 우수한 성능을 보이는 것으로 알려져 있다. 특히, 각 프레임에서의 음성 부재에 대한 효과적인 척도인 전역음성 부재확률 (global speech absence probability, GSAP)을 SD 기반의 음성 향상 기법에 적용한 여러 연구가 진행되었다. 본 논문에서는 sigmoid 함수를 이용하여 얻어진 SVM의 확률 출력에 의해 추정된 새로운 GSAP를 음성 향상 기법에 적용한다. 제안된 알고리즘의 성능은 다양한 잡음 환경에 적용하여 PESQ 및 MOS 평가 방법을 바탕으로 기존의 GSD 기반의 스펙트럼 향상 기법과 비교하여 향상된 결과를 나타내었다.

Improved Single Channel Speech Enhancement Algorithm Using Adaptive Postfiltering

  • 송은우;강홍구
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.122-125
    • /
    • 2011
  • In real environment, background noise exists everywhere and degrades the performance of system. To reduce this distortion, a speech enhancement algorithm can be very useful and variety methods have been proposed. In this paper, we propose a postfilter to improve the performance of optimally modified log-spectral amplitude (OM-LSA) estimator. Proposed algorithm uses the formant postfilter to minimize perceptual distortion caused by background noise. We adjust an emphasizing parameter which is varied by spectral flatness and first reflection coefficient. The performance of the proposed algorithm is evaluated by measuring the log-spectral distance (LSD) and the perceptual evaluation of speech quality (PESQ) score. The test results show the improvement of proposed algorithm compared to conventional OM-LSA.

  • PDF

환경잡음분류 기반의 향상된 음성부재확률 추정 (An Improved Speech Absence Probability Estimation based on Environmental Noise Classification)

  • 손영호;박윤식;안홍섭;이상민
    • 한국음향학회지
    • /
    • 제30권7호
    • /
    • pp.383-389
    • /
    • 2011
  • 본 논문에서는 음성향상을 위하여 환경잡음분류를 적용한 향상된 음성부재확률 추정방법을 제안한다. 기존의 음성부재확률 추정방법에서는 마이크로폰 입력신호와 추정된 잡음신호 기반의 a posteriori SNR값에 문턱값을 적용하여 음성부재확률을 구하는데 필요한 음성부재의 a priori 확률을 도출하였다. 본 논문에서 제안된 알고리즘은 보다 효과적인 음성부재확률 추정을 위하여 고정된 문턱값과 스무딩 (smoothing)파라미터를 사용하는 기존의 방법과는 달리 잡음분류 알고리즘인 가우시안 혼합 모델 (Gaussian mixture model)을 사용하여 잡음마다 최적화된 파라미터를 적용한다. 제안된 음성 향상 기법은 ITU-T P.862 PESQ (perceptual evaluation of speech quality)와 composite measure를 이용하여 다양한 환경에서 평가하였으며, 제안된 알고리즘이 기존의 음성부재확률 추정방법보다 향상된 결과를 보였다.

서브밴드 가중치를 적용한 스펙트럼 최소값 추적을 이용하는 수정된 IMCRA 기반의 음성 향상 기법 (Speech Enhancement Based on Modified IMCRA Using Spectral Minima Tracking with Weighted Subband Selection)

  • 박윤식;박규석;이상민
    • 대한전자공학회논문지SP
    • /
    • 제49권3호
    • /
    • pp.89-97
    • /
    • 2012
  • 본 논문에서는 잡음환경에서 음성 향상 (speech enhancement)을 위한 새로운 잡음전력 추정 방법을 제안한다. 음성 향상 알고리즘에 널리 적용되고 있는 IMCRA (improved minima controlled recursive averaging) 기법은 오염된 음성신호로부터 추정된 최소 전력 스펙트럼에 기반하여 잡음전력을 추정하는 기존의 방법을 개선하기 위해 간단한 음성 검출 알고리즘을 이용하여 대략적으로 음성 성분이 제거된 전력 스펙트럼에서 최소값을 추정함으로써 음성구간에서 발생할 수 있는 음성왜곡 문제점을 개선하였다. 하지만 비정상 잡음이나 신호 대 잡음 비 (SNR signal-to-noise ratio)가 낮은 환경에서는 음성 검출 성능이 저하되어 음성구간에서 음성왜곡이 발생되는 기존의 문제점이 여전히 발생된다. 따라서 제안된 방법에서는 향상된 잡음전력 추정을 위하여 기존의 IMCRA에서 추정된 최소 전력 스펙트럼에 대하여 스펙트럼 최소값 추적 (SMT, spectral minima tracking) 기법을 적용하고 IMCRA에 의한 최소값과 SMT에 의해 추정된 최소값을 서브밴드 (subband)에 따라 가중치를 적용하여 결합한다. 제안된 알고리즘은 기존의 방법과 주관적 및 객관적 음질평가 테스트를 통해 비교 평가한 결과 다양한 배경잡음 환경에서 향상된 성능을 보였다.

Integrated Visual and Speech Parameters in Korean Numeral Speech Recognition

  • Lee, Sang-won;Park, In-Jung;Lee, Chun-Woo;Kim, Hyung-Bae
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -2
    • /
    • pp.685-688
    • /
    • 2000
  • In this paper, we used image information for the enhancement of Korean numeral speech recognition. First, a noisy environment was made by Gaussian generator at each 10 dB level and the generated signal was added to original Korean numeral speech. And then, the speech was analyzed to recognize Korean numeral speech. Speech through microphone was pre-emphasized with 0.95, Hamming window, autocorrelation and LPC analysis was used. Second, the image obtained by camera, was converted to gray level, autocorrelated, and analyzed using LPC algorithm, to which was applied in speech analysis, Finally, the Korean numerial speech recognition with image information was more ehnanced than speech-only, especially in ‘3’, ‘5’and ‘9’. As the same LPC algorithm and simple image management was used, additional computation a1gorithm like a filtering was not used, a total speech recognition algorithm was made simple.

  • PDF