• 제목/요약/키워드: Robust speech recognition.

검색결과 225건 처리시간 0.024초

강인한 음성인식을 위한 통계적 특징벡터 추출방법의 개선 (An Improvement of Stochastic Feature Extraction for Robust Speech Recognition)

  • 김회린;고진석
    • 한국음향학회지
    • /
    • 제23권2호
    • /
    • pp.180-186
    • /
    • 2004
  • 음성 신호에 존재하는 잡음은 음성 인식기의 성능을 현저하게 감소시킨다. 이것은 잡음이 훈련 조건과 인식 조건 사이의 불일치를 가져오기 때문이다. 본 논문에서는 이러한 불일치를 최소화하기 위해서 통계적 특징벡터의 추출방법을 개선하기 위한 방법을 연구하였다. 밴드 SNR에 따라 잡음 스펙트럼의 차감 레벨을 조절하는 기존의 멀티 밴드 잡음 차감법 (MSS)을 개선하기 위하여 잡음 정규화 상수를 이용하여 잡음 스펙트럼의 차감 레벨을 보다 정확하게 조절하는 방법 (M-MSS)을 제시하였다. 다음으로, 기존의 통계적 특징벡터 추출방법 (SFE)에서 잡음 차감법을 파워 스펙트럼 영역에 적용함으로써 성능을 개선하였다(M-SFE). 마지막으로, 위의 두 가지 방법의 장점을 결합하기 위해서 밴드 SNR에 근거한 통계적 특징벡터 추출방법 (MMSS-MSFE)을 제안하였다. 제안된 방법들은 다양한 잡음 환경 하에서 화자독립 고립 단어 인식으로 성능을 평가하였다. 기본적인 잡음 차감법 (SS)에 비하여 M-MSS, M-SFE와 MMSS-MSFE의 평균 에러율은 각각 18.6%, 15.1%와 33.9% 감소하였다. 위의 결과로부터 제안한 방법이 잡음에 강인한 음성인식을 위해 매우 효과적임을 입증하였다.

멀티밴드 스펙트럼 차감법과 엔트로피 하모닉을 이용한 잡음환경에 강인한 분산음성인식 (Robust Distributed Speech Recognition under noise environment using MESS and EH-VAD)

  • 최갑근;김순협
    • 전자공학회논문지CI
    • /
    • 제48권1호
    • /
    • pp.101-107
    • /
    • 2011
  • 음성인식의 실용화에 가장 저해되는 요소는 배경잡음과 채널에 의한 왜곡이다. 일반적으로 잡음은 음성인식 시스템의 성능을 저하시키고 이로 인해 사용 장소의 제약을 많이 받고 있다. DSR(Distributed Speech Recognition) 기반의 음성인식 역시 이 같은 문제로 성능 향상에 어려움을 겪고 있다. 이 논문은 잡음환경에서 DSR기반의 음성인식률 향상을 위해 정확한 음성구간을 검출하고, 잡음을 제거하여 잡음에 강인한 특징추출을 하도록 설계하였다. 제안된 방법은 엔트로피와 음성의 하모닉을 이용해 음성구간을 검출하며 멀티밴드 스펙트럼 차감법을 이용하여 잡음을 제거한다. 음성의 스펙트럼 에너지에 대한 엔트로피를 사용하여 음성검출을 하게 되면 비교적 높은 SNR 환경 (SNR 15dB) 에서는 성능이 우수하나 잡음환경의 변화에 따라 음성과 비음성의 문턱 값이 변화하여 낮은 SNR환경(SNR 0dB)에시는 정확한 음성 검출이 어렵다. 이 논문은 낮은 SNR 환경(0dB)에서도 정확한 음성을 검출할 수 있도록 음성의 스펙트럴 엔트로피와 하모닉 성분을 이용하였으며 정확한 음성 구간 검출에 따라 잡음을 제거하여 잡음에 강인한 특정을 추출하도록 하였다. 실험결과 잡음환경에 따른 인식조건에서 개선된 인식성능을 보였다.

자동차 환경에서 Oak DSP 코어 기반 음성 인식 시스템 실시간 구현 (A Real-Time Implementation of Speech Recognition System Using Oak DSP core in the Car Noise Environment)

  • 우경호;양태영;이충용;윤대희;차일환
    • 음성과학
    • /
    • 제6권
    • /
    • pp.219-233
    • /
    • 1999
  • This paper presents a real-time implementation of a speaker independent speech recognition system based on a discrete hidden markov model(DHMM). This system is developed for a car navigation system to design on-chip VLSI system of speech recognition which is used by fixed point Oak DSP core of DSP GROUP LTD. We analyze recognition procedure with C language to implement fixed point real-time algorithms. Based on the analyses, we improve the algorithms which are possible to operate in real-time, and can verify the recognition result at the same time as speech ends, by processing all recognition routines within a frame. A car noise is the colored noise concentrated heavily on the low frequency segment under 400 Hz. For the noise robust processing, the high pass filtering and the liftering on the distance measure of feature vectors are applied to the recognition system. Recognition experiments on the twelve isolated command words were performed. The recognition rates of the baseline recognizer were 98.68% in a stopping situation and 80.7% in a running situation. Using the noise processing methods, the recognition rates were enhanced to 89.04% in a running situation.

  • PDF

자동차 잡음환경 고립단어 음성인식에서의 VTS와 PMC의 성능비교 (Performance Comparison between the PMC and VTS Method for the Isolated Speech Recognition in Car Noise Environments)

  • 정용주;이승욱
    • 음성과학
    • /
    • 제10권3호
    • /
    • pp.251-261
    • /
    • 2003
  • There has been many research efforts to overcome the problems of speech recognition in noisy conditions. Among the noise-robust speech recognition methods, model-based adaptation approaches have been shown quite effective. Particularly, the PMC (parallel model combination) method is very popular and has been shown to give considerably improved recognition results compared with the conventional methods. In this paper, we experimented with the VTS (vector Taylor series) algorithm which is also based on the model parameter transformation but has not attracted much interests of the researchers in this area. To verify the effectiveness of it, we employed the algorithm in the continuous density HMM (Hidden Markov Model). We compared the performance of the VTS algorithm with the PMC method and could see that the it gave better results than the PMC method.

  • PDF

Bayesian 적응 방식을 이용한 잡음음성 인식에 관한 연구 (A Study on Noisy Speech Recognition Using a Bayesian Adaptation Method)

  • 정용주
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.21-26
    • /
    • 2001
  • 본 논문에서는 잡음에 강인한 음성인식을 위해서 expectation-maximization (EM) 방식을 이용하여 잡음의 평균값을 추정하는 새로운 알고리듬을 제안하였다. 제안된 알고리듬에서는 온라인상의 인식용 음성이 직접 Bayesian 적응을 위해서 사용되며, 또한 훈련데이터를 이용하여 잡음의 평균값에 대한 사전 (prior) 분포를 알아낸 후 Bayesian 적응시에 이용한다. 잡음 음성의 모델링을 위해서는 PMC (parallel model combination) 방식을 이용하였고, 제안된 방식을 이용하여 자동차 잡음 환경 하에서 인식 실험을 수행한 결과, 기존의 PMC 방식에 비해서 향상된 인식성능을 보임을 알 수 있었다.

  • PDF

On Effective Dual-Channel Noise Reduction for Speech Recognition in Car Environment

  • Ahn, Sung-Joo;Kang, Sun-Mee;Ko, Han-Seok
    • 음성과학
    • /
    • 제11권1호
    • /
    • pp.43-52
    • /
    • 2004
  • This paper concerns an effective dual-channel noise reduction method to increase the performance of speech recognition in a car environment. While various single channel methods have already been developed and dual-channel methods have been studied somewhat, their effectiveness in real environments, such as in cars, has not yet been formally proven in terms of achieving acceptable performance level. Our aim is to remedy the low performance of the single and dual-channel noise reduction methods. This paper proposes an effective dual-channel noise reduction method based on a high-pass filter and front-end processing of the eigendecomposition method. We experimented with a real multi-channel car database and compared the results with respect to the microphones arrangements. From the analysis and results, we show that the enhanced eigendecomposition method combined with high-pass filter indeed significantly improve the speech recognition performance under a dual-channel environment.

  • PDF

잡음 환경에 강인한 이중모드 음성인식 시스템에 관한 연구 (A Study on the Robust Bimodal Speech-recognition System in Noisy Environments)

  • 이철우;고인선;계영철
    • 한국음향학회지
    • /
    • 제22권1호
    • /
    • pp.28-34
    • /
    • 2003
  • 최근 잡음이 심한 환경에서 음성인식을 신뢰성 있게 하기 위하여 입 모양의 움직임 (영상언어)과 음성을 같이 사용하는 방법이 활발히 연구되고 있다 본 논문에서는 영상언어 인식기의 결과와 음성인식기의 결과에 각각 가중치를 주어 결합하는 방법을 연구하였다. 각각의 인식 결과에 적절한 가중치를 결정하는 방법을 제안하였으며, 특히 음성정보에 들어있는 잡음의 정도와 영상정보의 화질에 따라 자동적으로 가중치를 결정하도록 하였다. 모의 실험 결과 제안된 방법에 의한 결합 인식률이 잡음이 심한 환경에서도 84% 이상의 인식률을 나타내었으며, 영상에 번짐효과가 있는 경우 영상의 번짐 정도를 고려한 결합 방법이 그렇지 않은 경우보다 우수한 인식 성능을 나타내었다.

Model Adaptation Using Discriminative Noise Adaptive Training Approach for New Environments

  • Jung, Ho-Young;Kang, Byung-Ok;Lee, Yun-Keun
    • ETRI Journal
    • /
    • 제30권6호
    • /
    • pp.865-867
    • /
    • 2008
  • A conventional environment adaptation for robust speech recognition is usually conducted using transform-based techniques. Here, we present a discriminative adaptation strategy based on a multi-condition-trained model, and propose a new method to provide universal application to a new environment using the environment's specific conditions. Experimental results show that a speech recognition system adapted using the proposed method works successfully for other conditions as well as for those of the new environment.

  • PDF

음성구간검출을 위한 비정상성 잡음에 강인한 특징 추출 (Robust Feature Extraction for Voice Activity Detection in Nonstationary Noisy Environments)

  • 홍정표;박상준;정상배;한민수
    • 말소리와 음성과학
    • /
    • 제5권1호
    • /
    • pp.11-16
    • /
    • 2013
  • This paper proposes robust feature extraction for accurate voice activity detection (VAD). VAD is one of the principal modules for speech signal processing such as speech codec, speech enhancement, and speech recognition. Noisy environments contain nonstationary noises causing the accuracy of the VAD to drastically decline because the fluctuation of features in the noise intervals results in increased false alarm rates. In this paper, in order to improve the VAD performance, harmonic-weighted energy is proposed. This feature extraction method focuses on voiced speech intervals and weighted harmonic-to-noise ratios to determine the amount of the harmonicity to frame energy. For performance evaluation, the receiver operating characteristic curves and equal error rate are measured.

주파수 변이를 이용한 Parallel Model Combination 모델 적응에 기반한 잡음에 강한 음성인식 (Noise Robust Speech Recognition Based on Parallel Model Combination Adaptation Using Frequency-Variant)

  • 최숙남;정현열
    • 한국음향학회지
    • /
    • 제32권3호
    • /
    • pp.252-261
    • /
    • 2013
  • 일반적인 음성인식 시스템은 조용한 인식 환경에서는 높은 인식성능을 나타내지만 잡음이 존재하는 실제 환경에서는 그 성능이 급격히 저하한다. 본 논문에서는 다양한 잡음환경에서도 강인한 음성인식기를 구현하기 위하여, 주파수의 변이도를 이용하여 음성인식을 위한 환경 정보를 얻고 이를 음성 인식을 위한 모델 개선에 적용하여 성능향상을 도모하는 환경정보 지식에 기반한 주파수 변이 적응 PMC (Parallel Model Combination adaptation using frequency-variant based on environment - awareness : FV-PMC) 방법을 제안한다. 이 방법은 미리 분류된 각 잡음 군간의 평균 주파수 변이도를 미리 계산하여 임계치로 설정하고 미지의 잡음이 포함된 음성이 입력되면 각 잡음 군과의 주파수 변이도를 다시 계산하여 해당 잡음군의 임계치 보다 높을 경우 그 잡음 군의 잡음이 포함된 음성으로 간주하여 이 잡음 군이 포함된 음성을 이용하여 생성된 인식모델을 이용하여 음성인식을 수행한다. 제안한 FV-PMC 방법을 이용하여 잡음을 분류 하였을 경우 평균 분류 정확도는 56%를 보였고 이를 이용해 음성인식 실험을 실시한 결과 Set A의 평균인식률은 79.05%, Set B의 평균인식률은 79.43%, Set C의 평균인식률은 83.37%로 나타났다. 전체 평균인식률 80.62%로 기존의 깨끗한 모델을 이용한 PMC 인식률 74.93% 보다 5.69% 향상된 결과를 보여 제안한 방법의 유효성을 확인할 수 있었다.