• 제목/요약/키워드: Robust speaker recognition

검색결과 57건 처리시간 0.018초

가무시안 혼합모델에서 점진적 강인적응을 통한 화자확인 성능개선 (Performance Enhancement for Speaker Verification Using Incremental Robust Adaptation in GMM)

  • 김은영;서창우;임영환;전성채
    • 한국음향학회지
    • /
    • 제28권3호
    • /
    • pp.268-272
    • /
    • 2009
  • 본 논문에서는 화자확인을 위해서 가우시안혼합모델에 forgetting factor를 갖는 점진적 강인적응 방법을 제안하였다. 화자인식 시스템에서 적은 양의 데이터로 좋은 성능을 얻기 위하여 화자모델 적응방법이 사용되고 있다. 그러나, 현재 사용되고 있는 적응방법은 불규칙한 발성변화와 잡음 같은 이씨에 취약하고, 그것은 부정확한 화자모델을 만들 수 있다. 또한 시간이 지날수록 모델에 새로운 데이터가 적응되는 비율이 줄어들게 되는 문제점이 있다. 제안된 알고리즘은 가우시안혼합모델을 이용한 화자모델에서 이상치에 의한 왜곡과 새로운 데이터에 대한 적응 비율을 일정이상으로 유지할 수 있도록 하기 위하여 점진적 강인적응 방법을 제안하였다. 점진적 강인적응은 화자인식에서 적은 양의 데이터로 등록하고 테스트된 새로운 데이터로 모델을 적응시키는 방법이다. 실험결과는 7개월에 걸쳐서 수집된 데이터로부터 제안된 방법이 이상치에 강인하고 새로운 데이터의 적응 비율을 일정하게 유지시킴을 보였다.

대각공분산 GMM에 최적인 선형변환을 이용한 강인한 화자식별 (Robust Speaker Identification Using Linear Transformation Optimized for Diagonal Covariance GMM)

  • 김민석;양일호;유하진
    • 대한음성학회지:말소리
    • /
    • 제65호
    • /
    • pp.67-80
    • /
    • 2008
  • We have been building a text-independent speaker recognition system that is robust to unknown channel and noise environments. In this paper, we propose a linear transformation to obtain robust features. The transformation is optimized to maximize the distances between the Gaussian mixtures. We use rotation of the axes, to cope with the problem of scaling the transformation matrix. The proposed transformation is similar to PCA or LDA, but can achieve better result in some special cases where PCA and LDA can not work properly. We use YOHO database to evaluate the proposed method and compare the result with PCA and LDA. The results show that the proposed method outperforms all the baseline, PCA and LDA.

  • PDF

발성변화에 강인한 화자 인식에 관한 연구 (Safety Robust Speaker Recognition Against Utterance Variationsed)

  • 이기용
    • 인터넷정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.69-73
    • /
    • 2004
  • 화자인식 시스템에서 화자 모델은 여러 세션동안 수집된 많은 양의 데이터 집합으로 등록한다. 많은 양의 데이터 집합은 많은 양의 메모리와 계산을 필요로 할 뿐 아니라, 게다가 사용자가 음성 등록을 위하여 여러 번에 걸쳐서 발성해야 하는 문제점이 있다. 최근, 이러한 문제를 보완하기 위해서 많은 적응 방법들이 제안되었다. 그러나, 여러 세션동안 모아진 데이터 집합은 불규칙한 발성 변화와 잡음 같은 이상치에 취약하고, 그것은 부정확한 화자 모델을 만든다. 본 논문에서는, GMM에 기초를 둔 화자 모델에 이상치들의 영향을 최소화하기 위한 적응 방법을 제안하였다. 강인한 적응은 M-추정의 점진적인 방법으로부터 얻어진다. 화자 모델은 초기에 적은 양의 데이터로 등록되어지고, 각각의 세션에서 얻어진 데이터로 반복적으로 적응시킨다. 실험 결과는 7개월에 걸쳐서 수집된 데이터 집합으로부터 제안된 방법이 이상치에 강인하다는 것을 보여준다.

  • PDF

강인한 정합과정을 이용한 텍스트 종속 화자인식에 관한 연구 (A study on the text-dependent speaker recognition system Using a robust matching process)

  • 이한구;이기성
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2002년도 합동 추계학술대회 논문집 정보 및 제어부문
    • /
    • pp.605-608
    • /
    • 2002
  • A text-dependent speaker recognition system using a robust matching process is studied. The feature histogram of LPC cepstral coefficients for matching is used. The matching process uses mixture network with penalty scores. Using probability and shape comparison of two feature histograms, similarity values are obtained. The experiment results will be shown to show the effectiveness of the proposed algorithm.

  • PDF

지속시간항을 갖는 AR HMM을 이용한 잡음환경에서의 강인 화자인식 시스템 구현 (Implementation of a Robust Speaker Recognition System in Noisy Environment Using AR HMM with Duration-term)

  • 이기용;임재열
    • 한국음향학회지
    • /
    • 제20권6호
    • /
    • pp.26-33
    • /
    • 2001
  • 기존의 AR HMM(auroreg ressive hidden morkov model)에 의한 화자인식 방법은 그 성능이 우수하나, 잡음에 대한 것이 고려되지 않아 실제 환경에 적용시 성능저하가 문제가 된다. 본 논문에서는 실제 환경에 맞추기 위하여 관측 신호 모델에서 잡음을 고려하고, 화자인식 성능을 개선하고자 지속시간항 (duration-term)을 포함하는 AR HMM을 이용하여 잡음환경에서의 강인한 화자인식 시스템을 제안한다. 100명의 화자 (남자 77명, 여자 23명)가 2주에 걸쳐 6번 발성한 숫자음 데이터베이스을 가지고, 백색잡음 및 자동차 잡음하에서 실험한 결과, 제안된 방법으로 성능이 향상됨을 확인하였다.

  • PDF

독립성분분석을 이용한 DSP 기반의 화자 독립 음성 인식 시스템의 구현 (Implementation of Speaker Independent Speech Recognition System Using Independent Component Analysis based on DSP)

  • 김창근;박진영;박정원;이광석;허강인
    • 한국정보통신학회논문지
    • /
    • 제8권2호
    • /
    • pp.359-364
    • /
    • 2004
  • 본 논문에서는 범용 디지털 신호처리기를 이용한 잡음환경에 강인한 실시간 화자 독립 음성인식 시스템을 구현하였다. 구현된 시스템은 TI사의 범용 부동소수점 디지털 신호처리기인 TMS320C32를 이용하였고, 실시간 음성 입력을 위한 음성 CODEC과 외부 인터페이스를 확장하여 인식결과를 출력하도록 구성하였다. 실시간 음성 인식기에 사용한 음성특징 파라메터는 일반적으로 사용되어 지는 MFCC(Mel Frequency Cepstral Coefficient)대신 독립성분분석을 통해 MFCC의 특징 공간을 변화시킨 파라메터를 사용하여 외부잡음 환경에 강인한 특성을 지니도록 하였다. 두 가지 특징 파라메터에 대해 잡음 환경에서의 인식실험 결과, 독립성분 분석에 의한 특징 파라메터의 인식 성능이 MFCC보다 우수함을 확인 할 수 있었다.

최적화된 관측 신뢰도와 변형된 HMM 디코더를 이용한 잡음에 강인한 화자식별 시스템 (A Robust Speaker Identification Using Optimized Confidence and Modified HMM Decoder)

  • ;김진영;나승유
    • 대한음성학회지:말소리
    • /
    • 제64호
    • /
    • pp.121-135
    • /
    • 2007
  • Speech signal is distorted by channel characteristics or additive noise and then the performances of speaker or speech recognition are severely degraded. To cope with the noise problem, we propose a modified HMM decoder algorithm using SNR-based observation confidence, which was successfully applied for GMM in speaker identification task. The modification is done by weighting observation probabilities with reliability values obtained from SNR. Also, we apply PSO (particle swarm optimization) method to the confidence function for maximizing the speaker identification performance. To evaluate our proposed method, we used the ETRI database for speaker recognition. The experimental results showed that the performance was definitely enhanced with the modified HMM decoder algorithm.

  • PDF

Filtering of Filter-Bank Energies for Robust Speech Recognition

  • Jung, Ho-Young
    • ETRI Journal
    • /
    • 제26권3호
    • /
    • pp.273-276
    • /
    • 2004
  • We propose a novel feature processing technique which can provide a cepstral liftering effect in the log-spectral domain. Cepstral liftering aims at the equalization of variance of cepstral coefficients for the distance-based speech recognizer, and as a result, provides the robustness for additive noise and speaker variability. However, in the popular hidden Markov model based framework, cepstral liftering has no effect in recognition performance. We derive a filtering method in log-spectral domain corresponding to the cepstral liftering. The proposed method performs a high-pass filtering based on the decorrelation of filter-bank energies. We show that in noisy speech recognition, the proposed method reduces the error rate by 52.7% to conventional feature.

  • PDF

채널에 강인한 화자 인식을 위한 채널 정규화 피치 동기 켑스트럼에 관한 연구 (A Study on the Channel Normalized Pitch Synchronous Cepstrum for Speaker Recognition)

  • 김유진;정재호
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.61-74
    • /
    • 2004
  • 본 논문에서는 채널 환경에 강인한 화자 인식 시스템을 위하여 문맥과 화자에 종속적인 켑스트럼 추출 방법과 추출된 켑스트럼에서 화자 정보의 손실을 최소화하는 채널 정규화 방법을 제안하였다. 제안된 추출 방법은 화자의 고유한 피치를 이용한 피치 동기 분석 방법에 기반을 두어 켑스트럼을 추출한다. 따라서 일명 피치 동기 켑스트럼 (PSC)은 유성음 구간에서 성도의 임펄스 응답을 보다 정확하게 표현할 수 있다. 또한 피치는 채널 환경에서 스펙트럼에 비해 강인하므로 피치 동기 켑스트럼은 채널에 의한 스펙트럼의 왜곡을 보상할 수 있다. 제안된 채널 정규화방법인 포먼트 평활화 피치 동기 켑스트랄 평균 차감법 (FBPSCMS)은 포먼트 평활화 켑스트랄 평균 차감법을 PSC에 적용하여 프레임 내 처리의 정확도를 개선시킨다. 제안된 방법들의 화자 인식 성능을 비교하기 위해 남자 112명과 여자 56명에 대해 WMIT과 전화선 환경의 NTIMIT을 이용한 화자 식별을 수행하였다. 실험 결과 피치 동기 LPCC는 기존 단구간 켑스트럼과 비교하여 에러 감소율을 최대 7.7%까지 향상시켰고, FBPSCMS는 극점 필터링 CMS에 비해 보다 안정되고 낮은 에러율을 나타내었다.

Noise-Robust Speaker Recognition Using Subband Likelihoods and Reliable-Feature Selection

  • Kim, Sung-Tak;Ji, Mi-Kyong;Kim, Hoi-Rin
    • ETRI Journal
    • /
    • 제30권1호
    • /
    • pp.89-100
    • /
    • 2008
  • We consider the feature recombination technique in a multiband approach to speaker identification and verification. To overcome the ineffectiveness of conventional feature recombination in broadband noisy environments, we propose a new subband feature recombination which uses subband likelihoods and a subband reliable-feature selection technique with an adaptive noise model. In the decision step of speaker recognition, a few very low unreliable feature likelihood scores can cause a speaker recognition system to make an incorrect decision. To overcome this problem, reliable-feature selection adjusts the likelihood scores of an unreliable feature by comparison with those of an adaptive noise model, which is estimated by the maximum a posteriori adaptation technique using noise features directly obtained from noisy test speech. To evaluate the effectiveness of the proposed methods in noisy environments, we use the TIMIT database and the NTIMIT database, which is the corresponding telephone version of TIMIT database. The proposed subband feature recombination with subband reliable-feature selection achieves better performance than the conventional feature recombination system with reliable-feature selection.

  • PDF