• 제목/요약/키워드: Mel frequency cepstral coefficients

검색결과 73건 처리시간 0.023초

화자 검증 시스템을 위한 PCA 기반 MFDWC 특징 파라미터 (A PCA-based MFDWC Feature Parameter for Speaker Verification System)

  • 함성준;정호열;정현열
    • 한국음향학회지
    • /
    • 제25권1호
    • /
    • pp.36-42
    • /
    • 2006
  • 본 논문에서는 화자검증 시스템의 성능향상을 위해서 주성분 분석 (PCA) 기반 Mel-Frequency Discrete Wavelet Coefficients (MFDWC) 추출방법을 제안한다. 제안된 방법에서는 멜척도 (Mel-scale)를 근사화한 각 레벨 (level)의 각 노드 (node) 에너지를 계산하기 위해 기존의 평균치 대신 주성분 분석을 이용한 첫 번째 eigenvector를 이용한다. 이 eigenvecto.의 제곱의 합은 1로서 일반적인 가중 함수 (weighting function)의 조건을 만족하고, 또한 각 화자마다 서로 다른 값을 갖게 되므로, 화자의 특징을 더 잘 나타내는 MFDWC를 추출할 수 있다. 화자검증은 Gaussian Mixture Model (GMM) 기반의 백그라운드 모델과 화자 모델과의 점수를 비교하는 이진 결정 (binary decision) 방법을 이용하여 Universal 백그라운드 모델 (UBM)과 각 화자 모델의 값을 프레임단위로 비교하여 대상 화자의 수락/거부 여부를 결정하는 방법을 채택하였다. 특징 파라미터에 따른 화자 검증 성능변화를 확인하기 위하여 제안된 화자종속 가중함수를 이용한 MFDWC를 특징 파라미터로 이용한 경우와 Mel-Frequency Cepstral Coefficients (MFCC), Linear Predictive Cepstral Coefficients (LPCC), 기존의 MFDWC를 특징 파라미터로 이용한 경우에 대하여 성능비교실험을 수행한 결과 각각 $0.80\%,\;5.14\%,\; 6.69\%$의 향상된 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.

Group Delay를 이용한 GMM기반의 성별 인식 알고리즘 (GMM-Based Gender Identification Employing Group Delay)

  • 이계환;임우형;김남수;장준혁
    • 한국음향학회지
    • /
    • 제26권6호
    • /
    • pp.243-249
    • /
    • 2007
  • 본 논문은 Group Delay(GD)를 이용한 음성신호 기반의 효과적인 성별인식 시스템을 제안한다. 일반적인 음성 인식과 관련된 시스템에서 사용되는 특징들은 위상에 관한 정보를 제거한 크기만의 정보를 이용하여 구성한다. 본 연구에서는 위상에 관한 정보를 토대로 유도되어 지는 GD의 성별에 따른 특징을 알아보고, 보다 향상된 성별인식을 위해 MFCC(Mel-frequency cepstral coefficient), LPC(linear predictive coding) 계수, 반사계수(reflection coefficient) 그리고 포만트(formant)등과 같은 크기 정보와 GD를 이용한 결합 특징 벡터를 적용하였다. 실험을 통해 성별에 따른 GD의 특징을 확인할 수 있었고, 이를 이용한 제안된 특징 벡터를 사용했을 때 우수한 인식 성능을 얻을 수 있었다.

MFCC-HMM-GMM을 이용한 근전도(EMG)신호 패턴인식의 성능 개선 (Performance Improvement of EMG-Pattern Recognition Using MFCC-HMM-GMM)

  • 최흥호;김정호;권장우
    • 대한의용생체공학회:의공학회지
    • /
    • 제27권5호
    • /
    • pp.237-244
    • /
    • 2006
  • This study proposes an approach to the performance improvement of EMG(Electromyogram) pattern recognition. MFCC(Mel-Frequency Cepstral Coefficients)'s approach is molded after the characteristics of the human hearing organ. While it supplies the most typical feature in frequency domain, it should be reorganized to detect the features in EMG signal. And the dynamic aspects of EMG are important for a task, such as a continuous prosthetic control or various time length EMG signal recognition, which have not been successfully mastered by the most approaches. Thus, this paper proposes reorganized MFCC and HMM-GMM, which is adaptable for the dynamic features of the signal. Moreover, it requires an analysis on the most suitable system setting fur EMG pattern recognition. To meet the requirement, this study balanced the recognition-rate against the error-rates produced by the various settings when loaming based on the EMG data for each motion.

펄스 도플러 레이더에서 HMM을 이용한 이동표적의 도플러 오디오 신호 식별 (Classification of Doppler Audio Signals for Moving Target Using Hidden Markov Model in Pulse Doppler Radar)

  • 심재훈;이정호;배건성
    • 전기전자학회논문지
    • /
    • 제22권3호
    • /
    • pp.624-629
    • /
    • 2018
  • 감시 및 정찰용 펄스 도플러 레이더(Pulse Doppler Radar : PDR)에서 이동표적의 식별은 일반적으로 레이더 운용자의 도플러 오디오 신호 청취 및 훈련 경험을 바탕으로 수행된다. 본 논문에서는 음성인식 분야에서 널리 이용되는 Mel Frequency Cepstral Coefficients(MFCC) 특징 파라미터와 Hidden Markov Model(HMM) 식별 기법을 이용하여 이동 표적의 클래스를 자동 식별하는 방법을 제안하고, 시뮬레이션을 통해 식별성능을 분석하고 검증하였다.

신호의 주기성에 따라 변형되는 스펙트럼 차감을 이용한 CMSBS (CMSBS Extraction Using Periodicity-based Mel Sub-band Spectral Subtraction CMSBS Extraction)

  • 이우영;이상호;홍재근
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2009년도 춘계학술발표논문집
    • /
    • pp.768-771
    • /
    • 2009
  • 현재 음성인식에서 가장 많이 사용하고 있는 특징벡터는 MFCC(Mel-Frequency Cepstral Coefficients)이다. 그러나 MFCC도 잡음이 존재하는 환경에서는 인식 성능이 저하된다. 이러한 MFCC의 단점을 해결하기 위해 mel sub-band 스펙트럼 차감법과 신호대잡음비에 따른 에너지 압축을 이용하는 CMSBS(Compression and Mel Sub-Band Spectral subtraction) 방법을 사용한다. 본 논문에서는 CMSBS 방법 적용 시 음성이 발성되는 구간과 묵음 구간에서 mel sub-band 스펙트럼 차감법이 동일한 조건으로 이루어져 발생하는 중요한 음성정보의 손실을 보완하기 위하여 신호의 주기성을 이용하여 spectral flooring 파라미터를 변형하는 방법을 제안한다. 제안한 방법으로 실험을 한 결과 잡음이 거의 없는 음성신호에 대해서는 기존의 방법과 비슷한 인식률을 가지고, 잡음성분이 많을수록 변형된 mel sub-band 스펙트럼 차감법을 적용한 방법이 인식률에서 보다 높은 성능 향상을 가져왔다.

  • PDF

후두질환 음성의 자동 식별 성능 비교 (Performance Comparison of Automatic Detection of Laryngeal Diseases by Voice)

  • 강현민;김수미;김유신;김형순;조철우;양병곤;왕수건
    • 대한음성학회지:말소리
    • /
    • 제45호
    • /
    • pp.35-45
    • /
    • 2003
  • Laryngeal diseases cause significant changes in the quality of speech production. Automatic detection of laryngeal diseases by voice is attractive because of its nonintrusive nature. In this paper, we apply speech recognition techniques to detection of laryngeal cancer, and investigate which feature parameters and classification methods are appropriate for this purpose. Linear Predictive Cepstral Coefficients (LPCC) and Mel-Frequency Cepstral Coefficients (MFCC) are examined as feature parameters, and parameters reflecting the periodicity of speech and its perturbation are also considered. As for classifier, multilayer perceptron neural networks and Gaussian Mixture Models (GMM) are employed. According to our experiments, higher order LPCC with the periodic information parameters yields the best performance.

  • PDF

Improvements on MFCC by Elaboration of the Filter Banks and Windows

  • Lee, Chang-Young
    • 음성과학
    • /
    • 제14권4호
    • /
    • pp.131-144
    • /
    • 2007
  • In an effort to improve the performance of mel frequency cepstral coefficients (MFCC), we investigate the effects of varying the parameters for the filter banks and their associated windows on speech recognition rates. Specifically, the mel and bark scales are combined with various types of filter bank windows. Comparison and evaluation of the suggested methods are performed by two independent ways of speech recognition and the Fisher discriminant objective function. It is shown that the Hanning window based on the bark scale yields 28.1% relative performance improvements over the triangular window with the mel scale in speech recognition error rate. Further work on incorporating PCA and/or LDA would be desirable as a postprocessor to MFCC extraction.

  • PDF

인지적 청각 특성을 이용한 고립 단어 전화 음성 인식 (Isolated-Word Speech Recognition in Telephone Environment Using Perceptual Auditory Characteristic)

  • 최형기;박기영;김종교
    • 대한전자공학회논문지TE
    • /
    • 제39권2호
    • /
    • pp.60-65
    • /
    • 2002
  • 본 논문에서는, 음성 인식률 향상을 위하여 청각 특성을 기반으로 한 GFCC(gammatone filter frequency cepstrum coefficients) 파라미터를 음성 특징 파라미터로 제안한다. 그리고 전화망을 통해 얻은 고립단어를 대상으로 인식실험을 수행하였다. 성능비교를 위하여 MFCC(mel frequency cepstrum coefficients)와 LPCC(linear predictive cepstrum coefficient)를 사용하여 인식 실험을 하였다. 또한, 각 파라미터에 대하여 전화망의 채널 왜곡 보상기법으로 CMS(cepstral mean subtraction)를 도입한 방법과 적용시키지 않은 방법으로 인식실험을 하였다. 실험 결과로서, GFCC를 사용하여 인식을 수행한 방법이 다른 파라미터를 사용한 방법에 비해 향상된 결과를 얻었다.

생체기반 GMM Supervector Kernel을 이용한 운전자검증 기술 (Driver Verification System Using Biometrical GMM Supervector Kernel)

  • 김형국
    • 한국ITS학회 논문지
    • /
    • 제9권3호
    • /
    • pp.67-72
    • /
    • 2010
  • 본 논문에서는 음성과 얼굴 정보를 분석하여 자동차환경에서 운전자를 검증하는 기술을 소개한다. 음성정보를 이용한 화자검증을 위해서는 잘 알려진 Mel-scale Frequency Cepstral Coefficients(MFCCs)를 음성 특징으로 사용하였으며, 동영상을 이용한 얼굴검증에 대해서는 AdaBoost를 이용하여 검출된 얼굴 영역에 대해 주성분 분석을 수행하여 데이터의 크기가 현저히 줄어든 특징벡터를 추출하였다. 기존의 화자검증 방식에 비해 본 논문에서는 추출된 음성 및 얼굴 특징들을 Gaussian Mixture Models(GMM)-Supervector기반의 Support Vector Machine(SVM)커넬 방식에 적용하여 운전자의 음성과 얼굴을 효과적으로 검증하는 방식을 제안하였다. 실험결과 제안한 방법은 단순한 GMM 방식이나 SVM 방식보다 운전자 검증성능을 향상시킴을 알 수 있었다.

환경음 인식을 위한 GMM의 혼합모델 개수 추정 (Estimation of Optimal Mixture Number of GMM for Environmental Sounds Recognition)

  • 한다정;박아론;백성준
    • 한국산학기술학회논문지
    • /
    • 제13권2호
    • /
    • pp.817-821
    • /
    • 2012
  • 본 논문에서는 환경음 인식에 GMM(Gaussain mixture model)을 이용할 때 MDL(minimum description length)와 BIC(Bayesian information criterion) 모델선택 기준을 이용하여 최적의 혼합모델 개수를 결정하는 방법에 대해 다루었다. 실험은 모두 9가지 종류의 환경음으로부터 12차 MFCC(mel-frequency cepstral coefficients) 특징 27747개를 추출하고 이를 GMM으로 분류하였다. 각 환경음 클래스의 최적 혼합모델 개수를 추정 하기위해 MDL과 BIC를 적용하고 그 결과를 고정 개수의 혼합모델을 사용한 경우와 비교하였다. 실험 결과에 따르면 혼합모델 선택 방법을 적용한 경우가 그렇지 않은 경우에 비해 거의 유사한 인식성능을 유지하면서 계산복잡도는 BIC와 MDL를 통해 각각 17.8%와 31.7%가 감소하는 것을 확인하였다. 이는 GMM을 이용한 환경음 인식에서 BIC와 MDL 적용을 통해 계산복잡도를 효과적으로 감소시킬 수 있음을 보여준다.