• 제목/요약/키워드: GMM모델

검색결과 131건 처리시간 0.021초

미전사 음성 데이터베이스를 이용한 가우시안 혼합 모델 적응 기반의 음성 인식용 음향 모델 변환 기법 (Acoustic Model Transformation Method for Speech Recognition Employing Gaussian Mixture Model Adaptation Using Untranscribed Speech Database)

  • 김우일
    • 한국정보통신학회논문지
    • /
    • 제19권5호
    • /
    • pp.1047-1054
    • /
    • 2015
  • 본 논문에서는 음성 인식 성능 향상을 위해 미전사된 음성 데이터베이스를 이용한 효과적인 음향 모델 변환 기법을 기술한다. 본 논문에서 기술하는 모델 변환 기법에서는 기존의 적응 기법을 이용하여 환경에 적응된 GMM을 얻는다. HMM의 가우시안 요소와 유사한 요소를 선택하여 선택된 가우시안 요소의 변환 벡터를 구하고 이를 평균 파라미터 변환에 이용한다. GMM 적응 기반의 모델 변환 기법을 기존의 MAP, MLLR 적응 기법과 결합하여 적용한 결과, 자동차 잡음과 음성 Babble 잡음 환경에서 기존의 MAP, MLLR을 단독으로 사용할 경우보다 높은 음성 인식성능을 나타낸다. 온라인 음향 모델 적응 실험에서도 MLLR과 결합할 경우 기존의 MLLR을 단독으로 사용할 때보다 효과적인 모델 적응 성능을 나타낸다. 이와 같은 결과는 본 논문에서 소개한 GMM 적응 기반의 모델 변환 기법을 채용함으로써 미전사된 음성 데이터베이스를 음향 모델 적응 기법에 효과적으로 활용할 수 있음을 입증한다.

다양한 소리 환경에서 UBM 기반의 비명 소리 검출 (Scream Sound Detection Based on Universal Background Model Under Various Sound Environments)

  • 정용주
    • 한국전자통신학회논문지
    • /
    • 제12권3호
    • /
    • pp.485-492
    • /
    • 2017
  • GMM(: Gaussian Mixture Model)은 비명 소리를 검출하기 위해서 가장 많이 사용되는 기법의 하나이다. 기존의 GMM 방식에서는 전체 훈련데이터를 비명소리와 비-비명 소리로 나누고, 훈련과정을 통하여 각각의 GMM 모델을 생성하게 된다. 그러나 본 연구에서는 비명 소리 검출 과정이 화자인식과 매우 유사하다는 점에 착안하여 화자인식에서 매우 효과적으로 사용된 UBM(: Universal Background Model) 방식을 비명소리 검출에 적용할 것을 제안하였다. 제안된 UBM 방식을 통한 검출 실험 결과 기존의 GMM 방식에 비하여 더 나은 검출 성능을 보임을 인식 실험을 통하여 확인 할 수 있었다.

환경음 인식을 위한 GMM의 혼합모델 개수 추정 (Estimation of Optimal Mixture Number of GMM for Environmental Sounds Recognition)

  • 한다정;박아론;백성준
    • 한국산학기술학회논문지
    • /
    • 제13권2호
    • /
    • pp.817-821
    • /
    • 2012
  • 본 논문에서는 환경음 인식에 GMM(Gaussain mixture model)을 이용할 때 MDL(minimum description length)와 BIC(Bayesian information criterion) 모델선택 기준을 이용하여 최적의 혼합모델 개수를 결정하는 방법에 대해 다루었다. 실험은 모두 9가지 종류의 환경음으로부터 12차 MFCC(mel-frequency cepstral coefficients) 특징 27747개를 추출하고 이를 GMM으로 분류하였다. 각 환경음 클래스의 최적 혼합모델 개수를 추정 하기위해 MDL과 BIC를 적용하고 그 결과를 고정 개수의 혼합모델을 사용한 경우와 비교하였다. 실험 결과에 따르면 혼합모델 선택 방법을 적용한 경우가 그렇지 않은 경우에 비해 거의 유사한 인식성능을 유지하면서 계산복잡도는 BIC와 MDL를 통해 각각 17.8%와 31.7%가 감소하는 것을 확인하였다. 이는 GMM을 이용한 환경음 인식에서 BIC와 MDL 적용을 통해 계산복잡도를 효과적으로 감소시킬 수 있음을 보여준다.

GMM을 이용한 응급 단어와 비응급 단어의 검출 및 인식 기법 (Detection and Recognition Method for Emergency and Non-emergency Speech by Gaussian Mixture Model)

  • 조영임;이대종
    • 한국지능시스템학회논문지
    • /
    • 제21권2호
    • /
    • pp.254-259
    • /
    • 2011
  • 일반적으로 어떤 순간에 발생할지 모르는 응급 상황을 CCTV의 영상 정보만으로 상황을 항상 모니터링하기에는 인력과 비용의문제점이 발생되고 있다. 본 논문에서는 응급상황을 동적으로 보여주는 CCTV환경에서 감지하기 위해 GMM을 이용한 응급단어와 비응급단어의 검출 및 인식기법을제안하고자 한다. 제안된 방법은 Global GMM 모델에 의해 응급단어와 일반단어를 검출하고 이 모델에 의해 응급단어라 판정된 경우에는 Local GMM 모델에 응급단어 인식을 수행하게 된다. 제안된 방법은 다양한 환경하에서 취득한 응급단어와 일반단어에 대해 적용하여 타당성을 검증하였다.

음성신호의 대역폭 확장을 위한 GMM 방법 및 HMM 방법의 성능평가 (Performance Comparison of GMM and HMM Approaches for Bandwidth Extension of Speech Signals)

  • 송근배;김석호
    • 한국음향학회지
    • /
    • 제27권3호
    • /
    • pp.119-128
    • /
    • 2008
  • 본 논문에서는 대역폭 확장 (Bandwidth Extension, BWE)을 위한 대표적인 통계적 방법인 가우스 혼합 모델 (Gaussian Mixture Model, GMM) 방법과 은닉마코프 모델 (Hidden Markov Model, HMM) 방법의 관계를 분석하고 성능을 비교한다. HMM 방법은 GMM 방법과 달리 기억능력을 가진 시스템으로서 인접한 음성 프레임간의 상관성을 모델링하고 이를 BWE 시스템에 활용한다는 장점을 가진다. 따라서 원래 신호의 프레임간 스펙트럼 변화특성을 보다 잘 추정할 수 있으리라 예상할 수 있다. 이 점을 확인하기 위해 정적 측도 외에 음성 스펙트럼의 일차 도 함수와 관련된 동적 측도를 적용하였다. 성능평가 결과, 정적 측도 관점에서는 두 방법은 대등한 성능을 보였지만 동적 측도 관점에서는 HMM 방법이 우수한 성능을 보였다. 또한 이러한 차이는 HMM 모델의 상태 수에 비례하여 증가함을 확인할 수 있었다. 이와 같은 실험결과는 HMM 방법이 적어도 'blind BWE' 문제에 있어서 적절한 해법임을 시사한다. 한편, 동적 측도의 관점에서는 비록 열세로 나타났지만 GMM 방법은 상대적으로 단순하다는 장점을 가지고 있으며 특히, 정적 측도에 있어서 HMM 방법과 대등하다는 사실은 응용분야에 따라서는 HMM 방법의 효과적인 대안이 될 수 있음을 시사한다.

DNN-HMM 기반 시스템을 이용한 효과적인 구개인두부전증 환자 음성 인식 (Effective Recognition of Velopharyngeal Insufficiency (VPI) Patient's Speech Using DNN-HMM-based System)

  • 윤기무;김우일
    • 한국정보통신학회논문지
    • /
    • 제23권1호
    • /
    • pp.33-38
    • /
    • 2019
  • 본 논문에서는 효과적으로 VPI 환자 음성을 인식하기 위해 DNN-HMM 하이브리드 구조의 음성 인식 시스템을 구축하고 기존의 GMM-HMM 기반의 음성 인식 시스템과의 성능을 비교한다. 정상인의 깨끗한 음성 데이터베이스를 이용하여 초기 모델을 학습하고 정상인의 VPI 모의 음성을 이용하여 VPI 환자 음성에 대한 화자 인식을 위한 기본 모델을 생성한다. VPI 환자의 화자 적응 시에는 DNN의 각 층 별 가중치 행렬을 부분적으로 학습하여 성능을 관찰한 결과 GMM-HMM 인식기보다 높은 성능을 나타냈다. 성능 향상을 위해 DNN 모델 적응을 적용하고 LIN 기반의 DNN 모델 적용 결과 평균 2.35%의 인식률 향상을 나타냈다. 또한 소량의 데이터를 사용했을 때 GMM-HMM 기반 음성인식 기법에 비해 DNN-HMM 기반 음성 인식 기법이 향상된 VPI 음성 인식 성능을 보인다.

가우시안 혼합 모델을 이용한 하드 디스크 결함 분포의 패턴 분류 (Pattern Classification of Hard Disk Defect Distribution Using Gaussian Mixture Model)

  • 전재영;김정헌;문운철;최광남
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.482-486
    • /
    • 2008
  • 본 논문에서는 하드 디스크 드라이브(Hard Disk Drive, HDD) 생산 공정 과정에서 발생할 수 있는 불량 HDD의 결함 분포에 대해서 패턴을 자동으로 분류해주는 기법을 제시한다. 이를 위해서 표준 패턴 클래스로 분류되어 있는 불량 HDD의 각 클래스의 확률 모델을 GMM(Gaussian Mixture Model)로 가정한다. 실험은 전문가에 의해 분류된 실제 HDD 결함 분포로부터 5가지의 특징 값들을 추출한 후, 결함 분포의 클래스를 표현할 수 있는 GMM의 파라미터(Parameter)를 학습한다. 각 모델의 파라미터를 추정하기 위해 EM(Expectation Maximization) 알고리즘을 사용한다. 학습된 GMM의 분류 테스트는 학습에 사용되지 않은 HDD 결함 분포에서 5가지의 특징 값을 입력 값으로 추정된 모델들의 파라미터 값에 의해 사후 확률을 구한다. 계산된 확률 값 중 가장 큰 값을 갖는 모델의 클래스를 표준 패턴 클래스로 분류한다. 그 결과 제시된 GMM을 이용한 HDD의 패턴 분류의 결과 96.1%의 정답률을 보여준다.

  • PDF

화자식별을 위한 강인한 주성분 분석 가우시안 혼합 모델 (RPCA-GMM for Speaker Identification)

  • 이윤정;서창우;강상기;이기용
    • 한국음향학회지
    • /
    • 제22권7호
    • /
    • pp.519-527
    • /
    • 2003
  • 음성신호는 주변 잡음과 화자의 발성 패턴 변화, 음성 검출 오류에서 생기는 이상치(outlier)에 많은 영향을 받고 있다. 이러한 음성 신호를 이용하여 화자인식에 이용할 경우 인식률이 저하된다. 본 논문에서는 화자식별 (speaker identification)에서 학습 특징 벡터의 이상치와 고차원 문제를 해결하기 위하여 M-추정을 이용한 강인한 주성분 분석 가우시안 혼합모델 (Robust Principal Component Analysis-Gaussian Mixture Model)방법을 제안하였다. 제안된 방법은 먼저, 특징 벡터에 이상치가 존재할 경우 M-추정에 의하여 강인한 공분산 행렬을 재추정하여 얻어진 고유벡터로부터 변환 행렬을 구하여 감소된 차원을 갖는 새로운 특징벡터를 구한다. 여기에서 얻은 선형변환된 특징벡터로부터 화자의 가우시안 혼합 모델을 구한다. 제안된 방법의 성능을 검증하기 위하여 화자식별 실험을 하였다. 실험은 전형적인 가우시안 혼합 모델 방법과 주성분 분석법, 제안된 방법을 비교 분석하였다. 이상치가 2%씩 증가할 때마다 가우시안 혼합모델 방법과 주성분 분석법은 각각 0.65%, 0.55%씩 화자식별 성능이 저하되었지만, 제안된 방법은 0.03%정도 감소하였으므로 이상치에 더욱 강인함을 알 수 있다.

피보호자 모니터링 시스템을 위한 환경음 기반 상황 인식 (Context Recognition Using Environmental Sound for Client Monitoring System)

  • 지승은;조준영;이충근;오시원;김우일
    • 한국정보통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.343-350
    • /
    • 2015
  • 본 논문에서는 모바일 기반의 피보호자 모니터링 시스템 적용을 위한 환경음 기반의 상황 인식 기술을 소개한다. 상황 인식 실험을 위해 총 7가지의 음향 환경으로 나누어 환경음을 취득한다. 환경음 인식 성능 비교를 위해 MFCC와 LPCC 특징 추출 기법을 이용한다. 통계적 기반의 패턴인식 기법을 적용하기 위해 GMM 및 HMM 음향 모델을 기반으로 인식기를 설계한다. 인식 실험 결과에서는 LPCC 특징 추출 기법이 MFCC 기법 보다 우수하고, 음향 모델은 HMM이 GMM에 비해 높은 인식 성능을 나타낸다. LPCC 특징을 사용하고 HMM 모델을 채용함으로써 최고 96.03%의 인식률을 나타낸다. 이와 같은 결과는 음성에 비하여 다양한 주파수 성분이 존재하는 환경음을 표현하는데 MFCC 보다는 LPCC가 효과적임을 나타내며, 시간에 따라 변하는 특성을 갖는 환경음은 GMM 보다 HMM이 효과적임을 입증한다.

차량검출 GMM 2.0을 적용한 도로 위의 차량 검출 시스템 구축 (On-Road Car Detection System Using VD-GMM 2.0)

  • 이옥민;원인수;이상민;권장우
    • 한국통신학회논문지
    • /
    • 제40권11호
    • /
    • pp.2291-2297
    • /
    • 2015
  • 본 연구에서는 레이더 검지 시스템과 통합하여 적용하기 위해 도로 위를 이동하는 자동차의 영상을 입력 받아 자동차를 검출하는 방법을 제안한다. 입력 영상의 제약조건이 있다. 도로 위에서 아래 방향을 비스듬히 내려 보는 고정된 시야를 가져야한다는 점이다. 주어진 영상 중 도로 영역만을 이용하기 위해 도로 영역을 관심영역으로 검출해 적용한다. 서론에서는 도로 영역 내에서 차량 검출을 위해 사용한 모션 히스토리 이미지 추출 방법, SIFT(Scale-Invariant Feature Transform) 알고리즘, 히스토그램 분석 등을 적용한 실험결과와 이에 대한 한계점을 제시했다. 이를 해결하기 위해서 가우시안 혼합 모델(GMM, Gaussian Mixture Model)의 응용을 제안한다. 가우시안 혼합 모델 알고리즘을 응용한 차량 검출 GMM(VDGMM, Vehicle Detection GMM)과 이를 차량 검출에 더 최적화한 차량 검출 GMM 2.0을 설명하고, 차량 검출 GMM 2.0을 적용한 실험결과 및 결론을 제시한다. 도로 영역 검출 없이 GMM을 적용한 결과는 정확율, 재현율, F1이 각각 9%, 53%, 15%이었고, 도로 영역 검출 후 차량 검출 GMM 2.0을 적용한 결과는 각각 85%, 77%, 80%로 많은 차이를 보였다.