DOI QR코드

DOI QR Code

The Study on the Verification of Speaker Change using GMM-UBM based KL distance

GMM-UBM 기반 KL 거리를 활용한 화자변화 검증에 대한 연구

  • Cho, Joon-Beom (Dept. of Nursing, Nambu University) ;
  • Lee, Ji-eun (Dept. of Living physical Training Special Study, Chunnam Techno University) ;
  • Lee, Kyong-Rok (Dept. of IT & Design, Nambu University)
  • 조준범 (남부대학교 간호학과) ;
  • 이지은 (전남과학대학교 생활체육과) ;
  • 이경록 (남부대학교 IT.디자인학과)
  • Received : 2016.09.26
  • Accepted : 2016.12.02
  • Published : 2016.12.31

Abstract

In this paper, we proposed a verification of speaker change utilizing the KL distance based on GMM-UBM to improve the performance of conventional BIC based Speaker Change Detection(SCD). We have verified Conventional BIC-based SCD using KL-distance based SCD which is robust against difference of information volume than BIC-based SCD. And we have applied GMM-UBM to compensate asymmetric information volume. Conventional BIC-based SCD was composed of two steps. Step 1, to detect the Speaker Change Candidate Point(SCCP). SCCP is positive local maximum point of dissimilarity d. Step 2, to determine the Speaker Change Point(SCP). If ${\Delta}BIC$ of SCCP is positive, it decides to SCP. We examined verification of SCP using GMM-UBM based KL distance D. If the value of D on each SCP is higher than threshold, we accepted that point to the final SCP. In the experimental condition MDR(Missed Detection Rate) is 0, FAR(False Alarm Rate) when the threshold value of 0.028 has been improved to 60.7%.

본 논문에서는 기존의 BIC(Bayesian Information Criterion) 기반 화자변화의 성능 향상을 위하여 GMM-UBM(Gaussian Mixture Model-Universal Background Model) 기반 KL(Kullback Leibler) 거리를 활용한 화자변화 검증을 제안하였다. 정보량의 차이에 민감한 기존의 BIC 기반 화자변화검출 알고리즘을 상대적으로 정보량 차이에 견인한 KL 거리 알고리즘으로 검증하였고, 정보량의 비대칭을 보상하기 위해서 GMM-UBM을 활용하였다. 기존의 BIC 기반 화자변화 검출은 1단계로 비유사도 d가 양수인 구간의 국소 최댓값인 지점을 화자변화 후보지점으로 검출하였고, 2단계로 검출된 화자변화 후보지점 중 ${\Delta}BIC$가 양수인 지점을 화자변화지점으로 결정하였다. 본 논문에서는 BIC 기반 화자변화 검출에 의해 결정된 화자변화지점에 대하여 GMM-UBM 기반 KL 거리 D가 문턱치(threshold)보다 높은 지점을 최종 화자변화 지점으로 검증하였다. 실험결과, MDR(Missed Detection Rate)이 0인 조건에서 문턱치 0.028일 때 FAR(False Alarm Rate) 60.4%로 성능이 향상되었다.

Keywords