• 제목/요약/키워드: Kullback Leibler distance

검색결과 23건 처리시간 0.025초

SNR 기반 가중 KL 거리를 활용한 화자 변화 검증에 관한 연구 (The Study on Speaker Change Verification Using SNR based weighted KL distance)

  • 조준범;이지은;이경록
    • 융합정보논문지
    • /
    • 제7권6호
    • /
    • pp.159-166
    • /
    • 2017
  • 본 논문에서는 방송 뉴스에서 화자 변화 검증 성능 향상을 위해서 입력소음음성 향상과 SNR(Signal to Noise Ratio)기반 가중 함수 $w_m$를 적용한 KL 거리 $D_s$를 실험하였다. GMM-UBM(Gaussian Mixture Model-Universal Background Model) 기반 KL(Kullback Leibler) 거리 D를 이용한 화자 변화 검증 시스템(실험 0)을 기본 시스템으로 한다. 실험 1은 실험 0의 입력소음음성 향상을 위해 MMSE Log-STSA(Minimum Mean Square Error Log-Spectral Amplitude Estimator)를 적용하였다. 실험 2는 실험 1의 기존 KL거리 D 대신에 $D_s$를 적용하였다. 실험 데이터베이스는 다양한 소음을 반영하기 위해 스포츠 뉴스와 실외 인터뷰를 중심으로 구축하였다. 실험은 화자 변화 정보의 누락을 막기 위해 MDR(Missed Detection Rate) 0%를 기준으로 하였다. 실험 0은 FAR(False Alarm Rate) 71.5%의 성능을 보였다. 실험 1은 FAR 67.3%로 실험0에 비해 4.2% 향상되었고, 실험 2는 FAR 60.7%로 10.8% 향상되었다.

알파 다이버전스를 이용한 무게중심 모델 기반 음악 유사도 (Centroid-model based music similarity with alpha divergence)

  • 서진수;김정현;박지현
    • 한국음향학회지
    • /
    • 제35권2호
    • /
    • pp.83-91
    • /
    • 2016
  • 음악 유사도 계산은 음악 검색 및 분류 등의 정보 처리 시스템 구현에 있어서 가장 중요한 부분이다. 본 논문은 최근 제안된 무게중심 모델을 이용한 음악 검색 방법에 대해서 살펴보고, 무게중심 모델의 확률 분포 유사도를 이용하여 음악 검색을 수행하고 성능을 평가하였다. 확률 분포간의 거리는 주어진 두 개의 확률 분포가 특정 기준에서 얼마나 가까운 지를 계산하는 것으로 다이버전스라고 불리기도 한다. 본 논문에서는 무게중심 모델에서 확률 분포 간의 거리 비교 시에 알파 다이버전스를 활용하였다. 알파 다이버전스는 알파 값에 따라 다양한 형태를 가지며, 널리 사용되고 있는 KLD(Kullback-Leibler)와 BD(Bhattacharyya Distance)를 포함한다. 음악 장르와 가수 데이터셋에서 검색 실험을 수행했고, 확률 분포 거리 기반 유사도와 벡터 거리 기반 유사도의 음악 검색 성능을 비교하였다. 알파 다이버전스를 통해서 무게중심 모델 기반 음악 검색 성능을 개선시킬 수 있음을 보였다.

코퍼스 기반 음성합성기를 위한 합성단위 경계 스펙트럼 평탄화 알고리즘 (A Spectral Smoothing Algorithm for Unit Concatenating Speech Synthesis)

  • 김상진;장경애;한민수
    • 대한음성학회지:말소리
    • /
    • 제56호
    • /
    • pp.225-235
    • /
    • 2005
  • Speech unit concatenation with a large database is presently the most popular method for speech synthesis. In this approach, the mismatches at the unit boundaries are unavoidable and become one of the reasons for quality degradation. This paper proposes an algorithm to reduce undesired discontinuities between the subsequent units. Optimal matching points are calculated in two steps. Firstly, the fullback-Leibler distance measurement is utilized for the spectral matching, then the unit sliding and the overlap windowing are used for the waveform matching. The proposed algorithm is implemented for the corpus-based unit concatenating Korean text-to-speech system that has an automatically labeled database. Experimental results show that our algorithm is fairly better than the raw concatenation or the overlap smoothing method.

  • PDF

Direct Divergence Approximation between Probability Distributions and Its Applications in Machine Learning

  • Sugiyama, Masashi;Liu, Song;du Plessis, Marthinus Christoffel;Yamanaka, Masao;Yamada, Makoto;Suzuki, Taiji;Kanamori, Takafumi
    • Journal of Computing Science and Engineering
    • /
    • 제7권2호
    • /
    • pp.99-111
    • /
    • 2013
  • Approximating a divergence between two probability distributions from their samples is a fundamental challenge in statistics, information theory, and machine learning. A divergence approximator can be used for various purposes, such as two-sample homogeneity testing, change-point detection, and class-balance estimation. Furthermore, an approximator of a divergence between the joint distribution and the product of marginals can be used for independence testing, which has a wide range of applications, including feature selection and extraction, clustering, object matching, independent component analysis, and causal direction estimation. In this paper, we review recent advances in divergence approximation. Our emphasis is that directly approximating the divergence without estimating probability distributions is more sensible than a naive two-step approach of first estimating probability distributions and then approximating the divergence. Furthermore, despite the overwhelming popularity of the Kullback-Leibler divergence as a divergence measure, we argue that alternatives such as the Pearson divergence, the relative Pearson divergence, and the $L^2$-distance are more useful in practice because of their computationally efficient approximability, high numerical stability, and superior robustness against outliers.

A New Distance Measure for a Variable-Sized Acoustic Model Based on MDL Technique

  • Cho, Hoon-Young;Kim, Sang-Hun
    • ETRI Journal
    • /
    • 제32권5호
    • /
    • pp.795-800
    • /
    • 2010
  • Embedding a large vocabulary speech recognition system in mobile devices requires a reduced acoustic model obtained by eliminating redundant model parameters. In conventional optimization methods based on the minimum description length (MDL) criterion, a binary Gaussian tree is built at each state of a hidden Markov model by iteratively finding and merging similar mixture components. An optimal subset of the tree nodes is then selected to generate a downsized acoustic model. To obtain a better binary Gaussian tree by improving the process of finding the most similar Gaussian components, this paper proposes a new distance measure that exploits the difference in likelihood values for cases before and after two components are combined. The mixture weight of Gaussian components is also introduced in the component merging step. Experimental results show that the proposed method outperforms MDL-based optimization using either a Kullback-Leibler (KL) divergence or weighted KL divergence measure. The proposed method could also reduce the acoustic model size by 50% with less than a 1.5% increase in error rate compared to a baseline system.

On the comparison of cumulative hazard functions

  • Park, Sangun;Ha, Seung Ah
    • Communications for Statistical Applications and Methods
    • /
    • 제26권6호
    • /
    • pp.623-633
    • /
    • 2019
  • This paper proposes two distance measures between two cumulative hazard functions that can be obtained by comparing their difference and ratio, respectively. Then we estimate the measures and present goodness of t test statistics. Since the proposed test statistics are expressed in terms of the cumulative hazard functions, we can easily give more weights on earlier (or later) departures in cumulative hazards if we like to place an emphasis on earlier (or later) departures. We also show that these test statistics present comparable performances with other well-known test statistics based on the empirical distribution function for an exponential null distribution. The proposed test statistic is an omnibus test which is applicable to other lots of distributions than an exponential distribution.

The Bandwidth from the Density Power Divergence

  • Pak, Ro Jin
    • Communications for Statistical Applications and Methods
    • /
    • 제21권5호
    • /
    • pp.435-444
    • /
    • 2014
  • The most widely used optimal bandwidth is known to minimize the mean integrated squared error(MISE) of a kernel density estimator from a true density. In this article proposes, we propose a bandwidth which asymptotically minimizes the mean integrated density power divergence(MIDPD) between a true density and a corresponding kernel density estimator. An approximated form of the mean integrated density power divergence is derived and a bandwidth is obtained as a product of minimization based on the approximated form. The resulting bandwidth resembles the optimal bandwidth by Parzen (1962), but it reflects the nature of a model density more than the existing optimal bandwidths. We have one more choice of an optimal bandwidth with a firm theoretical background; in addition, an empirical study we show that the bandwidth from the mean integrated density power divergence can produce a density estimator fitting a sample better than the bandwidth from the mean integrated squared error.

최대 엔트로피 분포를 이용한 퍼지 관측데이터의 분석법에 관한 연구 (An Analysis of Fuzzy Survey Data Based on the Maximum Entropy Principle)

  • 유재휘;유동일
    • 한국컴퓨터정보학회논문지
    • /
    • 제3권2호
    • /
    • pp.131-138
    • /
    • 1998
  • 통상 통계적인 데이터 해석에서 취급되는 데이터는 확정된 값으로서 통계 처리를실시한다. 그러나 복잡˙대규모화하는 현대의 시스템에 있어서는 정확하게 측정된 데이터만을 취급하는 것은 곤란하며 인간의 주관적인 판단에 따른 데이터를 수집하는 경우가 발생하게 된다. 본 연구에서는 이러한 인간의 주관적인 판단에 따른 데이터를 퍼지 관측 데이터로하여(언어 변수에 의해 Membership 함수를 정의한다.) 최대 엔트로피 원리를 이용한 새로운 분석 방법을 제안한다. 또한 보다 현실적인 상황 아래 시뮬레이션을 실시함으로서 제안모델의 유효성을 검증한다.

  • PDF

가변어휘 핵심어 검출을 위한 비핵심어 모델링 및 후처리 성능평가 (Performance Evaluation of Nonkeyword Modeling and Postprocessing for Vocabulary-independent Keyword Spotting)

  • 김형순;김영국;신영욱
    • 음성과학
    • /
    • 제10권3호
    • /
    • pp.225-239
    • /
    • 2003
  • In this paper, we develop a keyword spotting system using vocabulary-independent speech recognition technique, and investigate several non-keyword modeling and post-processing methods to improve its performance. In order to model non-keyword speech segments, monophone clustering and Gaussian Mixture Model (GMM) are considered. We employ likelihood ratio scoring method for the post-processing schemes to verify the recognition results, and filler models, anti-subword models and N-best decoding results are considered as an alternative hypothesis for likelihood ratio scoring. We also examine different methods to construct anti-subword models. We evaluate the performance of our system on the automatic telephone exchange service task. The results show that GMM-based non-keyword modeling yields better performance than that using monophone clustering. According to the post-processing experiment, the method using anti-keyword model based on Kullback-Leibler distance and N-best decoding method show better performance than other methods, and we could reduce more than 50% of keyword recognition errors with keyword rejection rate of 5%.

  • PDF

영역 기반의 Multi-level Thresholding에 의한 컬러 영상 분할 (Region-based Multi-level Thresholding for Color Image Segmentation)

  • 오준택;김욱현
    • 대한전자공학회논문지SP
    • /
    • 제43권6호
    • /
    • pp.20-27
    • /
    • 2006
  • Multi-level thresholding은 영상 분할 방법 중 하나로 널리 이용되고 있지만 대부분의 기존 논문들은 응용 분야에 직접적으로 이용되기에는 적합하지 않거나 영상 분할 단계까지 확장되지 않고 있다. 본 논문에서는 영상 분할을 위한 multi-level thresholding 방안으로써 영역 단위의 multi-level thresholding을 제안한다. 먼저, 영상의 색상별 성분에 대해서 EWFCM(Entropy-based Weighted Fuzzy C-Means) 알고리즘을 적용하여 2개의 군집으로 분류한 후 코드 영상을 생성한다. EWFCM 알고리즘은 화소들에 대한 공간 정보를 추가한 개선된 FCM 알고리즘으로 영상 내 존재하는 잡음을 제거한다. 그리고 코드 영상에 존재하는 군집의 수를 감소함으로써 좀 더 나은 영상 분할 결과를 얻을 수 있으며 군집의 감소는 하나의 군집내에 존재하는 영역들과 나머지 군집들간의 유사도를 기반으로 영역을 재분류함으로써 처리된다. 그러나 영상에는 여전히 많은 영역들이 존재하기 때문에 이를 해결하기 위한 하나의 후처리 방안으로써 영역간의 Kullback-Leibler 거리값을 기반으로 Bayesian 알고리즘에 의한 영역 합병을 수행한다. 실험 결과 제안한 영역 기반의 multi-level thresholding은 기존 방법이나 화소나 군집 기반의 multi-level thresholding보다 좋은 분할 결과를 보였으며 Bayesian 알고리즘을 이용한 후처리 방안에 의해 좀 더 나은 결과를 보였다.