• Title/Summary/Keyword: Hidden markov model

Search Result 641, Processing Time 0.035 seconds

A Study on the HMM Structure for Classifying Dog Breeds (개의 품종 분류를 위한 HMM 구조의 연구)

  • Lim, Seong-Min;Kim, Yoon-Joong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.477-479
    • /
    • 2012
  • 개의 발성은 성도의 물리적인 특징에 따라 고유의 특정 포먼트를 만들어 내며 개의 품종에 따라 다른 물리적 특징을 가지므로 개의 발성을 HMM(Hidden Markov Model)으로 모델링하여 개의 품종을 분류하는 연구를 하였다. 주파수 특징은 MFCC(Mel Frequency Cepstral Coefficients) 12차, 에너지 컴포넌트 1차, 델타 13차, 억셀러레이션(Acceleration) 13차, 총 39차 벡터를 사용하였다. 개의 품종 분류에 적합한 HMM 구조의 설계를 위하여 기본 좌우 모델, 좌우 모델, 좌우 모델2, 전후진 모델, 총 4가지를 제안하고 실험하여 성능을 비교분석하였다. 이 중 전후진 모델이 가장 바람직한 모델로 검증 되었다. 본 모델은 다음과 같은 장점을 갖는다. (1) 기본 좌우 모델과 마찬가지로 1~2회 발성을 갖는 데이터가 입력되어도 처음에서 마지막 상태까지의 이동단계가 최소 3번까지 가능하므로 적은 횟수의 발성 데이터도 처리가 가능하다. (2) 다수 반복된 발성 데이터의 신호도 처리가 가능하다. 즉, 본 모델은 상태의 이동이 후진도 가능하므로 5회이상 반복된 발성 데이터의 신호의 처리도 가능하다.

Training Method and Speaker Verification Measures for Recurrent Neural Network based Speaker Verification System

  • Kim, Tae-Hyung
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.34 no.3C
    • /
    • pp.257-267
    • /
    • 2009
  • This paper presents a training method for neural networks and the employment of MSE (mean scare error) values as the basis of a decision regarding the identity claim of a speaker in a recurrent neural networks based speaker verification system. Recurrent neural networks (RNNs) are employed to capture temporally dynamic characteristics of speech signal. In the process of supervised learning for RNNs, target outputs are automatically generated and the generated target outputs are made to represent the temporal variation of input speech sounds. To increase the capability of discriminating between the true speaker and an impostor, a discriminative training method for RNNs is presented. This paper shows the use and the effectiveness of the MSE value, which is obtained from the Euclidean distance between the target outputs and the outputs of networks for test speech sounds of a speaker, as the basis of speaker verification. In terms of equal error rates, results of experiments, which have been performed using the Korean speech database, show that the proposed speaker verification system exhibits better performance than a conventional hidden Markov model based speaker verification system.

Noisy Speech Recognition Based on Noise-Adapted HMMs Using Speech Feature Compensation

  • Chung, Yong-Joo
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.15 no.2
    • /
    • pp.37-41
    • /
    • 2014
  • The vector Taylor series (VTS) based method usually employs clean speech Hidden Markov Models (HMMs) when compensating speech feature vectors or adapting the parameters of trained HMMs. It is well-known that noisy speech HMMs trained by the Multi-condition TRaining (MTR) and the Multi-Model-based Speech Recognition framework (MMSR) method perform better than the clean speech HMM in noisy speech recognition. In this paper, we propose a method to use the noise-adapted HMMs in the VTS-based speech feature compensation method. We derived a novel mathematical relation between the train and the test noisy speech feature vector in the log-spectrum domain and the VTS is used to estimate the statistics of the test noisy speech. An iterative EM algorithm is used to estimate train noisy speech from the test noisy speech along with noise parameters. The proposed method was applied to the noise-adapted HMMs trained by the MTR and MMSR and could reduce the relative word error rate significantly in the noisy speech recognition experiments on the Aurora 2 database.

Music Recommendation System Based on User Preference Analysis Using Hidden Markov Model (은닉 마코프 모델을 이용한 사용자 선호도 분석 기반의 음악 추천 시스템)

  • Kim, Geon-Su;Lee, Dong-Hun;Yun, Tae-Bok;Lee, Ji-Hyeong
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2008.04a
    • /
    • pp.56-59
    • /
    • 2008
  • 현재의 음악 서비스들의 대부분은 음악을 가수 이름이나 장르와 같은 키워드들로 구분하여 사용자에게 제공한다. 하지만 음악의 장르가 다양해지고, 장르별로 음악의 유형도 다양해짐에 따라 키워드 기반은 음악 제공 방법만으로는 사용자가 원하는 음악을 제공하는데 한계가 있다. 이런 한계점을 극복하기 위하여 음악 자체의 성질을 기반으로 음악을 분석하는 컨텐츠 기반의 음악 분석 방법이 필요하다. 또한 사용자가 원하는 음악을 제공 받을 수 있도록 사용자의 음악 선호도를 분석하여 그에 맞는 음악을 제공하는 방법도 필요하다. 본 논문에서는 음악의 시퀀스 정보와 특징을 추출하여 음악 모델을 구축하고, 이를 사용하여 사용자의 음악 선호도를 분석하는 방법을 제안하고, 사용자의 선호도에 맞는 음악을 제공하기 위하여 선호도 분석 방법을 통해 음악을 추천해주는 시스템을 제안한다.

  • PDF

An Automatic Segmentation System Based on HMM and Correction Algorithm (HMM 및 보정 알고리즘을 이용한 자동 음성 분할 시스템)

  • Kim, Mu-Jung;Kwon, Chul-Hong
    • Speech Sciences
    • /
    • v.9 no.4
    • /
    • pp.265-274
    • /
    • 2002
  • In this paper we propose an automatic segmentation system that outputs the time alignment information of phoneme boundary using Viterbi search with HMM (Hidden Markov Model) and corrects these results by an UVS (unvoiced/voiced/silence) classification algorithm. We selecte a set of 39 monophones and a set of 647 extended phones for HMM models. For the UVS classification we use the feature parameters such as ZCR (Zero Crossing Rate), log energy, spectral distribution. The result of forced alignment using the extended phone set is 11% better than that of the monophone set. The UVS classification algorithm shows high performance to correct the segmentation results.

  • PDF

A Study on the Optimal Mahalanobis Distance for Speech Recognition

  • Lee, Chang-Young
    • Speech Sciences
    • /
    • v.13 no.4
    • /
    • pp.177-186
    • /
    • 2006
  • In an effort to enhance the quality of feature vector classification and thereby reduce the recognition error rate of the speaker-independent speech recognition, we employ the Mahalanobis distance in the calculation of the similarity measure between feature vectors. It is assumed that the metric matrix of the Mahalanobis distance be diagonal for the sake of cost reduction in memory and time of calculation. We propose that the diagonal elements be given in terms of the variations of the feature vector components. Geometrically, this prescription tends to redistribute the set of data in the shape of a hypersphere in the feature vector space. The idea is applied to the speech recognition by hidden Markov model with fuzzy vector quantization. The result shows that the recognition is improved by an appropriate choice of the relevant adjustable parameter. The Viterbi score difference of the two winners in the recognition test shows that the general behavior is in accord with that of the recognition error rate.

  • PDF

Behavior Learning Architecture for Intelligent Software Robot (지능형 소프트웨어 로봇을 위한 행동학습구조)

  • Kwon, Woo-Young;Min, Hyun-Suk;Zhang, Guo-Xuan;Lee, Sang-Hoon;Suh, Il-Hong
    • Proceedings of the KIEE Conference
    • /
    • 2002.07d
    • /
    • pp.2404-2406
    • /
    • 2002
  • 기존의 로봇은 주로 예측 가능한 환경 하에서 동작해왔다. 그러나 로봇의 적용분야가 확대되면서 예측하기 힘든 복잡한 자극에 대해 반응하도록 요구되고 있다. 복잡한 자극은 동일시간에 여러 가지 자극이 존재하는 공간적 복잡성과, 각기 다른 시간에 자극이 연속적으로 배열된 시간적 복잡성을 가진다. 기존의 로봇은 복잡한 자극에 대한 대처능력이 취약하다. 이러한 환경에서 적응할 수 있도록 여러 방면의 연구가 진행되어 왔으며, 그 중에서 동물이 환경의 변화에 대처하는 방법에 관한 많은 연구들이 진행되고 있다. 본 논문에서는 시간적 복잡성을 가진 자극에 반응하고 이를 학습하기 위해 HMM(Hidden Markov Model)을 이용한 시계열 학습구조를 제안한다. 또한 기본적인 행동선택 및 학습을 위해 동물의 행동선택을 모델링한 구조를 구현하였다.

  • PDF

A Comparative Study of Recognition Rate According to the Variance of Speech Bandwidth (대역폭 변화에 따른 음성 인식률 비교연구)

  • Sohn, Il-Hyun;Doh, Sam-Joo;Koo, Myoung-Wan
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.193-199
    • /
    • 1992
  • 이 논문에서는 123개 단어의 한국어 음성에 대하여 음성의 대역폭 변화에 따른 인식률을 비교하였다. 인식률 비교실험을 위해 hidden Markov model과 음소와 유사한 131개의 한국어 subword 유니트를 사용한 화자독립 격리단어 인식 시스팀을 사용하였다. 이 실험은 대역폭이 각각 0 - 4.5kHz 및 0.3 - 3.3kHz인 두가지 종류의 음성 데이타베이스를 사용하였다. 훈련과정에서 corrective training의 반복회수를 2로 하고 state transition duration 정보를 사용하였을 때, 0 - 4.5kHz 와 0.3 - 3.3kHz 대역폭에 대해 각각 98.8 % 및 98.2 % 의 최고 인식률을 얻었다. 이로부터 전화대역폭에서도 음성인식률은 크게 저하되지 않음을 알 수 있다.

  • PDF

Computational Approaches to Gene Prediction

  • Do Jin-Hwan;Choi Dong-Kug
    • Journal of Microbiology
    • /
    • v.44 no.2
    • /
    • pp.137-144
    • /
    • 2006
  • The problems associated with gene identification and the prediction of gene structure in DNA sequences have been the focus of increased attention over the past few years with the recent acquisition by large-scale sequencing projects of an immense amount of genome data. A variety of prediction programs have been developed in order to address these problems. This paper presents a review of the computational approaches and gene-finders used commonly for gene prediction in eukaryotic genomes. Two approaches, in general, have been adopted for this purpose: similarity-based and ab initio techniques. The information gleaned from these methods is then combined via a variety of algorithms, including Dynamic Programming (DP) or the Hidden Markov Model (HMM), and then used for gene prediction from the genomic sequences.

Identification and Recovery of Elided Information for Text Animation (텍스트 애니메이션을 위한 생략 정보 파악 및 복원)

  • Chang, Eun-Young;Park, Jong-C.
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.205-213
    • /
    • 2004
  • 음성인식기술을 실제 생활에 적용할 때 발생하는 대표적인 문제로, 인식기의 낮은 인식률로 인한 오동작을 들 수 있다. 본 연구에서는. 텔레뱅킹 도메인에서의 HTK(Hidden Markov Model Toolkit) 연속 음성 인식 시스템과, 최대 엔트로피 기법에 기반한 사용자 발화에서의 핵심이 되는 단어(주로 고유 명사들)들에 대한 인식 신뢰도의 측정 방법을 제시한다. 음향특징과 언어특징들을 모두 고려하여 인식 신뢰도를 구하였으며 인식된 단어들에 대해 오인식 되었음을 약 86%의 정확도로 판단할 수 있음을 확인하였다. 본 인식신뢰도를 이용하여 차후에 음성인식의 확인대화(Clarification Dialog)모델을 개발하는데 활용하고자 한다.

  • PDF