• Title/Summary/Keyword: Hidden markov model

Search Result 639, Processing Time 0.025 seconds

Bayesian Parameter Estimation of 2D infinite Hidden Markov Model for Image Segmentation (영상분할을 위한 2차원 무한 은닉 마코프 모형의 비모수적 베이스 추정)

  • Kim, Sun-Worl;Cho, Wan-Hyun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.477-479
    • /
    • 2011
  • 본 논문에서는 1차원 은닉 마코프 모델을 2차원으로 확장하기 위하여 노드들의 마코프 특성이 인과적인 관계를 갖는 마코프 메쉬 모델을 이용하여 완전한 2차원 HMM의 구조를 갖는 모델을 제안한다. 마코프메쉬 모델은 이웃시스템을 통하여 이전의 시점을 정의하고, 인과적인 관계를 통하여 전이확률의 계산을 가능하게 한다. 또한 영상의 최적의 분할을 위하여 계층적 디리슐레 과정을 사전분포로 두어 고정된 상태의 수가 아닌 무한의 상태 수를 갖는 2차원 HMM을 제안한다. HDP로 정의된 사전분포와 관측된 표본 자료의 정보를 갖는 우도함수를 결합한 사후분포의 베이스 추정은 깁스샘플링 알고리즘을 이용하여 계산된다.

A Study on the Speech Recognition For the Voice Dialing System (Voice Dialing System을 위한 음성인식)

  • 이성권
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.365-368
    • /
    • 1998
  • 본 연구는 음소 단위의 CHMM(Continuous Hidden Markov Model)을 이용한 Voice Dialing System을 위한 연속 음성인식에 관한 내용이다. 연구실 환경에서 음성으로 전화를 걸기 위하여 전국 지역명과 연속 숫자음 인식을 수행하였다. ETRI 445 데이터를 사용하여 초기의 모델은 ML(Maximum Likelihood) 추정법을 이용하여 작성하였고 적응화를 위해 최대 사후 확률 추정법을 사용하였다. 음성으로 다이얼링을 수행하기 위하여 문맥자유문법을 이용하여 제한적이나마 대화체문장으로 수행할 수 있도록 하였다. 그리하여 숫자음에 대하여 5인의 화자에 대하여 4연속 숫자음에 대하여 96%의 인식률을 보이고 있으며 7연속 숫자음에 대하여도 약 91%의 결과를 보여주고 있다. 문장으로도 음성 다이얼링을 수행하였을 경우 문장내에 단어와 숫자음에 대하여 약 80%의 인식률을 보였다.

  • PDF

A Speaker Dependent Speech Recognition Method Using LSP Parameters for Small Training Data (적은 훈련 데이터를 이용한 LSP 파라메터 기반의 화자종속 음성인식에 관한 연구)

  • 곽수주
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.373-376
    • /
    • 1998
  • 통신 수단의 발달로 휴대단말기의 사용이 증가하고 있으며, 이와 함께 휴대단말기에서의 음성인식에 대한 수요도 증가하고 있다. 휴대단말기의 경우 저 전송율을 가지는 음성 부호화기를 사용하게 되며, 이러한 저전송율의 음성 부호화기에서의 음성인식을 수행할 경우 인식 성능이 저하되는 현상을 보이게 된다. 본 논문에서는 이러한 문제를 해결하기 위하여 LSP 파라메터 기반의 거리척도에 관하여 비교 검토하였으며, 적은 훈련 데이터에서 사용 가능한 화자 종속 음성인식 방법으로 Dynamic Time Warping(DTW)과 변형된 Hidden Markov Model(HMM)에 관하여 검토하였다. QCELP 음성 부호화기에서 인식 어휘 당 2번의 훈련 데이터만을 이용한 화자종속 인식방법을 사용한 결과 95% 이상의 인식 성능을 얻을 수 있었다.

  • PDF

A Study on the Variable Vocabulary Speech Recognition in the Vocabulary-Independent Environments (어휘독립 환경에서의 가변어휘 음성인식에 관한 연구)

  • 황병한
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.369-372
    • /
    • 1998
  • 본 논문은 어휘독립(Vocabulary-Independent) 환경에서 별도의 훈련과정 없이 인식대상 어휘를 추가 및 변경할 수 있는 가변어휘(Variable Vocabulary) 음성인식에 관한 연구를 다룬다. 가변어휘 인식은 처음에 대용량 음성 데이터베이스(DB)로 음소모델을 훈련하고 인식대상 어휘가 결정되면 발음사전에 의거하여 음소모델을 연결함으로써 별도의 훈련과정 없이 인식대상 어휘를 변경 및 추가할 수 있다. 문맥 종속형(Context-Dependent) 음소 모델인 triphone을 사용하여 인식실험을 하였고, 인식성능의 비교를 위해 어휘종속 모델을 별도로 구성하여 인식실험을 하였다. Unseen triphone 문제와 훈련 DB의 부족으로 인한 모델 파라메터의 신뢰성 저하를 방지하기 위해 state-tying 방법 중 음성학적 지식에 기반을 둔 tree-based clustering(TBC) 기법[1]을 도입하였다. Mel Frequency Cepstrum Coefficient(MFCC)와 대수에너지에 기반을 둔 3 가지 음성특징 벡터를 사용하여 인식 실험을 병행하였고, 연속 확률분포를 가지는 Hidden Markov Model(HMM) 기반의 고립단어 인식시스템을 구현하였다. 인식 실험에는 22 개 부서명 DB[3]를 사용하였다. 실험결과 어휘독립 환경에서 최고 98.4%의 인식률이 얻어졌으며, 어휘종속 환경에서의 인식률 99.7%에 근접한 성능을 보였다.

  • PDF

A Study on Single Vowels Recognition using VQ and Multi-layer Perceptron (VQ와 Multi-layer perceptron을 이용한 단모음 인식에 관한 연구)

  • 안태옥;이상훈;김순협
    • The Journal of the Acoustical Society of Korea
    • /
    • v.12 no.1
    • /
    • pp.55-60
    • /
    • 1993
  • 본 논문은 불특정 화자의 단모음 인식에 관한 연구로써, VQ(Vectro Quantization)와 MLP(multi-layer perceptron)에 의한 음성 인식 방법을 제안한다. 이 방법은 VQ codebook을 구하고 이를 이용해서 관측열(observation sequence)을 구해각 codeword가 데이터로부터 가질 수 있는 확률값을 계산하여 이 값을 신경 회로망의 입력으로 사용하는 방법이다. 인식 대상으로는 한국어 단모음을 선정하였으며 10명의 남성 화자가 8개의 단모음을 10번씩 발음한 것으로 시스템의 효율성을 알아보기 위해 VQ/HMM(hidden markov model)에 의한 인식과 비교 실험한다. 실험 결과에 의하면, 시스템의 단순성에도 불구하고 학습능력애 뛰어난 관계로 VQ/HMM보다 VQ와 MLP에 의한 음성 인식률이 향상됨을 보여준다.

  • PDF

Discrimination of Emotional States In Voice and Facial Expression

  • Kim, Sung-Ill;Yasunari Yoshitomi;Chung, Hyun-Yeol
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.2E
    • /
    • pp.98-104
    • /
    • 2002
  • The present study describes a combination method to recognize the human affective states such as anger, happiness, sadness, or surprise. For this, we extracted emotional features from voice signals and facial expressions, and then trained them to recognize emotional states using hidden Markov model (HMM) and neural network (NN). For voices, we used prosodic parameters such as pitch signals, energy, and their derivatives, which were then trained by HMM for recognition. For facial expressions, on the other hands, we used feature parameters extracted from thermal and visible images, and these feature parameters were then trained by NN for recognition. The recognition rates for the combined parameters obtained from voice and facial expressions showed better performance than any of two isolated sets of parameters. The simulation results were also compared with human questionnaire results.

Reduction of Number of Free Parameters in Segmental-feature HMM (분절 특징 HMM의 매개 변수 수의 감소에 관한 연구)

  • 윤영선;오영환
    • The Journal of the Acoustical Society of Korea
    • /
    • v.19 no.7
    • /
    • pp.48-52
    • /
    • 2000
  • 음성 인식에 많이 사용되는 HMM (hidden Markov model)을 개선하기 위하여 분절 특징을 사용한 분절 특징 HMM은 성능이 우수하다고 발표되었다. 그러나, 분절 길이가 증가하고 회귀 차수가 놓아질수록 분절 특징 HMM을 표현하는 매개 변수의 수도 같이 증가된다. 따라서, 본 연구에서는 상태에서 관측 가능한 분절의 분산을 분절 내의 모든 프레임에 대하여 공통적으로 표현하는 고정 분산 방법을 통하여 성능의 저하 없이 매개 변수의 수를 줄이도록 시도하였다. 실험 결과, 두 혼합 밀도인 경우 고정 분산을 이용한 분절 특징 HMM의 성능과 시변 분산을 이용한 성능의 차이가 거의 없어, 제안된 방법의 유효성을 입증하였다.

  • PDF

Development of an Analysis Program of Type I Polyketide Synthase Gene Clusters Using Homology Search and Profile Hidden Markov Model

  • Tae, Hong-Seok;Sohng, Jae-Kyung;Park, Kie-Jung
    • Journal of Microbiology and Biotechnology
    • /
    • v.19 no.2
    • /
    • pp.140-146
    • /
    • 2009
  • MAPSI(Management and Analysis for Polyketide Synthase Type I) has been developed to offer computational analysis methods to detect type I PKS(polyketide synthase) gene clusters in genome sequences. MAPSI provides a genome analysis component, which detects PKS gene clusters by identifying domains in proteins of a genome. MAPSI also contains databases on polyketides and genome annotation data, as well as analytic components such as new PKS assembly and domain analysis. The polyketide data and analysis component are accessible through Web interfaces and are displayed with diverse information. MAPSI, which was developed to aid researchers studying type I polyketides, provides diverse components to access and analyze polyketide information and should become a very powerful computational tool for polyketide research. The system can be extended through further studies of factors related to the biological activities of polyketides.

A Study on Speech Recognition System Using Continuous HMM (연속분포 HMM을 이용한 음성인식 시스템에 관한 연구)

  • Kim, Sang-Duck;Lee, Geuk
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 1998.10a
    • /
    • pp.221-225
    • /
    • 1998
  • 본 논문에서는 연속분포(Continuous) HMM(hidden Markov model)을 기반으로 하여 한국어 고립단어인식 시스템을 설계, 구현하였다. 시스템의 학습과 평가를 위해 자동차 항법용 음성 명령어 도메인에서 추출한 10개의 고립단어를 대상으로 음성 데이터 베이스를 구축하였다. 음성 특징 파라미터로는 MFCCs(Mel Frequency Cepstral Coefficients)와 차분(delta) MFCC 그리고 에너지(energy)를 사용하였다. 학습 데이터로부터 추출한 18개의 유사 음소(phoneme-like unit : PLU)를 인식단위로 HMM 모델을 만들었고 조음 결합 현상(채-articulation)을 모델링 하기 위해 트라이폰(triphone) 모델로 확장하였다. 인식기 평가는 학습에 참여한 음성 데이터와 학습에 참여하지 않은 화자가 발성한 음성 데이터를 이용해 수행하였으며 평균적으로 97.5%의 인식성능을 얻었다.

  • PDF

A Study on Taekwondo Training System using Hybrid Sensing Technique

  • Kwon, Doo Young
    • Journal of Korea Multimedia Society
    • /
    • v.16 no.12
    • /
    • pp.1439-1445
    • /
    • 2013
  • We present a Taekwondo training system using a hybrid sensing technique of a body sensor and a visual sensor. Using a body sensor (accelerometer), rotational and inertial motion data are captured which are important for Taekwondo motion detection and evaluation. A visual sensor (camera) captures and records the sequential images of the performance. Motion chunk is proposed to structuralize Taekwondo motions and design HMM (Hidden Markov Model) for motion recognition. Trainees can evaluates their trial motions numerically by computing the distance to the standard motion performed by a trainer. For motion training video, the real-time video images captured by a camera is overlayed with a visualized body sensor data so that users can see how the rotational and inertial motion data flow.