• Title/Summary/Keyword: 연속 HMM

Search Result 150, Processing Time 0.028 seconds

Recognition of Emotional states in Speech using Hidden Markov Model (HMM을 이용한 음성에서의 감정인식)

  • Kim, Sung-Ill;Lee, Sang-Hoon;Shin, Wee-Jae;Park, Nam-Chun
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2004.10a
    • /
    • pp.560-563
    • /
    • 2004
  • 본 논문은 분노, 행복, 평정, 슬픔, 놀람 둥과 같은 인간의 감정상태를 인식하는 새로운 접근에 대해 설명한다. 이러한 시도는 이산길이를 포함하는 연속 은닉 마르코프 모델(HMM)을 사용함으로써 이루어진다. 이를 위해, 우선 입력음성신호로부터 감정의 특징 파라메타를 정의 한다. 본 연구에서는 피치 신호, 에너지, 그리고 각각의 미분계수 등의 운율 파라메타를 사용하고, HMM으로 훈련과정을 거친다. 또한, 화자적응을 위해서 최대 사후확률(MAP) 추정에 기초한 감정 모델이 이용된다. 실험 결과, 음성에서의 감정 인식률은 적응 샘플수의 증가에 따라 점차적으로 증가함을 보여준다.

  • PDF

Syllable Reconition by HMM Using Segmental Statistics (세그멘트 통계량을 이용한 HMM 의 한국어 음절 인식)

  • 박창호
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.175-178
    • /
    • 1995
  • 기존이 연속 출력 분포형 HMM은 시계열의 과도적 변화에 대하여 표현 능력이 부족하다는 단점이 있다. 이것을 보완하기 위해 본 논문에서는 음성의 동적 변화를 반영하기 위한 특징 파라메타로서 여러 개의 프레임을 결합하여 세그멘트를 구성하여 각각에 대해 한 개의 벡터를 만들었다. 이것을 그대로 이용하면 세그멘트의 프레임수에 대응하는 파라메타의 차원수가 증가하기 때문에 학습 데이터가 불충분한 경우 모델의 파라메타를 잘 추정할 수 없으므로 K-L 전개로서 파라메타의 차원을 압축하여 파라메타수를 감소시켰다. 인식실험은 한국어 단음절에 대하여 멜켑스트럼ㅇ르 K-L 전개로 압축한 벡터를 이용한 결과와 멜켑스트럼, 멜켑스트럼 선형회귀계수를 파라메타로 이용한 경우를 비교하였다. 실험결과 K-L 전개로 압축한 벡터만을 이용한 경우는 멜켑스트럼 + 선형회귀계수를 파라메타로 이용한 경우보다 인식율이 낮앗으나 멜켑스트럼 + K-L 전개로 압축한 경우와 거의 동등한 결과를 얻을 수 있었다.

  • PDF

Design of an Arm Gesture Recognition System using Kinect Sensor (키넥트 센서를 이용한 팔 제스처 인식 시스템의 설계)

  • Heo, Se-Kyeong;Shin, Ye-Seul;Kim, Hye-Suk;Kim, In-Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.250-253
    • /
    • 2013
  • 최근 카메라 영상을 이용한 제스처 인식 관련 연구가 활발히 진행되고 있다. 카메라 영상을 이용한 제스처 인식에서 많이 사용되는 학습 알고리즘에는 확률 그래프 모델인 HMM과 CRF 등이 있다. 이 학습 알고리즘들은 다차원의 연속된 실수 데이터를 가지고 모델을 학습하면 계산량이 많아진다. 본 논문에서는 팔 관절 위치 데이터를 k-평균 군집화 과정을 거쳐 1차원의 시계열 데이터로 변환 후, 제스처별로 HMM 모델을 학습하는 방법을 제안한다. 키넥트 센서를 통해 얻은 팔 관절 위치 데이터에 k-평균 군집화를 적용하여 1차원 시계열 데이터를 생성하고, 이를 HMM의 학습 및 인식에 사용한다. 본 논문에서 제안하는 방법의 성능을 분석하기 위하여, 다른 시계열 학습 알고리즘인 AP+DTW를 이용한 방법과의 비교 실험을 포함해 다양한 실험들을 수행하였다.

Emotion recognition in speech using hidden Markov model (은닉 마르코프 모델을 이용한 음성에서의 감정인식)

  • 김성일;정현열
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.3 no.3
    • /
    • pp.21-26
    • /
    • 2002
  • This paper presents the new approach of identifying human emotional states such as anger, happiness, normal, sadness, or surprise. This is accomplished by using discrete duration continuous hidden Markov models(DDCHMM). For this, the emotional feature parameters are first defined from input speech signals. In this study, we used prosodic parameters such as pitch signals, energy, and their each derivative, which were then trained by HMM for recognition. Speaker adapted emotional models based on maximum a posteriori(MAP) estimation were also considered for speaker adaptation. As results, the simulation performance showed that the recognition rates of vocal emotion gradually increased with an increase of adaptation sample number.

  • PDF

On the Development of a Continuous Speech Recognition System using Continuous Hidden Markov Model for Korean Language (연속분포 HMM을 이용한 한국어 연속 음성 인식 시스템 개발)

  • Kim, Do-Yeong;Park, Yong-Kyu;Kwon, Oh-Wook;Un, Chong-Kwan
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.101-110
    • /
    • 1993
  • 본 논문에서는 연속분포 hidden Markov 모델을 이용한 화자독립 연속 음성 인식 시스템에 관해 기술한다. 연속분포 모델은 평균과 분산 벡터로 구성되며 음성신호를 직접 모델링하여 양자화 왜곡이 없어진다. 특징벡터는 filter bank 계수 및 그 1, 2차 미분계수를 사용하여 음성신호의 동적 특성을 반영하였다. Segmental K-means 알고리즘을 이용하여 학습하였으며, 연속어 인식에서 가장 문제가 되는 조음화 현상으로 인한 인식률 저하를 막기 위해 앞뒤의 음소를 고려해 주는 triphone을 인식단위로 사용하였다. Search 알고리즘으로는 시간 면에서 효율이 좋은 one-pass search 알고리즘을 사용하였다. 성능 평가를 위한 화자 독립 인식 실험에서 문법이 없을 경우 83%, finite state network율 적용한 경우에는 94%의 인식률을 나타내었다.

  • PDF

Gaussian Selection in HMM Speech Recognizer with PTM Model for Efficient Decoding (PTM 모델을 사용한 HMM 음성인식기에서 효율적인 디코딩을 위한 가우시안 선택기법)

  • 손종목;정성윤;배건성
    • The Journal of the Acoustical Society of Korea
    • /
    • v.23 no.1
    • /
    • pp.75-81
    • /
    • 2004
  • Gaussian selection (GS) is a popular approach in the continuous density hidden Markov model for fast decoding. It enables fast likelihood computation by reducing the number of Gaussian components calculated. In this paper, we propose a new GS method for the phonetic tied-mixture (PTM) hidden Markov models. The PTM model can represent each state of the same topological location with a shared set of Gaussian mixture components and contort dependent weights. Thus the proposed method imposes constraint on the weights as well as the number of Gaussian components to reduce the computational load. Experimental results show that the proposed method reduces the percentage of Gaussian computation to 16.41%, compared with 20-30% for the conventional GS methods, with little degradation in recognition.

The Chinese Characters Learning Contents Based on Gesture Recognition Using HMM Algorithm (HMM을 이용한 제스처 인식 기반 한자 학습 콘텐츠)

  • Song, Dae-Hyeon;Kim, Dong-Min;Lee, Chil-Woo
    • Journal of Korea Multimedia Society
    • /
    • v.15 no.8
    • /
    • pp.1067-1074
    • /
    • 2012
  • In this paper, we proposed a contents of Chinese characters learning based on gesture recognition using HMM(hidden markov model) algorithm. Input image of the system is obtained in 3-dimensional information from the TOF camera, and the method of gesture recognition is consisted of part of forecasting user's posture in two infrared images and part of recognizing gestures from continuous poses. In the communication between human and computer, this system provided convenience that user can manipulate it easily by not using any further equipment but action. Because this system raise immersion and interest by using two large display and various multimedia factor, it can maximize information transmission. The edutainment Chinese character contents proposed in this paper provide educational effect that use can master Chinese character naturally with interest, and it can be expected a synergy effect via content experience because it is based on gesture recognition.

Gesture Recognition Using Stereo Tracking Initiator and HMM for Tele-Operation (스테레오 영상 추적 자동초기화와 HMM을 이용한 원격 작업용 제스처 인식)

  • Jeong, Ji-Won;Lee, Yong-Beom;Jin, Seong-Il
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.8
    • /
    • pp.2262-2270
    • /
    • 1999
  • In this paper, we describe gesture recognition algorithm using computer vision sensor and HMM. The automatic hand region extraction has been proposed for initializing the tracking of the tele-operation gestures. For this, distance informations(disparity map) as results of stereo matching of initial left and right images are employed to isolate the hand region from a scene. PDOE(positive difference of edges) feature images adapted here have been found to be robust against noise and background brightness. The KNU/KAERI(K/K) gesture instruction set is defined for tele-operation in atomic electric power stations. The composite recognition model constructed by concatenating three gesture instruction models including pre-orders, basic orders, and post-orders has been proposed and identified by discrete HMM. Our experimental results showed that consecutive orders composed of more than two ones are correctly recognized at the rate of above 97%.

  • PDF

Large Vocabulary Continuous Speech Recognition using Stochastic Pronunciatioin Lexicon Modeling (확률 발음사전을 이용한 대어휘 연속음성인식)

  • 윤성진
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.315-319
    • /
    • 1998
  • 대어휘 연속음성인식을 위한 확률 발음사전 모델에 대해서 제안하였다. 제안된 확률 발음 사전은 연속음성과 같은 자연스런 발성에서 자주 발생되는 단어의 변이를 확률적인 subword-state로 이루어진 HMM으로 모델화 함으로써 단어의 발음 변이를 효과적으로 표현할 수 있으며, 단위 인식 시스템의 성능을 보다 높일 수 있도록 구성되었다. 확률 발음사전의 생성은 음성 자료와 음소 모델을 이용하여 단어 단위의 분할과 학습을 통해서 자동으로 생성되게 됨 음소와 같은 언어학적인 단위뿐만 아니라 PLU 이나 비언어학적인 인식 모델을 이용한 연속음성인식기에도 적용이 가능하다.연속음성인식실험결과 확률 발음사전을 사용함으로써 표준 발음 표기를 사용하는 인식 시스템에 비해 단어 오류율은 39.8%, 문장 오류율은 24.4%의 큰 폭으로 오류율을 감소시킬 수 있었다.

  • PDF

A Study on the Korean Continuous Speech Recognition using Phonetic Decision Tree-based State Splitting (음소결정트리 상태분할을 이용한 한국어 연속음성인식에 관한 연구)

  • 오세진;황철준;김범국;정호열;정현열
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2001.06a
    • /
    • pp.277-280
    • /
    • 2001
  • 본 연구에서는 연속음성인식 시스템의 성능개선을 위한 기초 연구로서 음소결정트리 상태분할과 한국어 음성학적 지식을 이용하여 문맥의존 음향모델의 작성방법을 검토하고. 한국어 연속음성인식에 적용을 소개한다. 음소결정트리 상태분할 알고리즘은 각 노드에서 한국어 음성학적 지식으로 구성된 음소 질의어 집합에 따라 2진 트리로 SSS(Successive State Splitting) 알고리즘에 의해 상태분할 하는 방법으로서 상태분할 후 각 상태를 네트워크로 연결한 구조를 HM-Net(Hidden Markow Network)이라 하며 문맥의존 음향모델로 표현된다. 작성한 문맥의존 음향모델의 유효성을 확인하기 위해 본 연구실의 항공편 예약 문장(YNU200)에 대해 연속음성인식 실험을 수행하였다. 인식실험 결과, 문맥의존 음향모델에 대한 화자독립 연속음성인식률이 기존의 단일 HMM 모델보다 평균적으로 1-pass의 경우 9.9%, 2-pass의 경우 4.1% 향상된 인식률을 보였다. 따라서 문맥의존 음향모델을 작성하는데 음소결정트리 상태분할과 한국어 음성학적 지식이 유효함을 확인하였다.

  • PDF