• 제목/요약/키워드: 연속 HMM

검색결과 150건 처리시간 0.027초

HMM기반 자동음소분할기의 음소분할 오류 유형 분석 (The Error Pattern Analysis of the HMM-Based Automatic Phoneme Segmentation)

  • 김민제;이정철;김종진
    • 한국음향학회지
    • /
    • 제25권5호
    • /
    • pp.213-221
    • /
    • 2006
  • 합성음의 음질을 향상시키기 위하여 분할된 corpora로부터 합성유닛을 선택하여 사용하는 연속음성합성에서 정확한 음소분할은 매우 중요하다. 일반적으로 음소분할은 사람에 의해 수행되지만 많은 작업량으로 인한 시간적 지연, 일관 성 유지 어려움 등 많은 문제가 발생한다. 이에 따라 음성인식에서 도입된 HMM 기반의 자동음소분할이 음성인식, 음성 합성에서 널리 사용되어지고 있지만 음성전문가의 수작업 결과와 비교할 때 HMM 기반 자동음소분할은 오류가 있고, 이는 합성음 품질의 열화의 주요 원인이 되고 있다. 본 논문에서는 HMM 기반의 자동음소분할기를 사용하여 나타난 자동음소분할 결과와 수작업에 의한 음소분할 결과를 비교하고 유형별로 분석함으로써 음성합성의 성능향상을 위해 개선해야 할 문제점들을 제시한다. 실험에서는 ETRI의 표준형 한국어 공통 음성 DB을 사용하였고, 오차의 범위가 20ms를 벗어난 경우를 분절 오류로 간주하였다. 실험 결과 여성화자의 경우 파열음 + 모음, 파찰음 + 모음, 모음 + 유음 음소쌍에서는 각각 약 99%, 99.5%, 99%의 높은 정확률을 보인 반면, 폐쇄음 + 비음, 폐쇄음 + 유음, 비음 + 유음 음소쌍에서는 44.89%, 50%, 55% 의 낮은 정확률을 보였으며, 남성화자에 대한 실험결과에서도 유사한 경향을 보였다.

TheReviser : 가상 데스크 상의 제스처 기반 문서 교정 시스템 (TheReviser : A Gesture-based Editing System on a Digital Desk)

  • 정기철;강현
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.527-536
    • /
    • 2004
  • 리바이저 시스템은 프로젝션 화면 상에서 종이 문서의 수정시 사용되는 교정 제스처와 동일한 제스처를 이용한 온라인 문서 교정 시스템이다. 이를 위해, 프로젝션 화면 상에서 손이나 문서와 같은 전경물체추출 기술과 연속 동작으로 부터의 제스처 인식 기술이 필요하다. 많은 조명 변화와 복잡한 배경 상에서 전경물체를 검출하기 위해서 기하보정과 색상보정을 수행하고, HMM 기반 제스처 인식기를 구현하였다. 실험 결과로부터 연속 제스처에서 93.22%의 인식률을 나타남을 볼 수 있다.

파라메트릭 제스처 공간에서 포즈의 외관 정보를 이용한 제스처 인식과 동작 평가 (Gesture Recognition and Motion Evaluation Using Appearance Information of Pose in Parametric Gesture Space)

  • 이칠우;이용재
    • 한국멀티미디어학회논문지
    • /
    • 제7권8호
    • /
    • pp.1035-1045
    • /
    • 2004
  • 본 논문에서는 저차원 제스처 특징 공간에서 연속적인 인간의 제스처 형상을 이용하여 제스처를 인식하고 동작을 구체적으로 평가하는 방법에 대해 소개한다. 기존의 HMM, 뉴럴 넷을 이용한 제스처 인식방법은 주로 인간의 동작 패턴을 구분할 수 있지만 동작의 크기 정보를 이용하기엔 어려움이 있다. 여기서 제안한 방법은 연속적으로 촬영된 인간의 제스처 영상들을 파라메트릭 고유공간이라는 저차원 공간으로 표현하여 모델과 입력 영상간의 거리 계산으로써 포즈뿐만 아니라 동작에 관한 빠르기나 크기와 같은 구체적인 정보를 인식할 수 있다. 이 방법은 단순한 처리와 비교적 안정적인 인식 알고리즘으로 지적 인터페이스 시스템이나 감시 장비와 같은 여러 응용 시스템에 적용 될 수 있다.

  • PDF

연속적인 손 제스처의 실시간 인식을 위한 계층적 베이지안 네트워크 (A Hierarchical Bayesian Network for Real-Time Continuous Hand Gesture Recognition)

  • 허승주;이성환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권12호
    • /
    • pp.1028-1033
    • /
    • 2009
  • 본 논문은 컴퓨터 마우스를 제어하기 위한 실시간 손 제스처 인식 방법을 제안한다. 다양한 제스처를 표현하기 위해, 손 제스처를 연속적인 손 모양의 시퀀스로 정의하고, 이러한 손 제스처를 인식하기 위한 계층적 베이지안 네트워크를 디자인한다. 제안하는 방법은 손 포스처와 제스처 인식을 위한 계층적 구조를 가지며, 이는 특징 추출과정에서 발생하는 잡음에 강인하다는 장점을 가진다. 제안하는 방법의 유용성을 증명하기 위해, 제스처 기반 가상 마우스 인터페이스를 개발하였다. 실험에서 제안한 방법은 단순한 배경에서는 94.8%, 복잡한 배경에서는 88.1%의 인식률을 보였으며, HMM 기반의 기존 방법보다 우수한 성능을 보였다.

한국어 연속음성 인식을 위한 단어 결합 모델링에 관한 연구 (A Study on Word Juncture Modeling for Continuous Speech Recognition of Korean Language)

  • 최인정;은종관
    • 한국음향학회지
    • /
    • 제13권5호
    • /
    • pp.24-31
    • /
    • 1994
  • 본 논문에서는 단어 조음결합의 음성학적 모델을 이용한 한국어 연속음성 인식에 관해 연구한다. 조음결합 현상에 의한 성능 감소를 줄이기 위해 단어내에서의 전이뿐만 아니라 단어간의 전이를 모델링하는 context-dependent (CD)단위를 사용한다. 모든 경우에서 각 단어의 첫 음소는 앞에 올 수 있는 모든 단어의 마지막 음소에 의해 지정되며, 각 단어의 마지막 음소도 유사한 방법으로 지정된다. Hidden Markov model (HMM) 파라미터들의 강인성을 개선하기 위해 공분산 행렬을 평활화한다. 또한 음성 단위들 사이의 분별력을 높이기 위해 position-dependent 단위를 사용한다. 실험 결과들은 개선된 조음결합 모델을 사용함으로서 intra-word 단위만을 사용하는 기본 인식 시스템에 비해 성능을 상당히 개선할 수 있음을 보여 주었다.

  • PDF

휴대 멀티미디어 단말용 음성인식 시스템 개발 (Development of Continuous Speech Recognition System for Multimedia Mobile Terminal Applications)

  • 김승희
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.59-62
    • /
    • 1998
  • 본 논문에서는 한국전자통신연구원의 Handy Combi 응용 도메인을 대상으로 한 화자독립 연속음성인식 시스템 개발에 관하여 기술한다. 불특정화자가 자연스럽게 발음한 연속음성을 인식하는 기술은 펜인식 등과 더불어 멀티모달 인터페이스의 핵심 요소로서, 이동 환경에서 사용자의 다양한 요구사항을 처리하는 지능형 에이전트에 구현을 위해 필수적으로 개발되어야 하는 기술이다. 본 논문에서는 연속확률분포를 가지는 Hidden Markov Model(HMM) 기반의 연속음성인식 시스템을 구현하였다. 개발된 시스템은 음성특징벡터로 MFCC를 사용하였으며, 음소 모델의 강인한 훈련을 위해 음성학적 지식에 기반을 둔 tree-based clustering 방식을 도입하였다. 인식단계에서는 인식속도를 개선시키기 위해 beam-search 기법을 적용하였다. 인식 실험 결과, 99.7%의 어절 인식률과 98.8%의 문장 인식률을 얻었으며, 최종적인 문장의 이해도는 99% 이상이었다.

  • PDF

음성학적 특징을 이용한 연속 숫자음인식 (Connected Digit Recognition Using Phonetical Features)

  • 김민정
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제5권
    • /
    • pp.72-75
    • /
    • 1998
  • 본 논문에서는 숫자음 인식시스템의 인식률 향상을 위한 연구로서 4연속 숫자음을 대상으로 연음 현상 및 경음화 현상등과 같은 음성학적 특징을 고려하여 숫자음에 강건한 모델을 작성하는 방법을 제안하고 인식실험을 통하여 그 유효성을 확인하고자 한다. 이를 위하여 음성자료로서는 국어공학센터(KLE)에서 채록한 4연속 숫자음을 사용하며 인식의 기본단위로서 음향학적 특징을 고려한 19개의 연속분포 HMM을 유사음소 단위(Phoneme Like Units ; PLUS) 로 사용한다. 또한 , 인식실험에 있어서는 기존의 방법으로 모델을 작성한 경우와 연음 현상과 경음화 현상 등과 같은 음성학적 특징을 고려하여 모델을 작성한 경우에 대해서 유한상태 오토마타(finite State Automata ; FSA)에 의한 구문제어를 통한 OPDP(One Pass Dynamic Programming)법으로 인식실험을 수행하여 그 결과를 비교 검토하였다. 그 결과, 기존이 방법의 경우 64.6%, 음성학적 특징을 고려한 경우 68.6%의 인식률을 보여, 음성학적 특징을 고려한 경우가 4.0% 향상된 인식률을 얻어 제안한 방법의 유효성을 확인하였다.

  • PDF

그리드 단체 위의 디리슐레 분포에서 마르코프 연쇄 몬테 칼로 표집 (MCMC Algorithm for Dirichlet Distribution over Gridded Simplex)

  • 신봉기
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권1호
    • /
    • pp.94-99
    • /
    • 2015
  • 비모수 베이스 통계학, 확률적 표집에 기반한 추론 등이 기계학습의 주요 패러다임으로 등장하면서 디리슐레(Dirichlet) 분포는 최근 다양한 그래프 모형 곳곳에 등장하고 있다. 디리슐레 분포는 일변수 감마 분포를 벡터 분포로 확장한 형태의 하나이다. 본 논문에서는 감마 분포를 갖는 임의의 자연수 X를 K개의 자연수의 합으로 임의 분할 할 때 각 부분의 크기 비율을 디리슐레 분포에서 표집하는 방법을 제안한다. 일반적으로 디리슐레 분포는 연속적인 (K-1)-단체(simplex) 위에 정의 되지만 자연수로 분할하는 표본은 자연수라는 조건 때문에 단체 내부의 이산 그리드 점에만 정의된다. 본 논문에서는 단체 위의 그리드 상의 이웃 점들의 확률 분포로부터 마르코프연쇄 몬테 칼로(MCMC) 제안 분포를 정의하고 일련의 표본들의 마르코프 연쇄를 구현하는 알고리듬을 제안한다. 본 방법은 마르코프 모델, HMM 및 준-HMM 등에서 각 상태별 시간 지속 분포를 표현하는데 활용 가능하다. 나아가 최근 제안된 전역-지역(global-local) 상태지속 분포를 동시에 모형화하는 감마-디리슐레 HMM에도 응용가능하다.

은닉 마르코프 모델을 이용한 MPEG 압축 비디오에서의 점진적 변환의 검출 (Detection of Gradual Transitions in MPEG Compressed Video using Hidden Markov Model)

  • Choi, Sung-Min;Kim, Dai-Jin;Bang, Sung-Yang
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권3호
    • /
    • pp.379-386
    • /
    • 2004
  • 비디오 요약의 첫 걸음은 샷(shot) 변환의 검출이다. 이러한 샷 변환은 점진적인 변환과 급진적인 변환이 있다. 지금까지 급진적인 샷 변환은 이미 주어진 한계치나 연속된 두 프레임의 이미지에 기반을 둔 거리를 이용하여 검출하였고 점진적 변환 또한 일반적으로 한계치를 이용하여 검출하였다. 그러나 한계치에 따라 그 결과가 확연히 달라지고 또한 그 한계치를 정하는 것도 어려운 문제이다. 이 논문에서는 이런 문제의 해결과 MPEG 압축 비디오 상에서 점진적 변화의 검출뿐만 아니라 분류를 해결하는 방법을 제시하였다. 논문에서는 한계치를 사용하지 않은 은닉 마르코프 모델과 MPEG의 근사 DC 값을 이용하여 보다 빠르고 정확한 결과를 얻도록 하였다. 그리고 히스토그램의 차이뿐만 아니라 매크로 블록 (macro block)의 차이라 불리는 새로운 척도를 도입하여 보다 정확한 값을 얻도록 하였다. 은닉 마르코프 모델은 샷, 페이드(fade), 디졸브(dissolve), 컷(cut) 등의 4개의 상태를 갖게 하고 학습은 Baum-Welch 알고리즘으로 필요한 변수들을 추정하였다. 그리고 특정 벡터에 Viterbi 알고리즘을 적용하여 원하는 상태를 얻을 수 있다. 대부분의 실험 결과를 보면 새로 제안한 척도를 사용한 방법이 히스토그램의 차만을 이용한 방법보다 더 좋은 결과를 나타내었으며 이산적 마르코프 모델보다 연속적 마르코프 모델이 좋은 결과를 보여준다.

반음절 문맥종속 모델을 이용한 한국어 4 연숫자음 인식에 관한 연구 (A Study on Korean 4-connected Digit Recognition Using Demi-syllable Context-dependent Models)

  • 이기영;최성호;이호영;배명진
    • 한국음향학회지
    • /
    • 제22권3호
    • /
    • pp.175-181
    • /
    • 2003
  • 한국어 숫자음은 단음절이며 연결된 숫자음 사이에 연음현상의 영향 때문에 한국어 연결 숫자음의 인식방법으로 반음절에 기반한 모델들이 제시되어 왔다. 기존에 제안된 반음절이나 반음절+반음절의 인식모델을 이용한 방법에서는 아직까지 우수한 인식성능을 보이지 못하고 있다. 본 논문에서는 확장된 문맥종속 반음절 모델을 이용한 한국어 4 연숫자음 인식방법을 제안한다. 실험에서 연결숫자음은 SiTEC의 4 연숫자음 데이터 베이스를 사용하였으며 학습과 인식방법으로는 HTK 3.0의 C-HMM을 이용하였다. 기존의 방법들과 인식율을 비교해 본 결과, 92%의 비교적 우수한 인식성능을 보였다.