• 제목/요약/키워드: Phoneme Segmentation

검색결과 53건 처리시간 0.021초

Support Vector Machine Based Phoneme Segmentation for Lip Synch Application

  • Lee, Kun-Young;Ko, Han-Seok
    • 음성과학
    • /
    • 제11권2호
    • /
    • pp.193-210
    • /
    • 2004
  • In this paper, we develop a real time lip-synch system that activates 2-D avatar's lip motion in synch with an incoming speech utterance. To realize the 'real time' operation of the system, we contain the processing time by invoking merge and split procedures performing coarse-to-fine phoneme classification. At each stage of phoneme classification, we apply the support vector machine (SVM) to reduce the computational load while retraining the desired accuracy. The coarse-to-fine phoneme classification is accomplished via two stages of feature extraction: first, each speech frame is acoustically analyzed for 3 classes of lip opening using Mel Frequency Cepstral Coefficients (MFCC) as a feature; secondly, each frame is further refined in classification for detailed lip shape using formant information. We implemented the system with 2-D lip animation that shows the effectiveness of the proposed two-stage procedure in accomplishing a real-time lip-synch task. It was observed that the method of using phoneme merging and SVM achieved about twice faster speed in recognition than the method employing the Hidden Markov Model (HMM). A typical latency time per a single frame observed for our method was in the order of 18.22 milliseconds while an HMM method applied under identical conditions resulted about 30.67 milliseconds.

  • PDF

자동 음성분할 및 레이블링 시스템의 구현 (Implementation of the Automatic Segmentation and Labeling System)

  • 성종모;김형순
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.50-59
    • /
    • 1997
  • 본 논문에서는 한국어 음성 데이터베이스 구축을 위하여 자동으로 음소경계를 추출하는 자동 음성분할 및 레이블링 시스템을 구현하였다. 기존의 음성분할 및 레이블링 기술을 근간으로 본 시스템을 구현하였으며, 또한 사용자가 자동분할된 음소경계를 확인하여 그 경계를 쉽게 수정할 수 있도록 한글 모티프 환경에서 그래픽 사용자 인터페이스를 개발하였다. 개발된 시스템은 16kHz로 샘플링된 음성을 대상으로 하고 있으며, 레이블링 단위는 45개의 유사음소와 하나의 묵음으로 구성하였다. 그리고 언어학적 정보의 입력방식으로는 음소표기와 철자표기를 사용하였으며, 패턴매칭 방법으로는 hidden Markov model(HMM)을 이용하였다. 개발된 시스템의 각 음소 모델은 수작업에 의해서 음소단위로 분할한 음성학적으로 균형잡힌 445 단어 데이터베이스를 이용해서 훈련되었다. 그리고 본 시스템의 성능평가를 위해 훈련에 사용되지 않는 문장 데이터베이스에 대해서 자동 음성분할 실험을 수행하였다. 실험결과, 수작업에 의해서 분할된 음소경계위치와의 오차가 20ms 이내인 것이 74.7%였으며, 40ms이내에는 92.8%가 포함되었다.

  • PDF

한국어 음성인식에서 음성의 특성을 고려한 음소 경계 검출 (Phoneme Segmentation in Consideration of Speech feature in Korean Speech Recognition)

  • 서영완;송점동;이정현
    • 인터넷정보학회논문지
    • /
    • 제2권1호
    • /
    • pp.31-38
    • /
    • 2001
  • 음소 단위로 구축된 음성 데이터는 음성인식과 음성합성 및 분석 등의 분야에서 매우 중요한 문제이다. 일반적으로 음소는 유성음과 무성음으로 구분된다. 이러한 유성음과 무성음은 많은 특징적 차이가 있지만, 기존의 음소 경계 검출 알고리즘은 이를 고려하지 않고 시간 축을 기준으로 이전 프레임과의 스펙트럼 비교만을 통하여 음소의 경계를 결정한다. 본 논문에서는 음소 경계 검출을 위하여 유성음과 무성음의 특징적 차이를 고려한 블록기반의 분류 알고리즘을 설계하였다. 분류 알고리즘을 사용하기 위한 스펙트럼 비교 방법은 MFCC(kel-Frequency Cepstrum Coefficient)를 기반으로 한 거리 측정 법을 사용하였고 유성음과 무성음의 구분은 에너지 영 교차율, 스펙트럼 비, 포만트 주파수를 이용하였다. 본 논문의 실험결과 3-4음절 고립단어를 대상으로 약 7%,의 정확도를 얻음으로써 기존의 음소 경계 검출 시스템보다 약 8%의 정확도 향상을 보였다.

  • PDF

악리론으로 본 정음창제와 정음소 분절 알고리즘 (Ortho-phonic Alphabet Creation by the Musical Theory and its Segmental Algorithm)

  • 진용옥;안정근
    • 음성과학
    • /
    • 제8권2호
    • /
    • pp.49-59
    • /
    • 2001
  • The phoneme segmentation is a very difficult problem in speech sound processing because it has found out segmental algorithm in many kinds of allophone and coarticulation's trees. Thus system configuration for the speech recognition and voice retrieval processing has a complex system structure. To solve it, we discuss a possibility of new segmental algorithm, which is called the minus a thirds one or plus in tripartitioning(삼분손익) of twelve temporament(12 율려), first proposed by Prof. T. S. Han. It is close to oriental and western musical theory. He also has suggested a 3 consonant and 3 vowel phonemes in Hunminjungum(훈민정음) invented by the King Sejong in the 15th century. In this paper, we suggest to newly name it as ortho-phonic phoneme(OPP/정음소), which carries the meaning of 'the absoluteness and independency'. OPP also is acceptable to any other languages, for example IPA. Lastly we know that this algorithm is constantly applicable to the global language and is very useful to construct a voice recognition and retrieval structuring engineering.

  • PDF

Likelihood Ratio에 의한 음소분류에 관한 연구 (A Study on the Phonemic Segmentation by Likelihood Ratio)

  • 이기영;배철수;최갑석
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1988년도 전기.전자공학 학술대회 논문집
    • /
    • pp.20-24
    • /
    • 1988
  • This paper proposed the phonemic segmentation method that employed two types of Likelihood Ratio that measures the change of spectral structure. By this method, isolated digits and words of VCV form are segmented into phoneme-unit and especially, first-burst part in an aspirated bilabial plosive is divided.

  • PDF

자동 음성 분할을 위한 음향 모델링 및 에너지 기반 후처리 (Acoustic Modeling and Energy-Based Postprocessing for Automatic Speech Segmentation)

  • 박혜영;김형순
    • 대한음성학회지:말소리
    • /
    • 제43호
    • /
    • pp.137-150
    • /
    • 2002
  • Speech segmentation at phoneme level is important for corpus-based text-to-speech synthesis. In this paper, we examine acoustic modeling methods to improve the performance of automatic speech segmentation system based on Hidden Markov Model (HMM). We compare monophone and triphone models, and evaluate several model training approaches. In addition, we employ an energy-based postprocessing scheme to make correction of frequent boundary location errors between silence and speech sounds. Experimental results show that our system provides 71.3% and 84.2% correct boundary locations given tolerance of 10 ms and 20 ms, respectively.

  • PDF

HMM 및 보정 알고리즘을 이용한 자동 음성 분할 시스템 (An Automatic Segmentation System Based on HMM and Correction Algorithm)

  • 김무중;권철홍
    • 음성과학
    • /
    • 제9권4호
    • /
    • pp.265-274
    • /
    • 2002
  • In this paper we propose an automatic segmentation system that outputs the time alignment information of phoneme boundary using Viterbi search with HMM (Hidden Markov Model) and corrects these results by an UVS (unvoiced/voiced/silence) classification algorithm. We selecte a set of 39 monophones and a set of 647 extended phones for HMM models. For the UVS classification we use the feature parameters such as ZCR (Zero Crossing Rate), log energy, spectral distribution. The result of forced alignment using the extended phone set is 11% better than that of the monophone set. The UVS classification algorithm shows high performance to correct the segmentation results.

  • PDF

은닉 마코프 모델을 이용한 음성 인식 시스템 설계 (Design of A Speech Recognition System using Hidden Markov Models)

  • 이철원;임인칠
    • 전자공학회논문지B
    • /
    • 제33B권1호
    • /
    • pp.108-115
    • /
    • 1996
  • 본 논문에서는 이산 은닉 마코프 모델(Discrete Hidden Markov Model)을 이용한 연결 음성 인식에 관한 알고리듬 및 모델 토폴로지를 제안한다. 제안된 모델은 인식률과 인식할 수 있는 어휘를 고려하여 2 음소열 및 3 음소열 모델을 사용하며, 보다 정확한 음소 간의 세그멘테이션과 알고리듬의 수행 속도를 고려하여 2 음소열에서는 첫 번째 상태와 마지막 상태를 안정 상태, 나머지 상태는 천이 상태인 4 개의 상태를 갖도록 하고, 또한 3 음소열에서는 7 개의 상태를 갖도록 하며, 여기서 7개의 상태는 3 개의 안정 상태와 4개의 천이 상태를 갖도록 개선한다. 또한, 제안된 음성 인식 알고리듬은 인식 과정 내에서 음소의 발음 구간을 검출하도록 설계한다.

  • PDF

필기체 한글 인식에 유용한 세선화 알고리듬의 성능 개선에 관한 연구 (A Study on the Performance Improvement of Thinning Algorithm for Handwritten Korean Character)

  • 이기영;구하성;고형화
    • 한국통신학회논문지
    • /
    • 제19권5호
    • /
    • pp.883-891
    • /
    • 1994
  • 본 논문에서는 화소에서의 방향성을 이용하여 필기체 한글 인식에 유용한 세선화 알고리듬을 제안하였다. 세선화하기 전에 방향성 검출을 시행한다. 검출된 방향성에 의해서 직선과 사선으로 분류한다. 직선성분에는 Rutovitz crossing number를 이용한 알고리듬을 적용한다. 사선성분에는 Hilditch crossing number를 이용한 알고리듬을 적용한다. 제안한 알고리듬을 이미 제안된 다른 6가지의 세선화 알고리듬을 적용한 세선화 영상들과 성능을 비교하였다. 비교 항목으로는 기준 골격선과의 유사도, 잔가지 수, 그리고 자소 분리율 등이 사용되었다. 실험은 570개 문자에 대해서 수행하였다. 실험 결과 제안한 알고리듬은 유사도와 필기체 한글 인식에 많이 사용되는 자소 분리율에서 6개 비교 대상 중에서 가장 우수한 결과를 보였다.

  • PDF

획 정보를 이용한 한글문자와 펜 제스처 인식 시스템의 설계 및 구현 (Design and Implementation for Korean Character and Pen-gesture Recognition System using Stroke Information)

  • 오준택;김욱현
    • 정보처리학회논문지B
    • /
    • 제9B권6호
    • /
    • pp.765-774
    • /
    • 2002
  • 본 논문은 멀티미디어 단말기, PDA등에 적용할 목적으로 획 정보를 이용한 한글문자와 펜 제스처 인식 시스템을 설계 및 구현한다. 한글문자 인식은 다양한 필체 유형을 수용하기 위해 한글의 특성정보와 획 정보 등을 기반으로 구축한 한글데이터베이스를 이용하며 빠른 자소분리를 수행하기 위해서 획간의 위치정보를 이용한 순차적 자소분리와 자소를 이루는 획 수의 변경에 의한 백트래킹 자소분리를 이용한다. 펜 제스처 인식은 정의한 15가지 유형의 펜 제스처에 대해서 민감한 획 정보가 아닌 획 내의 교차수, 방향변화, 방향벡터, 방향코드의 개수, 위치관계, 획에 대한 시작점과 끝점간의 거리 비율정보 등을 분류특징으로 이용함으로써 강건한 인식과 빠른 처리속도를 가진다. 제안한 방법에 의해 구현한 인식 시스템은 실시간으로 수행하며 실험결과, 높은 인식률과 빠른 처리속도를 보였다.