• 제목/요약/키워드: phoneme segmentation

검색결과 53건 처리시간 0.021초

Thai Phoneme Segmentation using Dual-Band Energy Contour

  • Ratsameewichai, S.;Theera-Umpon, N.;Vilasdechanon, J.;Uatrongjit, S.;Likit-Anurucks, K.
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -1
    • /
    • pp.110-112
    • /
    • 2002
  • In this paper, a new technique for Thai isolated speech phoneme segmentation is proposed. Based on Thai speech feature, the isolated speech is first divided into low and high frequency components by using the technique of wavelet decomposition. Then the energy contour of each decomposed signal is computed and employed to locate phoneme boundary. To verity the proposed scheme, some experiments have been performed using 1,000 syllables data recorded from 10 speakers. The accuracy rates are 96.0, 89.9, 92.7 and 98.9% for initial consonant, vowel, final consonant and silence, respectively.

  • PDF

음성인식 시스템에서의 음소분할기의 성능 (Performance of the Phoneme Segmenter in Speech Recognition System)

  • 이광석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 추계학술대회
    • /
    • pp.705-708
    • /
    • 2009
  • 본 연구는 자연음성의 인식을 위하여 신경회로망을 기초로 한 음소 분할기에 대하여 기술하였다. 자연음성의 인식을 위한 음소 분할기의 입력으로는 16차 멜 스케일의 FFT, 정규화된 프레임 에너지, 0~3[KHz] 주파수 대역 및 그 이상의 대역에서의 에너지 비를 사용하였다. 모든 특징들은 두개의 연속적인 10[msec] 프레임의 차이며, 본 연구에 사용한 음소분할기는 하나의 72입력을 가지는 은닉층 퍼셉트론, 20은닉노드 및 하나의 출력노드로 구성하여 사용하였다. 자연음성에 대한 음소분할의 정확도는 7.8%삽입을 가지는 78%를 얻을 수 있었다.

  • PDF

A Study on Grapheme and Grapheme Recognition Using Connected Components Grapheme for Machine-Printed Korean Character Recognition

  • Lee, Kyong-Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권9호
    • /
    • pp.27-36
    • /
    • 2016
  • Recognition of grapheme is a very important process in the recognition within 'Hangul(Korean written language)' letters using phoneme recognition. It is because the success or failure in the recognition of phoneme greatly affects the recognition of letters. For this reason, it is reported that separation of phonemes is the biggest difficulty in the phoneme recognition study. The current study separates and suggests the new phonemes that used the connective elements that are helpful for dividing phonemes, recommends the features for recognition of such suggested phonemes, databases this, and carried out a set of experiments of recognizing phonemes using the suggested features. The current study used 350 letters in the experiment of phoneme separation and recognition. In this particular kind of letters, there were 1,125 phonemes suggested. In the phoneme separation experiment, the phonemes were divided in the rate of 100%, and the phoneme recognition experiment showed the recognition rate of 98% in recognizing only 14 phonemes into different ones.

유/무성/묵음 정보를 이용한 TTS용 자동음소분할기 성능향상 (Improvement of an Automatic Segmentation for TTS Using Voiced/Unvoiced/Silence Information)

  • 김민제;이정철;김종진
    • 대한음성학회지:말소리
    • /
    • 제58호
    • /
    • pp.67-81
    • /
    • 2006
  • For a large corpus of time-aligned data, HMM based approaches are most widely used for automatic segmentation, providing a consistent and accurate phone labeling scheme. There are two methods for training in HMM. Flat starting method has a property that human interference is minimized but it has low accuracy. Bootstrap method has a high accuracy, but it has a defect that manual segmentation is required In this paper, a new algorithm is proposed to minimize manual work and to improve the performance of automatic segmentation. At first phase, voiced, unvoiced and silence classification is performed for each speech data frame. At second phase, the phoneme sequence is aligned dynamically to the voiced/unvoiced/silence sequence according to the acoustic phonetic rules. Finally, using these segmented speech data as a bootstrap, phoneme model parameters based on HMM are trained. For the performance test, hand labeled ETRI speech DB was used. The experiment results showed that our algorithm achieved 10% improvement of segmentation accuracy within 20 ms tolerable error range. Especially for the unvoiced consonants, it showed 30% improvement.

  • PDF

Support Vector Machines에 의한 음소 분할 및 인식 (Phoneme segmentation and Recognition using Support Vector Machines)

  • 이광석;김현덕
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.981-984
    • /
    • 2010
  • 우리는 본 연구에서 학습방법으로서 연속음성을 초성, 중성, 종성의 음소단위로 분할하기 위하여 인공 신경회로망의 하나인 SVMs을 사용하였으며 분할한 음소단위의 음성으로 연속음성인식에 적용하여 그 성능을 살펴보았다. 음소경계는 단 구간에서의 최대 주파수를 가진 알고리듬에 의하여 결정되며 또한 음성인식처리는 CHMM에 의하여 이루어지며 목측에 의한 분할결과와도 비교하여 살펴보았다. 시뮬레이션 결과로부터 초성의 분할성능에서 제안한 SVMs를 적용한 결과가 GMMs보다 효율적인을 알 수 있었다.

  • PDF

음소를 이용한 한국어 음성 신호의 분석과 인식에 관한 연구 (A Study on the Analysis and Recognition of Korean Speech Signal using the Phoneme)

  • 김영일;황영수;윤대희;차일환
    • 한국음향학회지
    • /
    • 제8권5호
    • /
    • pp.70-77
    • /
    • 1989
  • 본 연구는 한국어를 음소변로 분리하여 인식하는 실험에 관한 연구이다. 한국어 단음 545개를 자음 음소, 모음 음소, 받침 음소로 분리하여 선형 예측 계수로 인식한 결과, 각각 $87.3(\%), 91.0(\%), 91.7(\%)$의 인식률을 얻었고, 이 음소들을 결합한 단음에서는 $71.4(\%)$의 인식률을 얻었다. 음소 분리 및 음소 인식은 Itakura-Saito 거리 측정을 이용하였다.

  • PDF

음절핵의 위치정보를 이용한 우리말의 음소경계 추출 (Utilization of Syllabic Nuclei Location in Korean Speech Segmentation into Phonemic Units)

  • 신옥근
    • 한국음향학회지
    • /
    • 제19권5호
    • /
    • pp.13-19
    • /
    • 2000
  • 음성신호의 음소경계 추출방법 중 음소에 대한 사전지식 없이 음성 데이타, 혹은 특징벡터의 변화를 감지하여 음소경계를 추출해 내는 맹목 세그먼테이션은 연속음형 인식시스템이나 코퍼스 제작에 중요한 역할을 하며 많은 연구가 진행되어 왔다. 이러한 맹목 세그먼테이션 방법은 사전지식을 필요로 하지 않아 비교적 쉽게 접근할 수 있으나 음운학적인 지식, 또는 음소나 음소경계에 대한 지식과 경험 데이타 등을 이용하는 지식 기반 세그먼테이션 방법에 비해 성능이 좋지 못한 단점이 있다. 본고에서는 우리말의 연속 음성을 맹목 세그먼테이션해서 후보 경계를 추출한 다음, 음절핵의 위치정보를 이용하여 후보 경계를 후처리함으로써 세그먼테이션 효율을 높이는 방법을 제안한다. 제안하는 방법의 전처리과정에서는 확률적인 거리 모델을 이용한 클러스터링 방법을 이용하였으며, 후처리과정에서는 음절의 핵 사이에 위치할 수 있는 음소의 수는 제한된다는 선험적인 지식을 이용하였다. 실험결과, 제안하는 방법을 이용했을 때의 삽입오류는 맹목 세그먼테이션에 비해 약 25% 감소하였다.

  • PDF

GMM을 이용한 프레임 단위 분류에 의한 우리말 음성의 분할과 인식 (Korean Speech Segmentation and Recognition by Frame Classification via GMM)

  • 권호민;한학용;고시영;허강인
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2003년도 하계학술대회 논문집
    • /
    • pp.18-21
    • /
    • 2003
  • In general it has been considered to be the difficult problem that we divide continuous speech into short interval with having identical phoneme quality. In this paper we used Gaussian Mixture Model (GMM) related to probability density to divide speech into phonemes, an initial, medial, and final sound. From them we peformed continuous speech recognition. Decision boundary of phonemes is determined by algorithm with maximum frequency in a short interval. Recognition process is performed by Continuous Hidden Markov Model(CHMM), and we compared it with another phoneme divided by eye-measurement. For the experiments result we confirmed that the method we presented is relatively superior in auto-segmentation in korean speech.

  • PDF

SVM을 이용한 자동 음소분할에 관한 연구 (Research about auto-segmentation via SVM)

  • 권호민;한학용;김창근;허강인
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.2220-2223
    • /
    • 2003
  • In this paper we used Support Vector Machines(SVMs) recently proposed as the loaming method, one of Artificial Neural Network, to divide continuous speech into phonemes, an initial, medial, and final sound, and then, performed continuous speech recognition from it. Decision boundary of phoneme is determined by algorithm with maximum frequency in a short interval. Recognition process is performed by Continuous Hidden Markov Model(CHMM), and we compared it with another phoneme divided by eye-measurement. From experiment we confirmed that the method, SVMs, we proposed is more effective in an initial sound than Gaussian Mixture Models(GMMs).

  • PDF

HMM기반 자동음소분할기의 음소분할 오류 유형 분석 (The Error Pattern Analysis of the HMM-Based Automatic Phoneme Segmentation)

  • 김민제;이정철;김종진
    • 한국음향학회지
    • /
    • 제25권5호
    • /
    • pp.213-221
    • /
    • 2006
  • 합성음의 음질을 향상시키기 위하여 분할된 corpora로부터 합성유닛을 선택하여 사용하는 연속음성합성에서 정확한 음소분할은 매우 중요하다. 일반적으로 음소분할은 사람에 의해 수행되지만 많은 작업량으로 인한 시간적 지연, 일관 성 유지 어려움 등 많은 문제가 발생한다. 이에 따라 음성인식에서 도입된 HMM 기반의 자동음소분할이 음성인식, 음성 합성에서 널리 사용되어지고 있지만 음성전문가의 수작업 결과와 비교할 때 HMM 기반 자동음소분할은 오류가 있고, 이는 합성음 품질의 열화의 주요 원인이 되고 있다. 본 논문에서는 HMM 기반의 자동음소분할기를 사용하여 나타난 자동음소분할 결과와 수작업에 의한 음소분할 결과를 비교하고 유형별로 분석함으로써 음성합성의 성능향상을 위해 개선해야 할 문제점들을 제시한다. 실험에서는 ETRI의 표준형 한국어 공통 음성 DB을 사용하였고, 오차의 범위가 20ms를 벗어난 경우를 분절 오류로 간주하였다. 실험 결과 여성화자의 경우 파열음 + 모음, 파찰음 + 모음, 모음 + 유음 음소쌍에서는 각각 약 99%, 99.5%, 99%의 높은 정확률을 보인 반면, 폐쇄음 + 비음, 폐쇄음 + 유음, 비음 + 유음 음소쌍에서는 44.89%, 50%, 55% 의 낮은 정확률을 보였으며, 남성화자에 대한 실험결과에서도 유사한 경향을 보였다.