• 제목/요약/키워드: continuous speech

검색결과 317건 처리시간 0.023초

HMM-Based Automatic Speech Recognition using EMG Signal

  • Lee Ki-Seung
    • 대한의용생체공학회:의공학회지
    • /
    • 제27권3호
    • /
    • pp.101-109
    • /
    • 2006
  • It has been known that there is strong relationship between human voices and the movements of the articulatory facial muscles. In this paper, we utilize this knowledge to implement an automatic speech recognition scheme which uses solely surface electromyogram (EMG) signals. The EMG signals were acquired from three articulatory facial muscles. Preliminary, 10 Korean digits were used as recognition variables. The various feature parameters including filter bank outputs, linear predictive coefficients and cepstrum coefficients were evaluated to find the appropriate parameters for EMG-based speech recognition. The sequence of the EMG signals for each word is modelled by a hidden Markov model (HMM) framework. A continuous word recognition approach was investigated in this work. Hence, the model for each word is obtained by concatenating the subword models and the embedded re-estimation techniques were employed in the training stage. The findings indicate that such a system may have a capacity to recognize speech signals with an accuracy of up to 90%, in case when mel-filter bank output was used as the feature parameters for recognition.

TMS320F28335 DSP를 이용한 화자독립 음성인식기 구현 (Implementation of a Speaker-independent Speech Recognizer Using the TMS320F28335 DSP)

  • 정익주
    • 산업기술연구
    • /
    • 제29권A호
    • /
    • pp.95-100
    • /
    • 2009
  • In this paper, we implemented a speaker-independent speech recognizer using the TMS320F28335 DSP which is optimized for control applications. For this implementation, we used a small-sized commercial DSP module and developed a peripheral board including a codec, signal conditioning circuits and I/O interfaces. The speech signal digitized by the TLV320AIC23 codec is analyzed based on MFCC feature extraction methed and recognized using the continuous-density HMM. Thanks to the internal SRAM and flash memory on the TMS320F28335 DSP, we did not need any external memory devices. The internal flash memory contains ADPCM data for voice response as well as HMM data. Since the TMS320F28335 DSP is optimized for control applications, the recognizer may play a good role in the voice-activated control areas in aspect that it can integrate speech recognition capability and inherent control functions into the single DSP.

  • PDF

이산 지속시간제어 연속분포 HMM을 이용한 연속 음성 인식 (Korean Continuous Speech Recognition Using Discrete Duration Control Continuous HMM)

  • 이종진;김수훈;허강인
    • 한국음향학회지
    • /
    • 제14권1호
    • /
    • pp.81-89
    • /
    • 1995
  • 본 논문에서는 연속분포 HMM에 이산 지속시간제어와 회귀계수를 파라메터로 추가한 이산 지속시간제어 연속분포 HMM 모델을 이용하여 한국어 연속음성 인식 시스템을 구성하였다. 또한 25 문장의 로보트 제어명령문을 유한상태 오토마타에 의해 구문제어를 실시한 One Pass DP법으로 인식 실험을 실시하였다. 4연 숫자음에 대한 인식 실험에서 이산 지속시간 제어와 회귀 계수를 포함한 경우 평균 $93.8\%$의 인식율을, 포함하지 않은 경우 $80.7\%$의 인식율을 얻었다. 로보트 제어 명령문의 인식에서는 구문제어를 실시하지 않은 경우 평균 $90.9\%$, 유한 상태 오토마타에 의한 구문제어를 이용한 경우 평균 $98.4\%$$7.5\%$의 인식율이 향상되었다.

  • PDF

On Wavelet Transform Based Feature Extraction for Speech Recognition Application

  • Kim, Jae-Gil
    • The Journal of the Acoustical Society of Korea
    • /
    • 제17권2E호
    • /
    • pp.31-37
    • /
    • 1998
  • This paper proposes a feature extraction method using wavelet transform for speech recognition. Speech recognition system generally carries out the recognition task based on speech features which are usually obtained via time-frequency representations such as Short-Time Fourier Transform (STFT) and Linear Predictive Coding(LPC). In some respects these methods may not be suitable for representing highly complex speech characteristics. They map the speech features with same may not frequency resolutions at all frequencies. Wavelet transform overcomes some of these limitations. Wavelet transform captures signal with fine time resolutions at high frequencies and fine frequency resolutions at low frequencies, which may present a significant advantage when analyzing highly localized speech events. Based on this motivation, this paper investigates the effectiveness of wavelet transform for feature extraction of wavelet transform for feature extraction focused on enhancing speech recognition. The proposed method is implemented using Sampled Continuous Wavelet Transform (SCWT) and its performance is tested on a speaker-independent isolated word recognizer that discerns 50 Korean words. In particular, the effect of mother wavelet employed and number of voices per octave on the performance of proposed method is investigated. Also the influence on the size of mother wavelet on the performance of proposed method is discussed. Throughout the experiments, the performance of proposed method is discussed. Throughout the experiments, the performance of proposed method is compared with the most prevalent conventional method, MFCC (Mel0frequency Cepstral Coefficient). The experiments show that the recognition performance of the proposed method is better than that of MFCC. But the improvement is marginal while, due to the dimensionality increase, the computational loads of proposed method is substantially greater than that of MFCC.

  • PDF

DSP를 이용한 자동차 소음에 강인한 음성인식기 구현 (Implementation of a Robust Speech Recognizer in Noisy Car Environment Using a DSP)

  • 정익주
    • 음성과학
    • /
    • 제15권2호
    • /
    • pp.67-77
    • /
    • 2008
  • In this paper, we implemented a robust speech recognizer using the TMS320VC33 DSP. For this implementation, we had built speech and noise database suitable for the recognizer using spectral subtraction method for noise removal. The recognizer has an explicit structure in aspect that a speech signal is enhanced through spectral subtraction before endpoints detection and feature extraction. This helps make the operation of the recognizer clear and build HMM models which give minimum model-mismatch. Since the recognizer was developed for the purpose of controlling car facilities and voice dialing, it has two recognition engines, speaker independent one for controlling car facilities and speaker dependent one for voice dialing. We adopted a conventional DTW algorithm for the latter and a continuous HMM for the former. Though various off-line recognition test, we made a selection of optimal conditions of several recognition parameters for a resource-limited embedded recognizer, which led to HMM models of the three mixtures per state. The car noise added speech database is enhanced using spectral subtraction before HMM parameter estimation for reducing model-mismatch caused by nonlinear distortion from spectral subtraction. The hardware module developed includes a microcontroller for host interface which processes the protocol between the DSP and a host.

  • PDF

강도 및 음도 조절을 이용한 훈련이 파킨슨병 환자의 음성 및 발화명료도 개선에 미치는 효과: 사례연구 (The Effects of Voice and Speech Intelligibility Improvements in Parkinson Disease by Training Loudness and Pitch: A Case Study)

  • 이옥분;정옥란;고도흥
    • 음성과학
    • /
    • 제8권3호
    • /
    • pp.173-184
    • /
    • 2001
  • The purpose of this study was to examine the effects of manipulating loudness and pitch in terms of speech intelligibility and voice of a patient with Parkinson's Disease. The subject, who was diagnosed as a patient with Parkinson's disease 11 years ago, demonstrated a severely breath voice with low intensity. The accuracy of articulation in consonants was intelligible only at the single word level, and the overall intelligibility in continuous speech was low. The results showed that the subject's articulation accuracy and speech intelligibility was significantly improved after having loudness and pitch training. Habitual Fo, Jitter, Shimmer, Fo tremor, Amp tremor were decreased after training. In addition, the value of HNR also increased after training. It was shown that the changes of these acoustic parameters were closely related to the decrease of breathiness in Parkinson's voice, and this decrease of breathiness affected speech intelligibility considerably. Based on the experimental results, it was claimed that the vocal training by manipulating the loudness and pitch could be highly effective in improving the voice quality and speech intelligibility in Parkinson's Disease.

  • PDF

한국어 음성인식을 위한 음성 데이터 수집 (Speech Data Collection for korean Speech Recognition)

  • 박종렬;권오욱;김도영;최인정;정호영;은종관
    • 한국음향학회지
    • /
    • 제14권4호
    • /
    • pp.74-81
    • /
    • 1995
  • 본 논문에서는 한국과학기술원(KAIST) 통신연구실에서 개발한 한국어 음성 데이터베이스의 개발에 관하여 기술한다. 음성 데이터베이스의 구축을 위하여 사용된 절차와 환경, 및 데이터베이스의 음성학적, 언어학적 성질들이 상세히 기술된다. 데이터베이스는 음성인식 알고리듬의 개발 및 평가를 위하여 사용되도록 고안되었다. 데이터베이스는 5종류의 음성 데이터, 즉 3천단어 규모의 무역관련 연속음성, 가변길이 연결 숫자음, phoneme-balanced75 고립단어, 지역명 관련 500 고립단어, 한국어 아-세트로 구성되어 있다.

  • PDF

인지 모델을 이용한 제한된 한국어 연속음 인식 (Recognition of Restricted Continuous Korean Speech Using Perceptual Model)

  • 김선일;홍기원;이행세
    • 한국음향학회지
    • /
    • 제14권3호
    • /
    • pp.61-70
    • /
    • 1995
  • 본 논문에서는 사람의 인지 특성에 가까운 PLP 켑스트럼을 사용하여 음성의 시간적 특성을 잘 반영할 수 있도록 넓은 시간대에 걸쳐 특징을 추출하였으며 인간의 학습 방법과 유사한 인공신경망을 이용하여 음소를 인식하고 인식된 음소로부터 순서 특징을 잘 반영하는 Markov 모델을 통해 음소열을 인식하였다. 음소인식은 연속음성에 나타나는 음소에서 비균일한 프레임 개수로 채취된 음성 블록들을 사용하여 7차 PLP 켑스트럼, PTP, 영교차율 및 에너지를 구하고 이를 MLP 신경망의 입력으로 사용하여 두 사람이 각각 5번씩 발음한 10종류의 한국어 문장, 총 100개를 대상으로 음소 인식을 실시하여 최대 9.4%의 음소별 인식률을 얻을 수 있었다. 문장인식은 학습에 참여했던 두 사람이 각 문장에 대해 10번씩 새로 발음한 총 200개의 데이터에 대해 음소별 인식을 거쳐 첫 번째 실험을 통해 생성된 Markov 모델을 이용하여 문장 인식을 실시한 결과 92.5%의 문장 인식률을 얻었다.

  • PDF

주요고유성분분석을 이용한 연속음성의 세그멘테이션 (Segmentation of Continuous Speech based on PCA of Feature Vectors)

  • 신옥근
    • 한국음향학회지
    • /
    • 제19권2호
    • /
    • pp.40-45
    • /
    • 2000
  • 음소에 대한 사전지식 없이 음성의 신호나 특징벡터 만으로부터 음소별 경계를 추출하는 맹목 세그멘테이션의 한가지 방법은 음소별 특징벡터들 사이의 거리를 최소화하는 경계를 찾는 것이다. 이런 방법에서 특징벡터들 사이의 거리척도로 유클리드 거리가 자주 사용되고 있지만 한 음소의 특징벡터들 사이에도 많은 변화가 있어 단순한 유클리드 거리척도만으로는 음소별 경계를 추출하기에 효율적이지 못하다. 본고에서는 한 음소에 속하는 특징벡터들의 전체적인 추이를 반영한 특징벡터들 사이의 거리를 구하기 위해 주요고유성분분석법(principal component analysis)을 이용하는 방법을 제안한다. 이 방법에서는 각 특징벡터들과 이들을 주요고유성분에 투영한 점 사이의 거리를 척도로 이용한다. 제안하는 거리척도를 LBDP 알고리즘에 적용하여 연속음성의 음소간 경계를 추출하는 실험을 수행하였다. 실험 결과, 단순한 유클리드 거리를 척도로 할 때 보다 약 3-6% 정도의 누락오류를 줄일 수 있어 유용하게 이용될 수 있음을 보였다.

  • PDF

음성 문자 공용인식기를 위한 SSMS 기반 가변 파라미터 모델 (A Variable Parameter Model based on SSMS for an On-line Speech and Character Combined Recognition System)

  • 석수영;정호열;정현열
    • 한국음향학회지
    • /
    • 제22권7호
    • /
    • pp.528-538
    • /
    • 2003
  • 음성 문자 공용 인식 시스템은 PDA (Personal Digital Assistants)와 같은 휴대용 모빌 환경에서 음성인식과 문자인식을 적용하기에 적합하도록 개발되었다. 공용 인식 시스템은 특징 파라미터 추출에 있어서는 음성과 문자부분이 독립적으로 수행되나, 인식 과정은 단일 엔진으로 수행된다. CHMM (Continuous Hidden Markov Model)을 이용하는 인식엔진은 고정 파라미터 모델 구조 대신에 동일한 인식률을 유지하면서 모델의 파라미터의 수를 효과적으로 줄일 수 있는 가변 파라미터 모델 구조를 사용하는 것이 유리하다. 본 논문에서는 문맥 독립 가변 파라미터 모델을 생성하기 위해 SSMS (Successive State and Mixture Splitting) 방법을 제안한다. SSMS 알고리즘은 시간 방향 분할과 혼합수 방향분할을 통해 적절한 상태수와 각 상태당 적절한 혼합수를 가지는 모델을 생성한다. 음성 인식 실험 결과 동일한 인식성능을 나타내는 경우 SSMS 기반 가변 파라미터 모델이 고정 파라미터 모델에 비해 GOPDD (Gaussian Output Probability Density Distribution)의 수가 40% 감소함을 확인할 수 있었다.