• Title/Summary/Keyword: Hidden markov model

Search Result 639, Processing Time 0.024 seconds

A Study on Continuous Digits Speech Recognition using Probabilistic Models (확률적 모델을 이용한 연속 숫자음 인식에 관한 연구)

  • Lee Ju-Sung;Lee Seong-Kwon;Kim Soon-Hyob
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.109-112
    • /
    • 1999
  • 본 연구는 음소 단위의 CHMM(Continuous Hidden Markov Model)을 이용한 한국어 연속 음성인식에 관한 내용이다. 연구실 환경에서 음성으로 전화를 걸기 위하여 연속 숫자음 인식을 수행하였다. ETRI 445 데이터를 사용하여 초기의 모델은 ML(Maximum Likelihood) 추정법을 이용하여 작성하였고 적응화를 위해 최대 사후 확률 추정법을 사용하였다. 연속 숫자음의 인식을 위하여 한국어 숫자음 음성의 음향학적 특성을 고려하여 발성 사전을 작성하였고, 음절 단위로 되어있는 한국어 숫자음의 모든 경우를 고려하여 복수개의 단어를 사전에 등록하였다. 또한 숫자음의 알 뒤 연음현상을 고려하여 작성한 21 종류의 7자리 숫자음과 이를 음절 단위로 세그먼트한 숫자음을 DB로 사용하여 적응화를 수행하였다. 이의 효율성을 입증하기 위하여 ETRI에서 작성한 35종류의 4연속 숫자음 목록을 대상으로 인식실험을 수행하였다.

  • PDF

Recognition of Corrupted Speech by Noise using Wavelet Packets (웨이블릿 페킷을 이용한 잡음에 손상된 음성신호 인식에 관한 연구)

  • Koh Kwang-hyun;Chang Sungwook;Yang Sung-il;Kwon Y.
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.89-92
    • /
    • 1999
  • 인식기 훈련과정에서 발생하지 않았던 잡음이 인식과정에서 신호를 손상할 경우 인식률의 저하가 발생한다. 본 논문에서는 음성의 질을 떨어뜨리는 이러한 잡음을 Wavelet Packets을 이용하여 전처리함으로서 인식률을 향상시키는 방법을 제안한다. 인식기로는 Hidden Markov Model을 사용하였고, 시스템에 사용된 특징 파라미터로는 15차 Cepstrum을 사용하였다. 11 kHz로 샘플링된 숫자음에 Additive White Gaussian Noise를 첨가한 손상된 음성신호를 인식실험에 사용하였다. 화자독립으로 진행된 실험에서 잡음에 의해 손상된 SNR 20dB의 음성신호에 대하여 Wavelet Packets로 잡음을 제거한 후 복원된 음성신호 의 인식률은 약 $10\%$ 향상됨을 확인하였다.

  • PDF

Comparison of Recognition Per formance of Noisy Speech Depend ing on Preprocessing Methods (전처리 기법에 따른 잡음음성의 인식성능 비교)

  • Son Jong Mok;Lee Yong Ju;Bae Keun Sung
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.31-34
    • /
    • 2000
  • 본 연구에서는 부가잡음에 의한 음성신호의 왜곡에 대해 다양한 음성개선 기법을 전처리기로 도입하여 HMM(Hidden Markov Model)에 기반 한 음성인식 시스템의 인식성능을 평가하였다. 음성개선 기법으로는 MMSE(Minimun Mean Square Error) STSA(Short-Time Spectral Amplitude Estimator) 기법과 웨이브렛 영역에서의 UWD(Undecimated Wavelet Denoising), CWD(Conventional Wavelet Denoising) 기법을 적용하였다. 잡음이 없는 데이터로 훈련한 음성인식시스템에 잡음음성을 입력할 때 각 음성개선기법을 전처리기로 사용하여 신호대잡음비(Signal to Noise Ratio)에 따른 인식 성능을 비교하였다.

  • PDF

A study on compensation of incorrect recognition on HMM using multilayer perceptrons (신경망을 이용한 HMM의 오인식 보상에 관한 연구)

  • Pyo Chang Soo;Kim Chang Keun;Hur Kang In
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.27-30
    • /
    • 2000
  • 본 논문은 HMM(Hidden Markov Model)을 이용하여 인식을 수행할 경우의 오류를 최소화 할 수 있는 후 처리 과정으로 신경망을 결합시켜 HMM 단독으로 사용하였을 때 보다 높은 인식률을 얻을 수 있는 HMM과 신경망의 하이브리드시스템을 제안한다. HMM을 이용하여 학습한 후 학습에 참여하지 않은 데이터를 인식하였을 때 오인식 데이터를 정인식으로 인식하도록 HMM의 출력으로 얻은 각 출력확률을 후 처리에 사용될 MLP(Multilayer Perceptrons)의 학습용으로 사용하여 MLP를 학습하여 HMM과 MLP을 결합한 하이브리드 모델을 만든다. 이와 같은 HMM과 신경망을 결합한 하이브리드 모델을 사용하여 단독 숫자음과 4연 숫자음 데이터에서 실험한 결과 HMM 단독으로 사용하였을 때 보다 각각 약 $4.5\%$, $1.3\%$의 인식률 향상이 있었다. 기존의 하이브리드 시스템이 갖는 많은 학습시간이 소요되는 문제점과 실시간 음성인식시스템을 구현할 때의 학습데이터의 부족으로 인한 인식률 저하를 해결할 수 있는 방법임을 확인할 수 있었다.

  • PDF

Stereo Vision Neural Networks with Competition and Cooperation for Phoneme Recognition

  • Kim, Sung-Ill;Chung, Hyun-Yeol
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.1E
    • /
    • pp.3-10
    • /
    • 2003
  • This paper describes two kinds of neural networks for stereoscopic vision, which have been applied to an identification of human speech. In speech recognition based on the stereoscopic vision neural networks (SVNN), the similarities are first obtained by comparing input vocal signals with standard models. They are then given to a dynamic process in which both competitive and cooperative processes are conducted among neighboring similarities. Through the dynamic processes, only one winner neuron is finally detected. In a comparative study, with, the average phoneme recognition accuracy on the two-layered SVNN was 7.7% higher than the Hidden Markov Model (HMM) recognizer with the structure of a single mixture and three states, and the three-layered was 6.6% higher. Therefore, it was noticed that SVNN outperformed the existing HMM recognizer in phoneme recognition.

Online Cursive Handwriting Character Recognition Using a Bitmap Parameter (비트맵 파라미터를 이용한 온라인 필기체 문자인식)

  • 석수영;김민정;정호열;정현열
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.421-424
    • /
    • 2001
  • 개별적인 인식기를 하나의 단일 인식 시스템으로 구성하여 음성과 문자를 인식할 수 있는 공용인식시스템의 성능향상을 위해 온라인 필기에서 전역적인 정보를 추출할 수 있는 비트맵 파라미터 추출 방법을 제안하였다. 제안된 방식에서는 고속의 파라미터 추출을 위해 보간법을 이용한 재샘플링 과정 대신에 새로운 시간열을 구성하는 방식을 이용한다. 제안한 비트맵 파라미터를 본 연구실에서 개발한 음성/문자 공용인식 시스템에 적용하기 위하여 67개의 자소를 5상태 10천이 CHMM(Continuous Hidden Markov Model)모델로 구성한 다음 인식알고리즘으로서는 상태단위로 지속 시간 정보를 제어하는 OnePassDP법을 이용하였다. 실험결과, 제안한 방법을 이용한 경우, 자소인식률은 61.3%에서 85.3%로 24%의 인식률 향상을 가져왔으며, 글자인식률은 64.3%에서 82.2%로 17.9%의 인식률 향상을 가져와 제안한 방법의 유효성을 확인할 수 있었다.

  • PDF

On Learning of HMM-Net Classifiers Using Hybrid Methods (하이브리드법에 의한 HMM-Net 분류기의 학습)

  • 김상운;신성효
    • Proceedings of the IEEK Conference
    • /
    • 1998.10a
    • /
    • pp.1273-1276
    • /
    • 1998
  • The HMM-Net is an architecture for a neural network that implements a hidden Markov model (HMM). The architecture is developed for the purpose of combining the discriminant power of neural networks with the time-domain modeling capability of HMMs. Criteria used for learning HMM-Net classifiers are maximum likelihood (ML), maximum mutual information (MMI), and minimization of mean squared error(MMSE). In this paper we propose an efficient learning method of HMM-Net classifiers using hybrid criteria, ML/MMSE and MMI/MMSE, and report the results of an experimental study comparing the performance of HMM-Net classifiers trained by the gradient descent algorithm with the above criteria. Experimental results for the isolated numeric digits from /0/ to /9/ show that the performance of the proposed method is better than the others in the respects of learning and recognition rates.

  • PDF

A Study on Lip-reading enhancement using RATSTA fileter (RASTA 필터를 이용한 립리딩 성능향상에 관한 연구)

  • Shin Dosung;Kim Jinyoung;Choi Seungho;Kim Sanghun
    • Proceedings of the KSPS conference
    • /
    • 2002.11a
    • /
    • pp.191-194
    • /
    • 2002
  • Lip-reading technology that is studied them is used to compensate speech recognition degradation in noise environment in bi-modal's form. The most important thing is that search for correct lips area in this lip-reading. But, it is hard to forecast stable performance in dynamic environment. Used RASTA filter that show good performance to remove noise in the speech to compensate. This filter shows that improve performance of using time domain of digital filter. To this experiment observes performance of speech recognition only using image information, service chooses possible 22 words and did recognition experiment in car. We used hidden Markov model by speech recognition algorithm to compare this words' recognition performance.

  • PDF

Study on Efficient Generation of Dictionary for Korean Vocabulary Recognition (한국어 음성인식을 위한 효율적인 사전 구성에 관한 연구)

  • Lee Sang-Bok;Choi Dae-Lim;Kim Chong-Kyo
    • Proceedings of the KSPS conference
    • /
    • 2002.11a
    • /
    • pp.41-44
    • /
    • 2002
  • This paper is related to the enhancement of speech recognition rate using enhanced pronunciation dictionary. Modern large vocabulary, continuous speech recognition systems have pronunciation dictionaries. A pronunciation dictionary provides pronunciation information for each word in the vocabulary in phonemic units, which are modeled in detail by the acoustic models. But in most speech recognition system based on Hidden Markov Model, actual pronunciation variations are disregarded. Without the pronunciation variations in the speech recognition system, the phonetic transcriptions in the dictionary do not match the actual occurrences in the database. In this paper, we proposed the unvoiced rule of semivowel in allophone rules to pronunciation dictionary. Experimental results on speech recognition system give higher performance than existing pronunciation dictionaries.

  • PDF

Soft Decision Speech Enhancement using Hang-over (행오버를 이용한 SOFT DECISION 음성향상기법)

  • 장준혁;김남수
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1999.11b
    • /
    • pp.201-206
    • /
    • 1999
  • 본 연구에서는 행오버 (hang-over)를 이용한 새로운 soft decision 음성 향상기 법을 제안한다. 제시된 음성향상기법에서는 global 음성부재확률의 개념을 소개하고 이를 기존의 채널별 음성부재확률과 결합하여 통계적으로 신뢰할 수 있는 음성부재에 대한 확률값을 도출해낸다. 특히 음성의 꼬리 부분에서의 음성부재확률결정의 성능을 향상시키기 위해 행오버의 개념을 도입한다. Hidden Markov model (HMM)에 근거한 행오버를 이용하여 음성부재확률을 수정하는 부분을 소개하고 최종적으로 수정된 음성부재확률을 이용하여 새로운 잡음전력의 갱신 및 이득수정을 통해 향상된 음성을 만들어 낸다. 개발된 음성 향상기법은 주관적인 음질평가에서 기존의 방법보다 뛰어난 성능을 나타내었으며, 특히 행오버를 이용한 음성부재확률의 수정에 관련한 성능을 검증하였다.

  • PDF