DOI QR코드

DOI QR Code

Improving Phoneme Recognition based on Gaussian Model using Bhattacharyya Distance Measurement Method

바타챠랴 거리 측정 기법을 사용한 가우시안 모델 기반 음소 인식 향상

  • 오상엽 (경원대학교 IT대학 컴퓨터소프트웨어)
  • Received : 2010.09.01
  • Accepted : 2011.01.13
  • Published : 2011.01.31

Abstract

Previous existing vocabulary recognition programs calculate general vector values from a database, so they can not process phonemes that form during a search. And because they can not create a model for phoneme data, the accuracy of the Gaussian model can not secure. Therefore, in this paper, we recommend use of the Bhattacharyya distance measurement method based on the features of the phoneme-thus allowing us to improve the recognition rate by picking up accurate phonemes and minimizing recognition of similar and erroneous phonemes. We test the Gaussian model optimization through share continuous probability distribution, and we confirm the heighten recognition rate. The Bhattacharyya distance measurement method suggest in this paper reflect an average 1.9% improvement in performance compare to previous methods, and it has average 2.9% improvement based on reliability in recognition rate.

기존의 어휘 인식에서는 일반적인 벡터 값을 데이터베이스를 이용하여 구하므로 탐색 중에 형성되는 음소를 처리하지 못하는 문제점을 제공하며, 음소 데이터에 대한 모델을 구성할 수 없는 단점으로 인하여 가우시안 모텔의 정확성을 확보하지 못하게 된다. 따라서 본 논문에서는 음소가 갖는 특징을 기반으로 바타챠랴 거리 측정법을 이용하여 정확한 음소로 인식할 수 있도록 유도하였으며 유사 음소 인식과 오인식 오류를 최소화하여 인식률을 향상시켰다. 연속 확률 분포의 공유로부터 가우시안 모델 최적화를 실험한 결과 향상된 신뢰도로 인해 높은 인식 성능을 확인하였으며, 본 논문에서 제안한 바타챠랴 거리 측정법을 이용하여 실험한 결과 기존의 방법들에 비하여 평균 1.9%의 성능 향상을 나타내었으며 신뢰성을 바탕으로 인식율에서 평균 2.9%의 성능 향상을 나타내었다.

Keywords

References

  1. 안찬식, 오상엽, "공유모델 인식 성능 향상을 위한 효율적인 연속 어휘 군집화 모델링", 한국컴퓨터정보학회지, 제15권, 제1호, 177-183쪽, 2010년 1월.
  2. 김우성, 구명완 "반음소 모델링을 이용한 거절기능에 관한 연구", 한국음향학회지, 제18권, 제3호, 3-9쪽, 1999년 3월.
  3. 문광식, 김회린, 정재호, 이영직, "가변어휘 단어 인식에서의 미등록어 거절 알고리즘의 성능비교", 신호처리합동학술대회논문집, 제12권, 제1호, 305-308쪽, 1999년 10월.
  4. 방기덕, 강철호, "가변 신뢰도 문턱치를 사용한 미등록어 거절 알고리즘에 대한 연구", 한국멀티미디어학회논문지, 제11권, 제11호, 1471-1479쪽, 2008년 11월.
  5. 안찬식, 오상엽, "MLHF 모델을 적용한 어휘 인식 탐색 최적화 시스템", 한국컴퓨터정보학회지, 제14권, 제10호, 217-223쪽, 2009년 10월.
  6. 김용현, 정민화, "에러패턴 학습과 후처리 모듈을 이용한 연속 음성 인식의 성능향상", Proc. KISS Spring Semiannual Conf. 제27권, 제1호, 441-443쪽, 2000년 4월.
  7. A. S. Manos and V. W. Zue, "A study on out-of- vocabulary word modeling for a segment-based keyword spotting system", Master Thesis, MIT, 1996.
  8. 김동주, 김한우, "문맥가중치가 반영된 문장 유사도 척도," 전자공학회 논문지, 제43권, 제6호, 496-504쪽, 2006년.
  9. L. R. Bahl, P. V. deSouza, P. S. Gopalakrishnan, D. Nahamoo, and M. Picheny, "A Fast Match for Continuous Speech Recognition Using Allophonic Models", InProc. IEEE ICASSP- 92, Vol.1, pp.17-21, 1992.
  10. L. R. Rabiner, B. H. Juang, "Fundamentals of speech recognition", Prentice Hall, 1993.
  11. T. Jitsuhiro, S. Takatoshi, and K. Aikawa, "Rejection of out-of-vocabulary words using phoneme confidence likelihood", ICASSP, pp.217-220, 1998.
  12. 이경록, 김철, 김진영, 최승호, 최승호, "정규화 신뢰도를 이용한 핵심어 검출 성능향상", 한국음향학회지, 제21권, 제4호, 380-386쪽, 2002년 5월.
  13. 김동주, 김한우, "문맥가중치가 반영된 문장 유사도 척도", 대한전자공학회논문지, 제43권, 제6호, 496-504쪽, 2006년.
  14. 김상운, 신성효, "ML/MMSE를 이용한 HMM- Net 분류기의 학습에 대한 실험적 고찰",대한전자공학회논문지C, 제36C권, 제6호, 44-51쪽, 1999년 6월.
  15. S. Young, D. Kershaw, J. Odell, D. Ollason, Valtcher, P. Woodland, "The HTK Book", Cambridge University Engineering Department, 2002.
  16. 권석봉, 윤성락, 장규철, 김용래, 김봉완, 김회린, 유창동, 이용주, 권오욱, "한국어 음성인식 플랫폼(ECHOS)의 개선 및 평가", 대한음성학회지:말소리, 제59호, 53-68쪽, 2006년 9월.
  17. 최승호, "정규화 신뢰도 기반 가변 어휘 고립 단어 인식기의 거절기능 성능 분석", 한국음향학회지, 제25권, 제2호, 96-100쪽, 2006년 2월.
  18. K. Demuynck, J. Duchateau, and D. Van Compernolle, "A static lexicon network representation for cross-word context dependent phones", In Proc. EUROSPEECH, Vol.1, pp.143-146, 1997.
  19. 김기태, 문광식, 김회린, 이영직, 정재호, "가변어휘 단어 인식에서의 미등록어 거절 알고리즘 성능 비교", 한국음향학회지, 제20권, 제2호, 27-34쪽, 2001년 2월.
  20. M. W. Jeong, B. C. Kim, and G. G. Lee, "Semantic-oriented error correction for spoken query processing", Proc. IEEE Workshop on ASRU, pp.156-161, Nov, 2003.

Cited by

  1. Vocabulary Recognition Performance Improvement using k-means Algorithm for GMM Support vol.13, pp.2, 2015, https://doi.org/10.14400/JDC.2015.13.2.135
  2. Noise Removal using a Convergence of the posteriori probability of the Bayesian techniques vocabulary recognition model to solve the problems of the prior probability based on HMM vol.13, pp.8, 2015, https://doi.org/10.14400/JDC.2015.13.8.295
  3. Voice Recognition Performance Improvement using the Convergence of Bayesian method and Selective Speech Feature vol.7, pp.6, 2016, https://doi.org/10.15207/JKCS.2016.7.6.007
  4. Voice Recognition Performance Improvement using a convergence of Voice Energy Distribution Process and Parameter vol.13, pp.10, 2015, https://doi.org/10.14400/JDC.2015.13.10.313
  5. Vocabulary Recognition Model using a convergence of Likelihood Principla Bayesian methode and Bhattacharyya Distance Measurement based on Vector Model vol.13, pp.11, 2015, https://doi.org/10.14400/JDC.2015.13.11.165
  6. Decision Tree State Tying Modeling Using Parameter Estimation of Bayesian Method vol.13, pp.1, 2015, https://doi.org/10.14400/JDC.2015.13.1.243
  7. Bayesian Method Recognition Rates Improvement using HMM Vocabulary Recognition Model Optimization vol.12, pp.7, 2014, https://doi.org/10.14400/JDC.2014.12.7.273
  8. 음성 신호 특징과 셉스트럽 특징 분포에서 묵음 특징 정규화를 융합한 음성 인식 성능 향상 vol.8, pp.5, 2011, https://doi.org/10.15207/jkcs.2017.8.5.013