DOI QR코드

DOI QR Code

Vocabulary Recognition Retrieval Optimized System using MLHF Model

MLHF 모델을 적용한 어휘 인식 탐색 최적화 시스템

  • 안찬식 (광운대학교 컴퓨터공학과) ;
  • 오상엽 (경원대학교 IT대학 컴퓨터소프트웨어)
  • Published : 2009.10.31

Abstract

Vocabulary recognition system of Mobile terminal is executed statistical method for vocabulary recognition and used statistical grammar recognition system using N-gram. If limit arithmetic processing capacity in memory of vocabulary to grow then vocabulary recognition algorithm complicated and need a large scale search space and many processing time on account of impossible to process. This study suggest vocabulary recognition optimize using MLHF System. MLHF separate acoustic search and lexical search system using FLaVoR. Acoustic search feature vector of speech signal extract using HMM, lexical search recognition execution using Levenshtein distance algorithm. System performance as a result of represent vocabulary dependence recognition rate of 98.63%, vocabulary independence recognition rate of 97.91%, represent recognition speed of 1.61 second.

모바일 단말기의 어휘 인식 시스템에서는 통계적 방법에 의한 어휘인식을 수행하고 N-gram을 이용한 통계적 문법 인식 시스템을 사용한다. 인식 대상이 되는 어휘의 수가 증가하면 어휘 인식 알고리즘이 복잡해지고 대규모의 탐색공간을 필요로 하게 되며 처리시간이 길어지므로 제한된 연산처리 능력과 메모리로는 처리하기가 불가능하다. 따라서 본 논문에서는 이러한 단점을 개선하고 어휘 인식을 최적화하기 위하여 MLHF 시스템을 제안한다. MLHF는 FLaVoR의 구조를 이용하여 음향학적 탐색과 언어적 탐색을 분리하여 음향학적 탐색에서는 HMM을 사용하고 언어적 탐색 단계에서는 Levenshtein distance 알고리즘을 사용한다. 시스템 성능 평가 결과 어휘 종속 인식률은 98.63%, 어휘 독립 인식률은 97.91%의 인식률을 나타냈으며 인식속도는 1.61초로 나타내었다.

Keywords

References

  1. S. Young, D. Kershaw, J. Odell, D. Ollason, Valtcher, P. Woodland, "The HTK Boos" Cambridge University Engineering Department, 2002.
  2. L. R. Rabiner, B. H. Juang, "Fundamentals of speech recognition", Prentice Hall, 1993.
  3. Kris Demuynck. Tom Laureys, Dirk van Compernolle, and Hugo van Hamme, "FLaVor:a flexible architecture for LVCSR," In EUROSPEECH-2003, pp. 1973-1976, 2003.
  4. K. Demuynck, J. Duchateau, and D. Van Compernolle, "A static lexicon network representation for cross-word context dependent phones," In Proc. EUROSPEECH, Vol.1. pp, 143-146, 1997,
  5. 윤경섭, "휴대용 단말기를 위한 실시간 무선영상 음성 전송 기술." 한국컴퓨터정보학회논문지, 제 14권, 제 4호, 111-117쪽, 2009년 4월.
  6. D. Jurafsky and J. H. Martin, "Speech and Language Processing," Prentice-Hall, 2000.
  7. M. F. Gales, "Model-based techniques for nosie robust speech recognition," Ph. D. dissertation, University of Cambridge, Sept, 1995.
  8. A. S. Manos and V. W. Zue, "A study on out-of-vocabulary word modeling for a segment-based keyword spotting system," Master Thesis, MIT, 1996.
  9. 조영수, 이기정, 김광태, 홍재근, " HMM을 이용한 한국어 음소인식 (Korean Phoneme Recognition using HMM)." 대한전자공학회 학술발표회 논문집, 제 16권, 제 1호, 81-84쪽. 1994년.
  10. 김동주, 김한우, "문맥가중치가 반영된 문장 유사도 척도." 전자공학회 논문지, 제 43권, 제 6호, 496-504쪽, 2006년.
  11. Justin Zobel and Philip Dart "Phonetic String Matching : Lessons from Information Retrival." SIGIR'96, pp. 166-173, 1996.
  12. T. Jitsuhiro, S. Takatoshi. and K. Aikawa. "Rejection of out-of-vocabulary words using phoneme confidence likelihood," ICASSP, pp. 217-220, 1998.
  13. 지진구, 윤성일. "음성을 이용한 하자 검증기 설계 및 구현." 한국컴퓨터정보학회논문지, 제 5권, 제 3호, 91-98쪽, 2000년. 9월.
  14. 김기백, 최종호. "음성인식 기반 컨텐츠 네비게이션 시스템." 한국컴퓨터정보학회지, 제 15권 제 1호, 99-102쪽, 2007년.
  15. L. Rabiner and B. H. Juang, "Fundamentals of Speech Recognition," Prentice-Hall, 1993.
  16. Eiichi Tanaka and Tamotsu Kasai. "Synchronization and Substitution Error-correcting codes for the Levenshtein Metric," IEEE Trans. Information Theory, Vol.IT-22. No.2, pp. 156-176, 1976.
  17. L. R. Bahl, P. V. deSouza. P. S. Gopalakrishnan. D. Nahamoo, and M. Picheny, "A Fast Match for Continuous Speech Recognition Using Allophonic Models," InProc. IEEE ICASSP-92, Vol.1, pp. 17-21. 1992.
  18. S. Ortmanns. A. Eiden, H. Ney. and N. Coenen, "Look-ahead Techniques for Fast Beam Search," InProc. IEEE ICASSP-1997, pp. 1783-1786, 1997.
  19. W. Daelemans, S. Buchholz, and J. Veenstra, "Memorybased shallow parsing," in Proc. CoNLL, pp. 53-60, 1999.
  20. Justin Zobel and Philip Dart "Phonetic String Matching: Lessons from Information Retrieval," SIGIR'96, pp. 166-173, 1996.