DOI QR코드

DOI QR Code

Lip-Synch System Optimization Using Class Dependent SCHMM

클래스 종속 반연속 HMM을 이용한 립싱크 시스템 최적화

  • 이성희 (고려대학교 전자컴퓨터공학과) ;
  • 박준호 (고려대학교 전자컴퓨터공학과) ;
  • 고한석 (고려대학교 전자컴퓨터공학과)
  • Published : 2006.10.31

Abstract

The conventional lip-synch system has a two-step process, speech segmentation and recognition. However, the difficulty of speech segmentation procedure and the inaccuracy of training data set due to the segmentation lead to a significant Performance degradation in the system. To cope with that, the connected vowel recognition method using Head-Body-Tail (HBT) model is proposed. The HBT model which is appropriate for handling relatively small sized vocabulary tasks reflects co-articulation effect efficiently. Moreover the 7 vowels are merged into 3 classes having similar lip shape while the system is optimized by employing a class dependent SCHMM structure. Additionally in both end sides of each word which has large variations, 8 components Gaussian mixture model is directly used to improve the ability of representation. Though the proposed method reveals similar performance with respect to the CHMM based on the HBT structure. the number of parameters is reduced by 33.92%. This reduction makes it a computationally efficient method enabling real time operation.

기존의 립싱크 시스템은 음소 분할 후, 각각의 음소를 인식하는 2단계의 과정을 거쳤다. 하지만, 정확한 음소 분할의 부재와 음성이 끊긴 분할 된 음소로 이루어진 훈련 데이터들은 시스템의 전체 성능을 크게 떨어뜨렸다. 이런 문제를 해결하기 위해 Head-Body-Tail (HBT) 모델을 이용한 단모음 연속어 인식 기술을 제안한다. 주로 소규모 어휘를 다루는데 적합한 HBT 모델은 Head 와 Tail 부분에 문맥 종속 정보를 포함하여 앞 뒤 문맥에 따른 조음효과를 최대한 반영한다. 또한, 7개의 단모음을 입모양이 비슷한 세 개의 클래스로 분류하여, 클래스에 종속적인 코드북 3개를 가진 반연속HMM (Hidden Markov Model)을 적용하여 시스템을 최적화하고, 변이 부분이 큰 단어의 처음과 끝은 연속HMM의 8 믹스쳐 가우시안 구조를 사용하여 모델링하였다. 제안한 방법은 HBT구조의 연속HW과 대등한 성능을 보이지만, 파라미터 수는 33.92% 감소하였다. 파라미터 감소는 계산 양을 줄여주므로, 시스템이 실시간으로 동작 가능하게 한다.

Keywords

References

  1. 이혜정, 정석태 '아바타 기반 교육용 멀티미디어 컨텐츠 저작시스템의 설계 및 구현', 한국해양정보통신학회논문지 8 (5) 1042-1049, 2004
  2. F.J. Huang, T. Chen, 'Real-Time Up-Synch Face Animation Driven By Human Voice' Proc. IEEE Workshop on Multimedia Signal Processing, 352-357, 1998
  3. M. Brand, 'Voice Puppetry' Proceedings of SIGGRAPH' 99, 21-28, 1999
  4. T.Chen and R.Rao, 'Audio-visual integration in multi modal communication', Proceedings of IEEE, Special Issue on Multimedia Signal Processing, 837-852, 1998 https://doi.org/10.1109/5.664274
  5. T. Kim, Y. Kang, H. Ko. 'Achieving Real -Time Lip Synch via SVM-Based Phoneme Classification and Lip Shape Refinement,' ICMI, Fourth IEEE International Conference on Multimodal Interfaces (ICMI'02), 299-304, 2002
  6. W. Chou, C. -H. Lee, B. -H. Huang, 'Minimum Error Rate Training of Inter-Word Context-Dependent Acoustic Model Units in Speech Recognition', Proceeding ICSLP, 439-442, 1994
  7. M. B. Gandhi, J. Jacob, 'Natural Number Recognition using MCE Trained Inter-Word Context-Dependent Acoustic Models,' Proceedings ICASSP, pp, 457-460, 1998
  8. 주희열, 강선미, 고한석, '음소인식 기반의 립싱크 구현을 위한 한국어 음운학적 Viseme의 제안', 한국음향학회, 70-73, 1999
  9. 신지영, '모음-자음-모음 연결에서 자음의 조음특성과 모음-모음 동시조음', 음성과학, 1226-5276, 1 55-81, 1997
  10. J. R. Bellegarda, D.Nahamoo, 'Tied Mixture Continuous Parameter Modeling for Speech Recognition.' IEEE Trans. Acoustic Speech Signal Processing, 38 2033-2045, 1990 https://doi.org/10.1109/29.61531
  11. X. D. Huang, 'Phoneme Classification using Semi continuous hidden Markov Models' IEEE Trans. Acoustic Speech Signal Processing, 40 1062-1067, 1992 https://doi.org/10.1109/78.134469