Cyber Character Implementation with Recognition and Synthesis of Speech/lmage

음성/영상의 인식 및 합성 기능을 갖는 가상캐릭터 구현

  • Choe, Gwang-Pyo (Dept.of Electric Electronics Computer Engineering, Sungkyunkwan University) ;
  • Lee, Du-Seong (Dept.of Electric Electronics Computer Engineering, Sungkyunkwan University) ;
  • Hong, Gwang-Seok (Dept.of Electric Electronics Computer Engineering, Sungkyunkwan University)
  • 최광표 (성균관대학교 전기전자 및 컴퓨터공학부) ;
  • 이두성 (성균관대학교 전기전자 및 컴퓨터공학부) ;
  • 홍광석 (성균관대학교 전기전자 및 컴퓨터공학부)
  • Published : 2000.09.01

Abstract

In this paper, we implemented cyber character that can do speech recognition, speech synthesis, Motion tracking and 3D animation. For speech recognition, we used Discrete-HMM algorithm with K-means 128 level vector quantization and MFCC feature vector. For speech synthesis, we used demi-syllables TD-PSOLA algorithm. For PC based Motion tracking, we present Fast Optical Flow like Method. And for animating 3D model, we used vertex interpolation with DirectSD retained mode. Finally, we implemented cyber character integrated above systems, which game calculating by the multiplication table with user and the cyber character always look at user using of Motion tracking system.

본 논문에서는 음성인식, 음성합성, Motion Tracking, 3D Animation이 가능한 가상캐릭터를 구현하였다. 음성인식으로는 K-means 128 Level VQ와 MFCC의 특징패턴을 바탕으로 Discrete-HMM 알고리즘을 이용하였다. 음성합성에는 반음절 단위의 TD-PSOLA를 이용하였으며, Motion Tracking에서는 계산량을 줄이기 위해 Fast Optical Flow Like Method를 제안하고, 3D Animation 시스템은 Vertex Interpolation방법으로 Animation을 하고 Direct3D를 이용하여 Rendering을 하였다. 최종적으로 위에 나열된 시스템들을 통합하여 사용자를 계속적으로 주시하면서 사용자와 함께 구구단 게임을 할 수 있는 가상캐릭터를 구현하였다.

Keywords

References

  1. C.T. Waite, 'The Facial Action Control Editor, Face: a Parametric Facial Expression Editor for Computer Generated Animation', Master Thesis, Massachusetts Institute of Technology, Cambridge, Massachusetts, 1990
  2. 김웅순, 김영수, '3차원 캐릭터 애니메이션 기술 동향', 정보과학회지, 제17권2호, pp.48-59, 1999
  3. Microsoft DirectX 6.1 SDK Direct3DRM Document, 1998
  4. P. Ekman and W. V. Friensen. 'Facial Action Coding System', Consulting Psychologist Press, 1977
  5. F. Charpentier. E. Moulines, 'Pitch-synchronous wave-form processing techniques for text-to-speech synthesis using diphones' Proc. Eurospeech, pp. 2:13-19, 1989
  6. 배주채, '국어음운론 개설', 신구문화사, 1996
  7. 김종우 외 3, '지능적 휴먼-컴퓨터 인터페이스를 위한 무제한 음성합성 시스템 구현', 대한전자공학회 멀티미디어 연구회 창립학술발표, pp209-212, 1999
  8. Lawrence Rabiner, Biing-Hwang Juang, 'Fundamentals of Speech Recognition', Prentice Hall. 1993
  9. Chin-Hui Lee, Frank K.Soong, 'Automatic Speech and Speaker Recognition', Kluwer Academic Puhlishers, 1996
  10. Ramesh Jain, Rangachar Kasturi, Brian G. Schunck, 'MACHINE VISION', McGraw-Hill 1995
  11. Berthold Klaus Paul Horn, 'Robot Vision', MIT Press, 1986
  12. W.T. Freeman, 'Computer Vision for Interactive Computer Graphics', IEEE CGA, pp 42-53 May-June 1998 https://doi.org/10.1109/38.674971
  13. '한국어 맞춤법 통일안', 한글학회, http://www.hangeul.or.kr
  14. 이주상, 유지상 'MPEG-4 SNHC 기반 얼굴 객체의 구현' Telecommunication Review , 제8권 3호, pp 400-409, 1998
  15. 박재용, 박승수, '실시간 얼굴 애니메이션에서 효율적인 표정관리와 한글 립싱크', 한국정보과학회, HCI '99 학술대회, pp 675-686, 1999
  16. 최광표 외 3, '사이버 에이전트를 위한 3D얼굴 애니메이션', 한국정보처리학회, 제13회 산학연멀티미디어학술대회, pp204-207, 1999
  17. Nadia Magnenat Thalmann, 'Interactive Computer Animation', Prentice Hall, 1996