입술의 대칭성에 기반한 효율적인 립리딩 방법

An Efficient Lipreading Method Based on Lip's Symmetry

  • Kim, Jin-Bum (Dept of Electronic Engineering, Chonnam National Univ.) ;
  • Kim, Jin-Young (Dept of Electronic Engineering, Chonnam National Univ.)
  • 발행 : 2000.09.25

초록

본 논문에서는 영상 변환 기반 자동 립리딩 알고리즘에서 처리하는 데이터 수를 효과적으로 감소시키는데 중점을 두었다 화자의 입술에 대한 압축된 정보를 갖는 영상 변환 방식이 입술 윤곽선 기반 방식보다 우수한 립리딩 성능을 보이지만 이 방식은 입술 특정 파라미터를 다수 갖게 되므로 데이터 처리량이 많아지고 인식시간이 길어지게 된다 계산되는 데이터를 줄이기 위해 우리는 엽술의 대칭성에 기반하여 입술영상을 수직으로 접는 간단한 방법을 제안한다 추가적으로 주성분 분석(PCA) 알고리즘을 사용하여 빠른 알고리즘을 고려하였고, HMM을 이용한 단어 인식실험 결과를 보인다 제안된 방법에서 접어진 입술영상을 이용한 결과, 일반적으로 $16{\times}16$ 입술영상을 사용하는 방법에 비해 특정파라미터 수가 $22{\sim}47%$ 감소하였고, HMM(hidden Markov model) 인식 알고리즘을 이용한 단어 인식률에서도 $2{\sim}3%$ 개선된 결과를 얻었다.

In this paper, we concentrate on an efficient method to decrease a lot of pixel data to be processed with an Image transform based automatic lipreading It is reported that the image transform based approach, which obtains a compressed representation of the speaker's mouth, results in superior lipreading performance than the lip contour based approach But this approach produces so many feature parameters of the lip that has much data and requires much computation time for recognition To reduce the data to be computed, we propose a simple method folding at the vertical center of the lip-image based on the symmetry of the lip In addition, the principal component analysis(PCA) is used for fast algorithm and HMM word recognition results are reported The proposed method reduces the number of the feature parameters at $22{\sim}47%$ and improves hidden Markov model(HMM)word recognition rates at $2{\sim}3%$, using the folded lip-image compared with the normal method using $16{\times}16$ lip-image.

키워드

참고문헌

  1. Rajeev Sharma, Vladimir I Pavlovic, Thomas S, Huang, 'Toward Multimodal Human-Computer Interface', Proceedings of the IEEE Vol86 No 5 May 1998. pp.853-869 https://doi.org/10.1109/5.664275
  2. Potamianos, G, Graf, H.P.; Cosatto, E, 'An image transform approach for HMM based automatic lipreading', Image Processing, 1998 ICIP98 Proceedings 1998, International Conference on, 1998, pp 173-177. vol.3 https://doi.org/10.1109/ICIP.1998.999008
  3. 민덕수, 김진영, 'Lipreading에 기반을 둔 HMM을 이용한 단어 인식', 신호처리 합동학술대회, 한국음향학회 발표, 1999년 10월
  4. Lievin M and Luthon F 'Lip features automatic extraction', Proc Of the 5th IEEE Int Conf. On Image Processing. Chicago, Illinois, 1998 https://doi.org/10.1109/ICIP.1998.727160
  5. Uwe Meier, Rainer Stiefelhagen, Jie Yang, 'Preprocessing of visual speech under real world conditions', Interactive Systems Lab European Tutorial & Research Workshop on Audio-Visual Speech Processing Computational & Cognitive Science Approaches (AVSP 97)
  6. Lawrence Rabiner, Biing- Hwang Juang, 'Fundamentals of Speech Recognition', Published by PTR Prentice-Hall, Inc pp.321-389. 1993
  7. 박병구, 김진영, 최승호, '잡음 환경 하에서의 바이모달 음성인식', '98 한국음향학회 학술발표대회 논문집 pp 111-114, 1998년 7월
  8. 박병구, 김진영, 임재열, '입술 파라미터 선정에 따른 바이모달 음성인식 성능 비교 및 검증', 한국음향학회지 제 18 권, 제 3 호, pp 68-72, 1999년 4월
  9. 박병구, 김진영, 최승호, '바이모달 음성인식의 음성정보와 입술정보 결합방법 비교', 한국음향학회지 제 18 권, 제 4 호, pp.31-37, 1999년 6월