A Study on Lip-reading Enhancement Using Time-domain Filter

시간영역 필터를 이용한 립리딩 성능향상에 관한 연구

  • 신도성 (전남대학교 전자공학과) ;
  • 김진영 (전남대학교 정보통신공학부 & RRC HECS) ;
  • 최승호 (동신대학교 정보통신공학과)
  • Published : 2003.07.01

Abstract

Lip-reading technique based on bimodal is to enhance speech recognition rate in noisy environment. It is most important to detect the correct lip-image. But it is hard to estimate stable performance in dynamic environment, because of many factors to deteriorate Lip-reading's performance. There are illumination change, speaker's pronunciation habit, versatility of lips shape and rotation or size change of lips etc. In this paper, we propose the IIR filtering in time-domain for the stable performance. It is very proper to remove the noise of speech, to enhance performance of recognition by digital filtering in time domain. While the lip-reading technique in whole lip image makes data massive, the Principal Component Analysis of pre-process allows to reduce the data quantify by detection of feature without loss of image information. For the observation performance of speech recognition using only image information, we made an experiment on recognition after choosing 22 words in available car service. We used Hidden Markov Model by speech recognition algorithm to compare this words' recognition performance. As a result, while the recognition rate of lip-reading using PCA is 64%, Time-domain filter applied to lip-reading enhances recognition rate of 72.4%.

현재 음성인식 분야에서는 잡음이 심한 환경에서 음성 인식률을 향상시킬 수 있는 바이모달의 한 형태인 립리딩 기술에 관한 연구가 활발히 진행되고 있다. 립리딩 연구에 있어서 가장 중요한 것은 정확한 입술 이미지를 찾아내는 것이다. 그러나 조명변화, 화자의 발음습관, 입술 모양의 다양성, 입술의 회전과 크기 변화 등의 환경 변화 요인 때문에 안정적인 성능을 예측하기가 힘든 실정이다. 본 논문에서는 보다 안정적 성능을 얻기 위해 시간영역에서 이미지를 임펄스 응답 필터링을 수행을 통해 향상된 인식성능을 보였다. 또한 본 연구에서는 입술 전체 영상을 대상으로 처리하는 립리딩 기법의 사용으로 인해 발생하는 데이터 용량 증가를 고려해 영상의 정보는 손실하지 않고 그 특징만을 추출하여 데이터의 양을 줄일 수 있는 주성분 분석을 전처리 과정으로 사용하였다. 본 연구에서는 영상정보만을 사용하여 음성인식 성능 관찰을 위해 자동차 내에서 서비스가 가능한 22단어를 선정하여 인식실험을 하였다. 이 단어들의 인식 성능을 비교하기 위하여 음성 인식 알고리듬으로 잘 알려진 HMM(Hidden Markov Model)을 이용하였다. 실험결과 PCA(Principal component Analysis)하였던 경우 립리딩이 64%의 인식률을 보인 반면, 시간영역필터를 립리딩에 적용시 72.7%로 인식률의 향상을 보였다.

Keywords

References

  1. Proceedings of the IEEE v.86 no.5 Toward multimodal human-computer interface R.Sharma;V.I.Pavlovic;T.S.Huang
  2. Processing of the Int. Conf. On Image Processing An image transform approach for HMM based automatic lipreading G.Potamianosm;H.P.Graf;Eric Cosatto
  3. Proc. IEEE int. Conf. On Acoustics, Speech and Signal Processing Eigenlips' for robust speech recognition C.Bregler;Y.Konig
  4. IEEE Signal Processing Litt. v.2 Lip-syncronization using speech-assisted video processing T.Chen;H.P.Graf;K.Wang https://doi.org/10.1109/97.376913
  5. Computer vision and Image Undestanding v.65 no.2 Speechreading using probabilistic models J.Luettin;N.A.Tracker https://doi.org/10.1006/cviu.1996.0570
  6. ICPR Space-variant active vision and visually guided robotics G.Engel;D.Greve;E.Schwartz
  7. 한국음향학회지 v.18 no.3 입술 파라미터 선정에 따른 바이모달 음성인식 성능 비교 및 검증 박병구;김진영;임재열
  8. 한국음향학회지 v.18 no.4 바이모달 음성인식의음성정보와 입술정보 결합방법비교 박병구;김진영;최승호
  9. 한국음향학회지 v.21 no.5 동적 환경에서의 립리딩 인식성능저하 요인분석에 대한 연구 신도성;김진영;이주헌
  10. IEEE Transaction on Speech and Audio Processing v.2 RASTA Processing of Speech H.Hermansky;N.Morgan