Time domain Filtering of Image for Lip-reading Enhancement

시간영역 이미지 필터링에 의한 립리딩 성능 향상

  • Lee Jeeeun (Multimedia DSP Lab., Dept. of Electronic Engineering, Chonnam Natl Univ.) ;
  • Kim Jinyoung (Multimedia DSP Lab., Dept. of Electronic Engineering, Chonnam Natl Univ.) ;
  • Lee Joohun (Dept. of Internet Broadcasting, Dong-Ah Broadcasting College)
  • 이지은 (전남대학교 전자공학과) ;
  • 김진영 (전남대학교 전자공학과) ;
  • 이주헌 (동아방송대학 인터넷 방송과)
  • Published : 2001.11.01

Abstract

립리딩은 잡음 환경 하에서 음성 인식 성능을 향상을 위해 영상정보를 이용한 바이모달(bimodal)음성인식으로 연구되었다[1][2]. 그 일환으로 이미 영상정보를 이용한 립리딩은 구현되었다. 그러나 현재까지의 시스템들은 환경의 변화에 강인하지 못하다. 본 논문에서는 이미지 기반 립리딩 방법을 적용하여 입술 영역을 보다 안정적으로 찾아 성능을 향상 시켰다. 그러나 이 방법은 많은 데이터량을 처리해야 하므로 전처리 과정이 필요하다. 전처리로 입력영상을 그레이 레벨로 변환하는 방법과, 입술을 반으로 접는 방법, 그리고 주성분 분석(PCA: Principal Component Analysis)을 사용하였다. 또한 인식성능 향상을 위해 음성에서 잡음 제거나 분석$\cdot$합성에 효과적인 성능을 보이는 RASTA(Relative Spectral)필터를 적용하여 시간 영역에서의 변화가 적은 성분이나 급변하는 성분, 그 밖의 잡음 등을 제거하였다. 그 결과 $72.7\%$의 높은 인식 성능을 보였다.

Keywords