Abstract
In this paper, we concentrate on an efficient method to decrease a lot of pixel data to be processed with an Image transform based automatic lipreading It is reported that the image transform based approach, which obtains a compressed representation of the speaker's mouth, results in superior lipreading performance than the lip contour based approach But this approach produces so many feature parameters of the lip that has much data and requires much computation time for recognition To reduce the data to be computed, we propose a simple method folding at the vertical center of the lip-image based on the symmetry of the lip In addition, the principal component analysis(PCA) is used for fast algorithm and HMM word recognition results are reported The proposed method reduces the number of the feature parameters at $22{\sim}47%$ and improves hidden Markov model(HMM)word recognition rates at $2{\sim}3%$, using the folded lip-image compared with the normal method using $16{\times}16$ lip-image.
본 논문에서는 영상 변환 기반 자동 립리딩 알고리즘에서 처리하는 데이터 수를 효과적으로 감소시키는데 중점을 두었다 화자의 입술에 대한 압축된 정보를 갖는 영상 변환 방식이 입술 윤곽선 기반 방식보다 우수한 립리딩 성능을 보이지만 이 방식은 입술 특정 파라미터를 다수 갖게 되므로 데이터 처리량이 많아지고 인식시간이 길어지게 된다 계산되는 데이터를 줄이기 위해 우리는 엽술의 대칭성에 기반하여 입술영상을 수직으로 접는 간단한 방법을 제안한다 추가적으로 주성분 분석(PCA) 알고리즘을 사용하여 빠른 알고리즘을 고려하였고, HMM을 이용한 단어 인식실험 결과를 보인다 제안된 방법에서 접어진 입술영상을 이용한 결과, 일반적으로 $16{\times}16$ 입술영상을 사용하는 방법에 비해 특정파라미터 수가 $22{\sim}47%$ 감소하였고, HMM(hidden Markov model) 인식 알고리즘을 이용한 단어 인식률에서도 $2{\sim}3%$ 개선된 결과를 얻었다.