필터뱅크를 이용한 한국어 숫자음 인식 다이얼링 시스템

Korean Digit Speech Recognition Dialing System using Filter Bank

  • 발행 : 2000.12.01

초록

본 논문은 한국어 숫자음 인식을 HMM과 DTW 프로그램을 사용한 필터 뱅크로 수행하였다. 스펙트럼 분석은 주로 성도의 모양에 의한 음성 신호 특징을 나타낸다. 그리고 음성의 스펙트럼 특징은 일반적으로 정의된 주파수 범위에서 적절하게 집중된 스펙트럼, 즉 필터뱅크를 통과해 나가는 것에 의해 얻을 수 있다. 또한 8 개의 밴드 패스 필터는 인간 귀의 지각적인 청취력에 의해 나누었다. 정의된 주파수 범위는 320-330, 450-460, 640-650, 840-850, 900-1000, 1100-1200, 2000-2100, 3900-4000㎐이고, 샘플링 주파수는 8㎑ 이다. 그리고 프레임 폭은 20㎳, 주기는 10㎳이다. 실험 결과는 한국어 숫자음 음성인식에 대해 필터 뱅크를 사용하는 경우 HMM보다 DTW의 인식율이 더 높은 인식율이 나오는 것을 확인 할 수가 있었다. 필터 뱅크를 이용한 한국어 숫자음 인식율은 24차 밴드패스필터에서 93.3%, 16차 밴드패스필터에서, 89.1%, 8차 밴드 패스필터의 하드웨어 음성 다이얼링 시스템에서 88.9%의 인식율을 나타내었다.

In this study, speech recognition for Korean digit is performed using filter bank which is programmed discrete HMM and DTW. Spectral analysis reveals speech signal features which are mainly due to the shape of the vocal tract. And spectral feature of speech are generally obtained as the exit of filter banks, which properly integrated a spectrum at defined frequency ranges. A set of 8 band pass filters is generally used since it simulates human ear processing. And defined frequency ranges are 320-330, 450-460, 640-650, 840-850, 900-1000, 1100-1200, 2000-2100, 3900-4000Hz and then sampled at 8kHz of sampling rate. Frame width is 20ms and period is 10ms. Accordingly, we found that the recognition rate of DTW is better than HMM for Korean digit speech in the experimental result. Recognition accuracy of Korean digit speech using filter bank is 93.3% for the 24th BPF, 89.1% for the 16th BPF and 88.9% for the 8th BPF of hardware realization of voice dialing system.

키워드