Vowel Recognition Using the Fractal Dimension

프랙탈 차원을 이용한 모음인식

  • Published : 1994.06.01

Abstract

In this paper, we carried out some experiments on the Korean vowel recognition using the fractal dimension of the speech signals. We chose the Minkowski-Bouligand dimension as the fractal dimension, and computed it using the morphological covering method. For our experiments, we used both the fractal dimension and the LPC cepstrum which is conventionally known to be one of the best parameters for speech recognition, and examined the usefulness of the fractal dimension. From the vowel recognition experiments under various consonant contexts, we achieved the vowel recognition error rates of 5.6% and 3.2% for the case with only LPC cepstrum and that with both LPC cepstrum and the fractal dimension, respectively. The results indicate that the incorporation of the fractal dimension with LPC cepstrum gives more than 40% reduction in recognition errors, and indicates that the fractal dimension is a useful feature parameter for speech recognition.

본 논문에서는 음성신호의 프랙탈 차원을 이용하여 한국어 모음인식 실험을 수행하였다. 프랙탈 차원은 Minkowski-Bouligand 차원을 사용하였으며, 형태학적 커버링(morphological covering) 방법을 이용하여 구하였다. 프렉탈 차원과 더불어 기존에 우수한 음성 인식 파라메타로 알려져 있는 LPC 켐스트럼(cepstrum)을 함께 사용하였으며, 프랙탈 차원의 음성인식에의 유용성 여부를 조사하였다. 다양한 자음환경에서의 모음인식 실험결과, LPC 켐스트럼 만을 사용하는 경우 및 프렉탈 차원과 LPC 켐스트럼을 함께 사용하는 경우의 모음 오인식율이 각각 5.6% 및 3.2%로 얻어졌다. 이는 LPC 켑스트럼에 프렉탈 차원을 추가함으로써 오인식되는 데이터가 40%이상 감소되는 결과이며, 프랙탈 차원이 음성인식에 있어서 유용한 특징 파라메터임을 보여준다.

Keywords