Korean isolated word recognizer using new time alignment method of speech signal

새로운 시간축 정규화 방법을 이용한 한국어 고립단어 인식기

  • Nam, Myeong-U (Dept.of Electronics Engineering, University of Seoul) ;
  • Park, Gyu-Hong (Dept.of Electronics Engineering, University of Seoul) ;
  • No, Seung-Yong (Dept.of Electronics Engineering, University of Seoul)
  • 남명우 (서울시립대학교 전자공학과) ;
  • 박규홍 (서울시립대학교 전자공학과) ;
  • 노승용 (서울시립대학교 전자공학과)
  • Published : 2001.09.01

Abstract

This paper suggests new method to get fixed size parameter from different length of voice signals. The efficiency of speech recognizer is determined by how to compare the similarity(distance of each pattern) of the parameter from voice signal. But the variation of voice signal and the difference of speech speed make it difficult to extract the fixed size parameter from the voice signal. The method suggested in this paper is to normalize the parameter at fixed size by using the 2 dimension DCT(Discrete Cosine Transform) after representing the parameter by spectrogram. To prove validity of the suggested method, parameter extracted from 32 auditory filter-bank(it estimates auditory nerve firing probabilities) is used for the input of neural network after being processed by 2 dimension DCT. And to compare with conventional methods, we used one of conventional methods which solve time alignment problem. The result shows more efficient performance and faster recognition speed in the speaker dependent and independent isolated word recognition than conventional method.

본 논문에서는 음성신호의 발성길이와 상관없이 일정한 크기의 파라미터를 얻을 수 있는 새로운 방법을 제안하였다. 음성인식기의 성능은 음성신호에서 추출된 파라미터간의 유사도(패턴간의 거리)를 어떻게 비교하는지에 따라 결정된다. 그러나 화자에 따른 음성신호의 변이나 발성속도의 차이는 음성신호에서 일정한 크기의 파라미터 추출을 어렵게 한다. 제안한 방법은 음성신호에서 얻어진 파라미터를 스펙토그램의 형태로 표현한 뒤 2차원 DCT(Discrete Cosine Transform)를 이용해 일정한 크기의 파라미터로 정규화시키는 방법이다. 제안한 방법의 유효성을 입증하기 위해 청각세포를 모델링한 32개의 대역통과 필터로부터 얻어진 음성신호의 파라미터를 2차원 DCT 방법으로 가공한 후, 신경 회로망의 입력으로 사용하였다. 또한 기존 방법과의 인식률 비교를 위해 기존의 정규화된 입력을 구하는 방법 중 하나를 선택하여 비교 실험을 수행하였다. 실험결과 제안한 방법은 기존 방법에 비해 화자종속 및 화자독립 고립단어 인식에서 더 높은 인식률과 빠른 인식속도를 얻을 수 있었다.

Keywords

References

  1. Ghitza, O., 'Auditory models and human performance in tasks related to speech coding and speech recognition', Speech and Audio Processing, IEEE Transactions on, vol 2, issue 1, part 2, pp. 115-132, Jan. 1994 https://doi.org/10.1109/89.260357
  2. J.L. Goldstein, 'Modeling rapid waveform compression on the basilar membrane as a multiple-bandpass-nonlinearity filtering', Hearing Res., vol. 49, pp.33-60, 1990 https://doi.org/10.1016/0378-5955(90)90094-6
  3. G. K. Wallace, 'The JPEG still picture compression standard', IEEE Trans. Consumer Electron. vol 38 no.1, pp.18-34, Feb. 1992 https://doi.org/10.1109/30.125072
  4. 오영환, 음성언어정보처리, 홍릉과학출판사, 1997
  5. Jianping Huang, Anthony Kuh, 'A neural network isolated word recognition system for moderate sized databases', Neural Networks, IEEE International Conference on, vol. 1, pp. 387-391, 1993 https://doi.org/10.1109/ICNN.1993.298588
  6. M.T. Hagan, H.B.Demuth, M. Beale, Neural network design (PWS Publishing Company. 1996)
  7. Figueiredo, F.L.;Violaro, F., 'An isolated word speech recognition system based on Kohonen neural network', Neural Networks, 1998. Proceedings. Vth Brazilian Symposium on, pp.151-156, 1998 https://doi.org/10.1109/SBRN.1998.731014
  8. Lawrence Rabiner and Biing-Hwang Juang, Fundamentals of speech recognition (Prentice-Hall International, Inc. 1993)
  9. Shan Zhu; Dao Wen Chen; Tai Yi Huang, 'Feature parameter curve method for high performance NN-based speech recognition', Acoustics, Speech, and Signal Processing, ICASSP-96. Conference Proceedings., IEEE Internatinal Conference on, vol 1, pp. 1-4, 1996 https://doi.org/10.1109/ICASSP.1996.540275