Variable Rate IMBE-LP Coding Algorithm Using Band Information

주파수대역 정보를 이용한 가변률 IMBE-LP 음성부호화 알고리즘

  • Park, Man-Ho (Electronics and Telecommunications Research Institute) ;
  • Bae, Geon-Seong (Dept.of Electronics Engineering, Graduate School of Kyungpook National University)
  • 박만호 (한국전자통신연구원) ;
  • 배건성 (경북대학교 전자·전기공학부)
  • Published : 2001.09.01

Abstract

The Multi-Band Excitation(MBE) speech coder uses a different approach for the representation of the excitation signal. It replaces the frame-based single voiced/unvoiced classification of a classical speech coder with a set of such decision over harmonic intervals in the frequency domain. This enables each speech segment to be a mixture of voiced and unvoiced, and improves the synthetic speech quality by reducing decision errors that might occur on the frame-based single voiced and unvoiced decision process when input speech is degraded with noise. The IMBE-LP, improved version of MBE with linear prediction, represents the spectral information of MBE model with linear prediction coefficients to obtain low bit rate of 2.4 kbps. In this Paper, we proposed a variable rate IMBE-LP vocoder that has lower bit rate than IMBE-LP without degrading the synthetic speech quality. To determine the LP order, it uses the spectral band information of the MBE model that has something to do with he input speech's characteristics. Experimental results are riven with our findings and discussions.

MBE(Multi-Band Excitation) 음성부호화 방식은 프레임 단위로 유/무성음을 구분하는 기존의 분석-합성 방식과는 달리 한 프레임 내에서의 주파수 영역을 여러 대역으로 나누고, 각 대역별로 유/무성음 구간을 판정하여 그에 맞는 여기신호를 이용하여 음성을 합성한다. 이러한 MBE 방식은 프레임 단위로 유/무성음을 구분하는 기존의 방식들이 갖는 합성음의 buzziness 영향이나 잡음이 섞인 음성을 분석할 때 생길 수 있는 유/무성음 판정 오류의 영향을 최소화함으로써 음질 향상을 이룰 수 있다. IMBE-LP 방식은 MBE 방식을 이용하여 2.4 kbps의 저전송률을 얻기 위한 음성부호화 알고리즘으로 MBE 모델에서 사용되는 각 대역별 스펙트럼 정보를 LP(Linear Prediction) 계수로 모델링 한다. 본 연구에서는 2.4 kbps IMBE-LP 알고리즘을 구현하고, 주파수대역 정보를 이용하여 분석프레임의 음성특성에 따라 LP차수를 달리 함으로써 전송률을 줄일 수 있는 방법을 제안하고 실험하였다.

Keywords

References

  1. D. W. Griffin and J. S. Lim, 'Multiband Excitation Vocoder,' IEEE Transactions on ASSP, Vol.36, No.8, August 1988 https://doi.org/10.1109/29.1651
  2. M. S. Brandstein et. al., 'A Real-Time Implementation of The Improved MBE Speech Coder,' Proc. of ICASSP, pp.5-8, April 1990 https://doi.org/10.1109/ICASSP.1990.115523
  3. INMARSAT-M Voice Coding System Description (DRAFT version 1.3), Feburary 1991
  4. A. M. Kondoz, DIGITAL SPEECH coding for low bit rate communication systems, John Wiley and Sons
  5. Digital Voice System, Inc. 'APCO Project 25 Vocoder Descripition,' July 1993
  6. C.V. Pavlovic, M. Rossi, and R. Espesser, 'Use of the Magnitude Estimation Technique for Assessing the Performance of Text-to-Speech Synthesis System,' J. Acoust. Soc. Am., Vol. 87, pp. 373-381, 1990 https://doi.org/10.1121/1.399258
  7. D.B. Pisoni, B.G. Greene, and H.C. Nusbaum, 'Some Human Factors Issues in the Perception of Synthetic Speech,' Proc. Speech Tech '85, New York, pp. 57-61, 1985
  8. D.B. Pisoni, H.C. Nusbaum, and B.G. Greene, 'Perception of Synthetic Speech Generated by Rule,' Proceedings IEEE, Vol. 73, pp. 1665-1676, 1985
  9. Pasi Ojala and Ari Lakaniemi, 'Variable Model Order LPC Quantization,' Proc. of the IEEE ICASSP, Vol.1, pp.49-52, May 1998 https://doi.org/10.1109/ICASSP.1998.674364
  10. QUALCOMM Inc. TIA/EIA IS-96 Interim Standard. 'Speech service option standard for wideband spread spectrum digital cellular system,' April 1993