The Journal of the Acoustical Society of Korea
- Volume 13 Issue 2E
- /
- Pages.58-67
- /
- 1994
- /
- 1225-4428(pISSN)
A Real-Time Implementation of Isolated Word Recognition System Based on a Hardware-Efficient Viterbi Scorer
효율적인 하드웨어 구조의 Viterbi Scorer를 이용한 실시간 격리단어 인식 시스템의 구현
- Cho, Yun-Seok (Department of Electronic Engineering, Handong University) ;
- Kim, Jin-Yul (Department of Electronic Engineering The University of Suwon) ;
- Oh, Kwang-Sok (Samsung Electronics Co., LTD) ;
- Lee, Hwang-Soo (Department of Information and communication Engineering KAIST)
- Published : 1994.01.01
Abstract
Hidden Markov Model (HMM)-based algorithms have been used successfully in many speech recognition systems, especially large vocabulary systems. Although general purpose processors can be employed for the system, they inevitably suffer from the computational complexity and enormous data. Therefore, it is essential for real-time speech recognition to develop specialized hardware to accelerate the recognition steps. This paper concerns with a real-time implementation of an isolated word recognition system based on HMM. The speech recognition system consists of a host computer (PC), a DSP board, and a prototype Viterbi scoring board. The DSP board extracts feature vectors of speech signal. The Viterbi scoring board has been implemented using three field-programmable gate array chips. It employs a hardware-efficient Viterbi scoring architecture and performs the Viterbi algorithm for HMM-based speech recognition. At the clock rate of 10 MHz, the system can update about 100,000 states within a single frame of 10ms.
HMM을 이용한 알고리즘은 대용량 음성인식 시스템을 비롯하여 많은 시스템에 적용되어 왔다. 음성인식 시스템을 범용의 프로세서들을 가지고 구현할 경우 많은 계산량과 데이터들로 말미암아 실시간의 성능을 얻을 수 없다. 따라서 실시간 음성인식을 위해서는 인식을 가속화 시키기 위한 전용 하드웨어를 개발하는 것이 요구되어진다. 본 논문에서는 HMM을 이용한 격리단어 인식 시스템을 구현하는 내용을 다루고 있다. 음성인식 시스템은 호스트 컴퓨터와 DSP 보드 그리고 프로토타입 Viterbi scoring 보드로 이루어져 있다. 음성신호로부터 특징 벡터를 추출하는 과정은 DSP 보드에서 이루어지고, Viterbi scoring 보드는 세 개의 field-programmable gate array 칩들을 사용하여 설계되었다. Viterbi scoring 보드는 하드웨어적으로 효율적인 Viterbi scoring 구조를 채택하고 있고 음성인식을 위한 Viterbi 알고리즘을 수행한다. 제작된 시스템은 10MHz로 동작하고, 한 프레임 즉 10ms 동안에 100.000 스테이트를 처리할 수 있다.
Keywords