Abstract
In the research of speech recognition, locating the beginning and end of a speech utterance in a background of noise is of great importance. The conventional methods for speech endpoint detection are based on two simple time-domain measurements-short-time energy, and short-time zero-crossing rate, which couldn't guarantee the precise results if in the low signal-to-noise ratio environments. This paper proposes a novel approach that finds the Lyapunov exponent of time-domain waveform. This proposed method has no use for obtaining the frequency-domain parameters for endpoint detection process, e.g. Mel-Scale Features, which have been introduced in other paper. Accordingly, this algorithm is low complexity and suitable for Digital Isolated Word Recognition System.
음성 인식 연구에서 잡음이 존재하는 음성 발음의 처음과 끝을 찾아내는 것은 매우 중요하다. 음성 종점 탐지를 위한 기존의 방식으로는 2개의 간단한 시간 영역 측정법인 단시간 에너지와 단시간 영점교차 비율 방법이 있다. 위의 방법들은 낮은 신호 대 잡음비의 환경에서는 정확한 결과를 보장 할 수 없기 때문에 본 논문에서는 시간 영역 파형의 리아프노프 지수를 이용하여 음성의 시작과 종점을 구별하는 새로운 접근법을 제시하였다. 제안한 방법은 Mel-Scale특징 방법에서 요구되는 종점 탐지 과정을 위한 주파수 영역 매개변수를 얻는 과정이 필요 없기 때문에 보다 간단하다. 제안한 방법의 성능 검증을 위해 아라비아 숫자의 음성단어 분석에 적용해 보았으며, 결과를 통하여 제안한 방법이 인식률을 현저히 증가시킴을 확인하였다.