Abstract
This paper proposes the speech and noise recognition system by using a neural network in order to detect the speech and noise sections at each frame. The proposed neural network consists of a layered neural network training by back-propagation algorithm. First, a power spectrum obtained by fast Fourier transform and linear predictive coefficients are used as the input to the neural network for each frame, then the neural network is trained using these power spectrum and linear predictive coefficients. Therefore, the proposed neural network can train using clean speech and noise. The performance of the proposed recognition system was evaluated based on the recognition rate using various speeches and white, printer, road, and car noises. In this experiment, the recognition rates were 92% or more for such speech and noise when training data and evaluation data were the different.
본 논문에서는 음성 및 잡음 구간을 검출하기 위하여 신경회로망에 의한 음성 및 잡음 인식시스템을 제안한다. 제안하는 신경회로망은 오차역전파알고리즘에 의하여 학습되는 네트워크이다. 먼저, 고속 푸리에변환에 의한 전력스펙트럼 및 선형예측계수가 각 프레임에서 신경회로망의 입력으로 사용되어 네트워크가 학습된다. 따라서 제안된 신경회로망은 잡음이 중첩되지 않은 음성 및 잡음을 사용하여 학습된다. 제안한 인식시스템의 성능은 다양한 음성 및 백색, 프린터, 도로, 자동차 잡음 들을 사용하여 인식율에 의하여 평가된다. 본 실험에서는 신경회로망의 학습 데이터 및 평가 데이터가 다를 경우에도 이러한 음성 및 잡음에 대하여 92% 이상의 인식율을 구할 수 있었다.