A Study on the Features for Building Korean Digit Recognition System Based on Multilayer Perceptron

다층 퍼셉트론에 기반한 한국어 숫자음 인식시스템 구현을 위한 특징 연구

  • 김인철 (경북대학교 전자전기컴퓨터학부) ;
  • 김대영 (계명문화대학 멀티미디어계열)
  • Published : 2001.12.01

Abstract

In this paper, a Korean digit recognition system based on a multilayer Perceptron is implemented. We also investigate the performance of widely used speech features, such as the Mel-scale filterbank, MFCC, LPCC, and PLP coefficients, by applying them as input of the proposed recognition system. In order to build a robust speech system, the experiments for demonstrating its recognition performance for the clean data as well as corrupt data are carried out. In experiments of recognizing 20 Korean digit, we found that the Mel-scale filterbank coefficients performs best in terms of recognition accuracy for the speech dependent and speech independent database even though noise is considerably added.

본 논문에서는 한국어 숫자음 인식을 위해 다층 퍼셉트론을 이용한 인식시스템을 구현하였으며 음성인식 분야에서 일반적으로 널리 사용되는 여러 종류의 특징을 인식시스템의 입력으로 적용하여 각각의 인식 성능 및 특성을 알아보았다. 이를 위해 Mel-scale-Filterbank 계수, MFCC, LPCC, 그리고 PLP 계수를 입력 특징으로 사용하였다. 본 논문에서는 제한된 환경이 아닌 여러 종류의 잡음이 존재하는 일반적인 환경에서도 견실한 성능을 보일 수 있는 인식시스템을 구현하기 위해 잡음이 거의 포함되지 않은 음성 데이터뿐만 아니라 잡음이 첨가된 음성 데이터에 대해 인식 실험을 각각 수행하였다. 실험에서는 20개의 한국어 숫자음에 대한 인식 실험을 수행하였으며 그 결과로부터 Mel-scale Filterbank 계수가 잡음의 첨가 유무에 관계없이 화자 종속 및 화자 독립적인 음성 데이터에 대해 가장 견실한 인식 성능을 보임을 확인할 수 있었다.

Keywords