Phoneme Recognition using Temporal and Spectral Features based on Spikegram

스파이크그램 기반의 주파수 및 시간 특성을 이용한 음소 인식

  • Published : 2019.06.19

Abstract

본 논문에서는 스파이크그램 기반의 주파수 및 시간 특성을 이용한 음속 인식 방법을 제안한다. 기존의 MFCC 특성은 프레임 단위의 평균 특성이기 때문에 시간 해상도가 낮고, 짧은 음소의 특성을 반영하기에는 어렴움이 있다. 반면, 스파이크그램은 청각 모델을 기반으로 샘플 단위로 계산하기 때문에높은 시간 해상도를 가진다. 고 해상도의 스파이크그램을 분석하면 음소 인식에 특화된 특성 벡터를 추출할 수 있다. 추출된 특성으로 심층 신경망을 학습시켜 음소 인식기를 구현하였고, TMIT 테이터 세트로 성능을 평가하였다. 성능 평가를 통하여 스파이크그램 기반의 새로운 시간-주파수 특성을 사용하여 MFCC 특성과 유사한 성능의 음소인식이 가능한 것을 확인하였다.

Keywords