A study on data augmentation methods for sound data classification

소리 데이터 분류에 대한 데이터 증대 방법 연구

  • Chang, Il-Sik (Dept. of Information Technology and Media Engineering Seoul National University of Science and Technology) ;
  • Park, Goo-man (Dept. of Electronics and IT Media Engineering Seoul National University of Science and Technology)
  • 장일식 (서울과학기술대학교 나노IT디자인융합대학원 정보통신미디어공학전공) ;
  • 박구만 (서울과학기술대학교 전자미디어IT공학과)
  • Published : 2022.06.20

Abstract

소리 데이터 분류는 단순 소리를 통한 분류, 감정 인식등 다양한 연구가 진행중이다. 심층 신경망에서 데이터의 부족과 과적합 문제를 개선하는 방법으로 데이터 증강은 중요하다. 본 논문에서는 3가지의 소리데이터(UrbanSound8K, RAVDESS, IRMAS)를 사용하였으며, 소리데이터는 멜 스펙트로그램을 통한 변환과정을 거쳐 네트워크 망에 입력된다. 입력된 신호는 다양한 네크워크 신경망(Bidirection LSTM, Bidirection LSTM Attention, Multi-Head Attention, CNN)을 통해 학습되어지며, 각각의 네트워크 신경망에서 데이터 증강 전후의 분류 정확도를 확인 하였다. 다양한 데이터셋과 다양한 네트워크 망에서의 데이터 증강 방법의 결과 비교를 통한 통찰을 얻을수 있을 것이다.

Keywords