A study on data augmentation methods for sound data classification

Chang, Il-Sik;Park, Goo-man;

Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)

2022.06a
/
Pages.1308-1310
/
2022

The Korean Institute of Broadcast and Media Engineers (한국방송∙미디어공학회)

A study on data augmentation methods for sound data classification

소리 데이터 분류에 대한 데이터 증대 방법 연구

Chang, Il-Sik (Dept. of Information Technology and Media Engineering Seoul National University of Science and Technology) ;
Park, Goo-man (Dept. of Electronics and IT Media Engineering Seoul National University of Science and Technology)

장일식 (서울과학기술대학교 나노IT디자인융합대학원 정보통신미디어공학전공) ;
박구만 (서울과학기술대학교 전자미디어IT공학과)

Published : 2022.06.20

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

소리 데이터 분류는 단순 소리를 통한 분류, 감정 인식등 다양한 연구가 진행중이다. 심층 신경망에서 데이터의 부족과 과적합 문제를 개선하는 방법으로 데이터 증강은 중요하다. 본 논문에서는 3가지의 소리데이터(UrbanSound8K, RAVDESS, IRMAS)를 사용하였으며, 소리데이터는 멜 스펙트로그램을 통한 변환과정을 거쳐 네트워크 망에 입력된다. 입력된 신호는 다양한 네크워크 신경망(Bidirection LSTM, Bidirection LSTM Attention, Multi-Head Attention, CNN)을 통해 학습되어지며, 각각의 네트워크 신경망에서 데이터 증강 전후의 분류 정확도를 확인 하였다. 다양한 데이터셋과 다양한 네트워크 망에서의 데이터 증강 방법의 결과 비교를 통한 통찰을 얻을수 있을 것이다.

Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)

A study on data augmentation methods for sound data classification

소리 데이터 분류에 대한 데이터 증대 방법 연구

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)