Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)
- 2022.06a
- /
- Pages.1308-1310
- /
- 2022
A study on data augmentation methods for sound data classification
소리 데이터 분류에 대한 데이터 증대 방법 연구
- Chang, Il-Sik (Dept. of Information Technology and Media Engineering Seoul National University of Science and Technology) ;
- Park, Goo-man (Dept. of Electronics and IT Media Engineering Seoul National University of Science and Technology)
- Published : 2022.06.20
Abstract
소리 데이터 분류는 단순 소리를 통한 분류, 감정 인식등 다양한 연구가 진행중이다. 심층 신경망에서 데이터의 부족과 과적합 문제를 개선하는 방법으로 데이터 증강은 중요하다. 본 논문에서는 3가지의 소리데이터(UrbanSound8K, RAVDESS, IRMAS)를 사용하였으며, 소리데이터는 멜 스펙트로그램을 통한 변환과정을 거쳐 네트워크 망에 입력된다. 입력된 신호는 다양한 네크워크 신경망(Bidirection LSTM, Bidirection LSTM Attention, Multi-Head Attention, CNN)을 통해 학습되어지며, 각각의 네트워크 신경망에서 데이터 증강 전후의 분류 정확도를 확인 하였다. 다양한 데이터셋과 다양한 네트워크 망에서의 데이터 증강 방법의 결과 비교를 통한 통찰을 얻을수 있을 것이다.
Keywords