Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)
- 2016.06a
- /
- Pages.90-91
- /
- 2016
Audio Genre Classification based on Deep Learning using Spectrogram
스펙트로그램을 이용한 딥 러닝 기반의 오디오 장르 분류 기술
- Jang, Woo-Jin (Kwangwoon Universty) ;
- Yun, Ho-Won (Kwangwoon Universty) ;
- Shin, Seong-Hyeon (Kwangwoon Universty) ;
- Park, Ho-chong (Kwangwoon Universty)
- Published : 2016.06.27
Abstract
본 논문에서는 스펙트로그램을 이용한 딥 러닝 기반의 오디오 장르 분류 기술을 제안한다. 기존의 오디오 장르 분류는 대부분 GMM 알고리즘을 이용하고, GMM의 특성에 따라 입력 성분들이 서로 직교한 성질을 갖는 MFCC를 오디오의 특성으로 사용한다. 그러나 딥 러닝을 입력의 성질에 제한이 없으므로 MFCC보다 가공되지 않은 특성을 사용할 수 있고, 이는 오디오의 특성을 더 명확히 표현하기 때문에 효과적인 학습을 할 수 있다. 본 논문에서는 딥 러닝에 효과적인 특성을 구하기 위하여 스펙트로그램(spectrogram)을 사용하여 오디오 특성을 추출하는 방법을 제안한다. 제안한 방법을 사용한면 MFCC를 특성으로 하는 딥 러닝보다 더 높은 인식률을 얻을 수 있다.
Keywords