Optimization of Multi-time Scale Loss Function Suitable for DNN-based Audio Coder

Shin, Seung-Min;Byun, Joon;Park, Young-Cheol;Beack, Seung-kwon;Sung, Jong-mo;

한국방송∙미디어공학회:학술대회논문집 (Proceedings of the Korean Society of Broadcast Engineers Conference)

한국방송∙미디어공학회 (The Korean Institute of Broadcast and Media Engineers)

심층신경망 기반 오디오 부호화기를 위한 Multi-time Scale 손실함수의 최적화

Optimization of Multi-time Scale Loss Function Suitable for DNN-based Audio Coder

신승민 (연세대학교 지능형신호처리연구실) ;
변준 (연세대학교 지능형신호처리연구실) ;
박영철 (연세대학교 지능형신호처리연구실) ;
백승권 (한국전자통신연구원) ;
성종모 (한국전자통신연구원)

Shin, Seung-Min (Intelligent Signal Processing LAB, Yonsei University) ;
Byun, Joon (Intelligent Signal Processing LAB, Yonsei University) ;
Park, Young-Cheol (Intelligent Signal Processing LAB, Yonsei University) ;
Beack, Seung-kwon (Electronics and Telecommunications Research Institute (ETRI)) ;
Sung, Jong-mo (Electronics and Telecommunications Research Institute (ETRI))

발행 : 2022.06.20

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

최근, 심층신경망 기반 오디오 부호화기가 활발히 연구되고 있다. 심층신경망 기반 오디오 부호화기는 기존의 전통적인 오디오 부호화기보다 구조적으로 간단하지만, 네트워크의 복잡도를 증가시키지 않고 인지적 성능향상을 기대하는 것은 어렵다. 이 문제를 해결하기 위하여 인간의 청각적 특성을 활용한 심리음향모델 기반 손실함수를 사용한 기법들이 소개되었다. 심리음향 모델 기반 손실함수를 사용한 오디오 부호화기는 양자화 잡음을 잘 제어하였지만, 여전히 지각적인 향상이 필요하다. 본 논문에서는 심층신경망 기반 오디오 부호화기를 위한 Multi-time Scale 손실함수의 지역 손실함수 윈도우 크기의 최적화 제안한다. Multi-time Scale 손실함수의 지역 손실함수 계산을 위한 윈도우 크기를 조절하며, 이를 통하여 오디오 부호화에 적합한 윈도우 사이즈를 결정한다. 실험을 통해 얻은 최적의 Multi-time Scale 손실함수를 사용하여 네트워크를 훈련하였고, 주관적 평가를 통해 기존의 심리음향모델 기반 손실함수보다 좋은 음성 품질을 보여주는 것을 확인하였다.

키워드

과제정보

본 연구는 한국전자통신연구원 연구운영비지원사업의 일환으로수행되었음. [22ZH1200, 초실감 입체공간 미디어 콘텐츠 원천기술 연구]

한국방송∙미디어공학회:학술대회논문집 (Proceedings of the Korean Society of Broadcast Engineers Conference)

심층신경망 기반 오디오 부호화기를 위한 Multi-time Scale 손실함수의 최적화

Optimization of Multi-time Scale Loss Function Suitable for DNN-based Audio Coder

초록

키워드

과제정보

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)