DOI QR코드

DOI QR Code

α-feature map scaling for raw waveform speaker verification

α-특징 지도 스케일링을 이용한 원시파형 화자 인증

  • 정지원 (서울시립대학교 컴퓨터과학과) ;
  • 심혜진 (서울시립대학교 컴퓨터과학과) ;
  • 김주호 (서울시립대학교 컴퓨터과학과) ;
  • 유하진 (서울시립대학교 컴퓨터과학과)
  • Received : 2020.07.18
  • Accepted : 2020.09.08
  • Published : 2020.09.30

Abstract

In this paper, we propose the α-Feature Map Scaling (α-FMS) method which extends the FMS method that was designed to enhance the discriminative power of feature maps of deep neural networks in Speaker Verification (SV) systems. The FMS derives a scale vector from a feature map and then adds or multiplies them to the features, or sequentially apply both operations. However, the FMS method not only uses an identical scale vector for both addition and multiplication, but also has a limitation that it can only add a value between zero and one in case of addition. In this study, to overcome these limitations, we propose α-FMS to add a trainable parameter α to the feature map element-wise, and then multiply a scale vector. We compare the performance of the two methods: the one where α is a scalar, and the other where it is a vector. Both α-FMS methods are applied after each residual block of the deep neural network. The proposed system using the α-FMS methods are trained using the RawNet2 and tested using the VoxCeleb1 evaluation set. The result demonstrates an equal error rate of 2.47 % and 2.31 % for the two α-FMS methods respectively.

본 논문은 심층 신경망을 이용한 화자 인증(Speaker Verification, SV) 시스템에서, 심층 신경망 내부에 존재하는 각 특징 지도(Feature Map)들의 분별력을 강화하기 위해 기존 특징 지도 스케일링(Feature Map Scaling, FMS) 기법을 확장한 α-FMS 기법을 제안한다. 기존의 FMS 기법은 특징 지도로부터 스케일 벡터를 구한 뒤, 이를 특징 지도에 더하거나 곱하거나 혹은 두 방식을 차례로 적용한다. 하지만 FMS 기법은 동일한 스케일 벡터를 덧셈과 곱셈 연산에 중복으로 사용할 뿐만 아니라, 스케일 벡터 자체도 sigmoid 비선형 활성 함수를 이용하여 계산되기 때문에 덧셈을 수행할 경우 그 값의 범위가 제한된다는 한계가 존재한다. 본 연구에서는 이러한 한계점을 극복하기 위해 별도의 α라는 학습 파라미터를 특징 지도에 원소 단위로 더한 뒤, 스케일 벡터를 곱하는 방식으로 α-FMS 기법을 설계하였다. 이 때, 제안한 α-FMS 기법은 스칼라 α를 학습하여 특징 지도의 모든 필터에 동일 값을 적용하는 방식과 벡터 α를 학습하여 특징 지도의 각 필터에 서로 다른 값을 적용하는 방식을 각각 적용 후 그 성능을 비교하였다. 두 방식의 α-FMS 모두 심층 심경망 내부의 잔차 연결이 적용된 각 블록 뒤에 적용하였다. 제안한 기법들의 유효성을 검증하기 위해 RawNet2 학습세트를 이용하여 학습시킨 뒤, VoxCeleb1 평가세트를 이용하여 성능을 평가한 결과, 각각 동일 오류율 2.47 %, 2.31 %를 확인하였다.

Keywords

References

  1. D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur, "X-vectors: Robust dnn embeddings for speaker recognition," Proc. ICASSP. 5329-5333 (2018).
  2. J. Jung, H. Heo, Y. Yang, H. Shim, and H. Yu, "A complete end-to-end speaker verification system using deep neural networks: from raw signals to verification result," Proc. ICASSP. 5349-5353 (2018).
  3. J.Jung, H. Heo, H. Shim, and H. Yu, "Short utterance compensation in speaker verification via cosine-based teacher-student learning of speaker embeddings," Proc. IEEE ASRU. 335-341 (2019).
  4. H. Muckenhirn, M. Doss, and S. Marcell, "Towards directly modeling raw speech signal for speaker verification using CNNs," Proc. ICASSP. 4884-4888 (2018).
  5. J. Jung, H. Heo, J. Kim, H. Shim, and H. Yu, "RawNet: Advanced end-to-end deep neural network using raw waveforms for text-independent speaker verification," Proc. Interspeech, 1268-1272 (2019).
  6. J. Jung, S. Kim, H. Shim, J. Kim, and H. Yu, "Improved RawNet with filter-wise rescaling for textindependent speaker verification using raw waveforms," arxiv preprint arXiv:2004.00526 (2020).
  7. H. Kaiming, Z. Xiangyu, R. Shaoqing, and S. Jian, "Identity mappings in deep residual networks," Proc. ECCV. 30-645 (2016).
  8. J. Hu, L. Shen, S. Albanie, G. Sun, and E. Wu, "Squeeze-and-excitation networks," Proc. IEEE CVPR. 7132-7141 (2018).
  9. J. Zhang, N. Inoue, and K. Shinoda, "I-vector transformation us-ing conditional generative adversarial networks for short utterance speaker verification," Proc. Interspeech, 3613-3617 (2018).
  10. J. Chung, A. Nagrani, and A. Zisserman, "VoxCeleb2: deep speaker recognition," Proc. Interspeech, 1086-1090 (2018).
  11. A. Nagrani, J. Chung, and A. Zisserman, "VoxCeleb: a large-scale speaker identification dataset," Proc. Interspeech, 2616-2620 (2017).
  12. M. Ravanelli and Y. Bengio. "Speaker recognition from raw waveform with sincnet," Proc. IEEE SLT. 1021-1028 (2018).