DOI QR코드

DOI QR Code

Lightweight Speaker Recognition for Pet Robots using Residuals Neural Network

잔차 신경망을 활용한 펫 로봇용 화자인식 경량화

  • Seong-Hyun Kang (Dept. of Applied Artificial Intelligence, Hanyang University) ;
  • Tae-Hee Lee (Dept. of Electrical Engineering in Hanyang University) ;
  • Myung-Ryul Choi (Dept. of Applied Artificial Intelligence, Hanyang University)
  • 강성현 ;
  • 이태희 ;
  • 최명렬
  • Received : 2024.05.20
  • Accepted : 2024.06.19
  • Published : 2024.06.30

Abstract

Speaker recognition refers to a technology that analyzes voice frequencies that are different for each individual and compares them with pre-stored voices to determine the identity of the person. Deep learning-based speaker recognition is being applied to many fields, and pet robots are one of them. However, the hardware performance of pet robots is very limited in terms of the large memory space and calculations of deep learning technology. This is an important problem that pet robots must solve in real-time interaction with users. Lightening deep learning models has become an important way to solve the above problems, and a lot of research is being done recently. In this paper, we describe the results of research on lightweight speaker recognition for pet robots by constructing a voice data set for pet robots, which is a specific command type, and comparing the results of models using residuals. In the conclusion, we present the results of the proposed method and Future research plans are described.

화자인식은 개개인마다 다른 음성 주파수를 분석하여 미리 저장된 음성과 비교해 본인 여부를 판단하는 하나의 기술을 의미한다. 딥러닝 기반의 화자인식은 여러 분야에 적용되고 있으며, 펫 로봇도 그 중 하나이다. 하지만 펫 로봇의 하드웨어 성능은 딥러닝 기술의 많은 메모리 공간과 연산에 있어 매우 제한적인 상황이다. 이는 펫 로봇이 사용자와 실시간 상호작용에 있어 해결해야 할 중요한 문제점이다. 딥러닝 모델의 경량화는 위와 같은 문제를 해결하기 위한 하나의 중요한 방법으로 자리하였으며, 최근 많은 연구가 진행되고 있다. 이 논문에서는 특정한 명령어 형태인 펫 로봇용 음성 데이터 세트를 구축하고 잔차(Residual)를 활용한 모델들의 결과를 비교해 펫 로봇용 화자인식의 경량화 연구의 결과를 서술하며, 결론에서는 제안한 방법에 대한 결과와 향후 연구방안에 대해 서술한다.

Keywords

References

  1. Campbell, J. P. (1997). "Speaker recognition: A tutorial," Proceedings of the IEEE, vol.85, no.9, pp.1437-1462, 1997. DOI: 10.1109/5.628714 
  2. Logan, B, "Mel frequency cepstral coefficients for music modeling," In Ismir Vol.270, No.1, pp. 11, 2000. 
  3. He, K., Zhang, X., Ren, S., & Sun, J. "Deep residual learning for image recognition," In Proceedings of the IEEE conference on computer vision and pattern recognition, pp.770-778, 2016. DOI: 10.1109/CVPR.2016.90 
  4. Hannah, A. A., & Agordzo, G. K, "A Design of a low-pass FIR filter using Hamming Window Functions in Matlab," Comput. Eng. Intell. Syst, vol.11, no.2, pp.24-30, 2020. DOI: 10.7176/CEIS/11-2-04 
  5. Singleton, R. C., "An algorithm for computing the mixed radix fast Fourier transform," IEEE Transactions on audio and electroacoustics, vol.17, no.2, pp.93-103, 1969. DOI: 10.1109/TAU.1969.1162042 
  6. Muda, L., Begam, M., & Elamvazuthi, I. "Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques," arXiv preprint, 2010. DOI: 10.48550/arXiv.1003.4083 
  7. Choi, D., Shallue, C. J., Nado, Z., Lee, J., Maddison, C. J., & Dahl, G. E. "On empirical comparisons of optimizers for deep learning," arXiv preprint, 2019. DOI: 10.48550/arXiv.1910.05446