DOI QR코드

DOI QR Code

A Study on the Comparison of the Commercial API for Recognizing Speech with Emotion

상용 API 의 감정에 따른 음성 인식 성능 비교 연구

  • Janghoon Yang (Dept. of AI Software Engineering, Seoul Media Institute of Technology)
  • 양장훈 (서울미디어대학원대학교 인공지능응용소프트웨어학과)
  • Published : 2023.05.18

Abstract

최근 인공지능 기술의 발전에 따라서 다양한 서비스에서 음성 인식을 활용한 서비스를 제공하면서 음성 인식에 대한 중요성이 증가하고 있다. 이 논문에서는 국내에서 많이 사용되고 있는 대표적인 인공지능 서비스 API 를 제공하는 구글, ETRI, 네이버에 대해서 감정 음성 관점에서 그 차이를 평가하였다. AI Hub 에서 제공하는 감성 대화 말뭉치 데이터 셋의 일부인 음성 테스트 데이터를 사용하여 평가한 결과 ETRI API 가 문자 오류율 (1.29%)과 단어 오류율(10.1%)의 성능 지표에 대해서 가장 우수한 음성 인식 성능을 보임을 확인하였다.

Keywords

Acknowledgement

본 연구는 문화체육관광부 "관광서비스 혁신성장 연구개발사업" (R202202015)의 지원에 의해서 수행되었음