Attention based multimodal model for Korean speech recognition post-editing

한국어 음성인식 후처리를 위한 주의집중 기반의 멀티모달 모델

  • 정영석 (한림대학교 소프트웨어융합대학) ;
  • 오병두 (한림대학교 융합소프트웨어학과) ;
  • 허탁성 (한림대학교 융합소프트웨어학과) ;
  • 최정명 (한림대학교 융합소프트웨어학과) ;
  • 김유섭 (한림대학교 소프트웨어융합대학)
  • Published : 2020.10.14

Abstract

최근 음성인식 분야에서 신경망 기반의 종단간 모델이 제안되고 있다. 해당 모델들은 음성을 직접 입력받아 전사된 문장을 생성한다. 음성을 직접 입력받는 모델의 특성상 데이터의 품질이 모델의 성능에 많은 영향을 준다. 본 논문에서는 이러한 종단간 모델의 문제점을 해결하고자 음성인식 결과를 후처리하기 위한 멀티모달 기반 모델을 제안한다. 제안 모델은 음성과 전사된 문장을 입력 받는다. 입력된 각각의 데이터는 Encoder를 통해 자질을 추출하고 주의집중 메커니즘을 통해 Decoder로 추출된 정보를 전달한다. Decoder에서는 전달받은 주의집중 메커니즘의 결과를 바탕으로 후처리된 토큰을 생성한다. 본 논문에서는 후처리 모델의 성능을 평가하기 위해 word error rate를 사용했으며, 실험결과 Google cloud speech to text모델에 비해 word error rate가 8% 감소한 것을 확인했다.

Keywords

Acknowledgement

이 연구는 2019년 대한민국 교육부와 한국연구재단의 지원을 받아 수행되었음.(NRF-2019S1A5A2A03052093)