단어열 패턴 매칭과 Recurrent Neural Network를 이용한 하이브리드 음성 인식 오류 수정 방법

Hybrid ASR Error Correction Using Word Sequence Pattern and Recurrent Neural Network

  • 최준휘 (포항공과대학교, 컴퓨터공학과) ;
  • 류성한 (포항공과대학교, 컴퓨터공학과) ;
  • 이규송 (포항공과대학교, 컴퓨터공학과) ;
  • 박선영 (포항공과대학교, 컴퓨터공학과) ;
  • 유환조 (포항공과대학교, 컴퓨터공학과) ;
  • 이근배 (포항공과대학교, 컴퓨터공학과)
  • Choi, Junhwi (Department of Computer Science and Engineering, Pohang University of Science and Technology) ;
  • Ryu, Seonghan (Department of Computer Science and Engineering, Pohang University of Science and Technology) ;
  • Lee, Kyusong (Department of Computer Science and Engineering, Pohang University of Science and Technology) ;
  • Park, Seonyeong (Department of Computer Science and Engineering, Pohang University of Science and Technology) ;
  • Yu, Hwanjo (Department of Computer Science and Engineering, Pohang University of Science and Technology) ;
  • Lee, Gary Geunbae (Department of Computer Science and Engineering, Pohang University of Science and Technology)
  • 발행 : 2015.10.17

초록

본 논문에서는 단어열 패턴과 리커런트 신경망을 이용한 하이브리드 음성 인식 오류 수정 방법을 제안한다. 음성 인식 결과 문장에서 음성 인식 오류 단어가 발견되었을 경우에 첫째로 단어열 패턴과 그 패턴의 발음열 점수를 통해 1차적 수정을 하고 적절한 패턴을 찾지 못하였을 경우 음절단위로 구성된 Recurrent Neural Network를 통해 단어를 음절단위로 생성하여 2차적으로 오류를 수정한다. 해당 방법론을 한국어로 된 음성 인식 오류와 그 정답 문장으로 구성된 TV 가이드 영역 말뭉치를 바탕으로 성능을 평가하였고, 기존의 단순 단어열 패턴 기반의 음성 인식 오류 수정보다 성능이 향상되었음을 볼 수 있었다. 이 방법론은 음성 인식 오류와 정답의 말뭉치가 필요 없이 옳은 문장으로만 구성된 일반 말뭉치만으로 훈련이 가능하여, 음성 인식 엔진에 의존적이지 않는 강점이 있다.

키워드