• 제목/요약/키워드: 딥러닝 언어모델

검색결과 251건 처리시간 0.02초

Lexicon transducer를 적용한 conformer 기반 한국어 end-to-end 음성인식 (Conformer with lexicon transducer for Korean end-to-end speech recognition)

  • 손현수;박호성;김규진;조은수;김지환
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.530-536
    • /
    • 2021
  • 최근 들어 딥러닝의 발달로 인해 Hidden Markov Model(HMM)을 사용하지 않고 음성 신화와 단어를 직접 매핑하여 학습하는 end-to-end 음성인식 방법이 각광을 받고 있으며 그 중에서도 conformer가 가장 좋은 성능을 보이고 있다. 하지만 end-to-end 음성인식 방법은 현재 시점에서 어떤 자소 또는 단어가 나타날지에 대한 확률에 대해서만 초점을 두고 있다. 그 이후의 디코딩 과정은 현재 시점에서 가장 높은 확률을 가지는 자소를 출력하거나 빔 탐색을 사용하며 이러한 방식은 모델이 출력하는 확률 분포에 따라 최종 결과에 큰 영향을 받게 된다. 또한 end-to-end 음성인식방식은 전통적인 음성인식 방법과 비교 했을 때 구조적인 문제로 인해 외부 발음열 정보와 언어 모델의 정보를 사용하지 못한다. 따라서 학습 자료에 없는 발음열 변환 규칙에 대한 대응이 쉽지 않다. 따라서 본 논문에서는 발음열 정보를 담고 있는 Lexicon transducer(L transducer)를 이용한 conformer의 디코딩 방법을 제안한다. 한국어 데이터 셋 270 h에 대해 자소 기반 conformer의 빔 탐색 결과와 음소 기반 conformer에 L transducer를 적용한 결과를 비교 평가하였다. 학습자료에 등장하지 않는 단어가 포함된 테스트 셋에 대해 자소 기반 conformer는 3.8 %의 음절 오류율을 보였으며 음소 기반 conformer는 3.4 %의 음절 오류율을 보였다.