DOI QR코드

DOI QR Code

An Enhancement of Japanese Acoustic Model using Korean Speech Database

한국어 음성데이터를 이용한 일본어 음향모델 성능 개선

  • 이민규 (과학기술연합대학원대학교 컴퓨터소프트웨어 및 공학, 한국전자통신연구원 자동통역인공지능연구센터 자동통역연구실) ;
  • 김상훈 (과학기술연합대학원대학교 컴퓨터소프트웨어 및 공학, 한국전자통신연구원 자동통역인공지능연구센터 자동통역연구실)
  • Received : 2013.05.08
  • Accepted : 2013.07.05
  • Published : 2013.09.30

Abstract

In this paper, we propose an enhancement of Japanese acoustic model which is trained with Korean speech database by using several combination strategies. We describe the strategies for training more than two language combination, which are Cross-Language Transfer, Cross-Language Adaptation, and Data Pooling Approach. We simulated those strategies and found a proper method for our current Japanese database. Existing combination strategies are generally verified for under-resourced Language environments, but when the speech database is not fully under-resourced, those strategies have been confirmed inappropriate. We made tyied-list with only object-language on Data Pooling Approach training process. As the result, we found the ERR of the acoustic model to be 12.8 %.

본 논문은 일본어 음성인식기 신규 개발을 위해 초기에 부족한 일본어 음성데이터를 보완하는 방법이다. 일본어 발음과 한국어 발음이 유사한 특성을 근거로 한국어 음성 데이터를 이용한 일본어 음향모델 성능개선 방법에 대하여 기술하였다. 이종언어 간 음성 데이터를 섞어서 훈련하는 방법인 Cross-Language Transfer, Cross-Language Adaptation, Data Pooling Approach등 방법을 설명하고, 각 방법들의 시뮬레이션을 통해 현재 보유하고 있는 일본어 음성데이터 양에 적절한 방법을 선정하였다. 기존의 방법들은 훈련용 음성데이터가 크게 부족한 환경에서의 효과는 검증되었으나, 목적 언어의 데이터가 어느 정도 확보된 상태에서는 성능 개선 효과가 미비하였다. 그러나 Data Pooling Approach의 훈련과정 중 Tyied-List를 목적 언어로만으로 구성 하였을 때, ERR(Error Reduction Rate)이 12.8 %로 성능이 향상됨을 확인하였다.

Keywords

References

  1. Ulla Uebler, "Multilingual speech recognition in seven languages," Speech. Commun. 35, 53-69 (2001). https://doi.org/10.1016/S0167-6393(00)00095-9
  2. C. van Heerden, N. Kleynhans, E. Barnard, and M. Davel, "Pooling ASR data for closely reslated languages," in Proc. SLTU, 17-23 (2010).
  3. Tanja Schultz and Alex Waibel, "Language Portability in Acoustic Modeling," Speech. Commun. 10, 59-64 (2000).
  4. Kenan Çarki, Petra Geutner, and Tanja Schultz, "Turkish LVCSR: toward better speech recognition for agglutinative languages," In Proc. ICASSP, 1563-1566 (2000).
  5. J. K. Lee, "Comparative study on korean and japanese formant values by korean speakers and japanese speakers," Ono Yongu Studies in Linguistics. 15, 61-75 (1997)
  6. Mecab: Yet Another Part-of-Speech and Morphological Analyzer, http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html, 2013.
  7. The SRI Language Modeling Toolkit, http://www.speech.sri.com/projects/srilm, 2013.
  8. S. H. Kim, I. Lee, and J. Park, "Developing fast/light korean recognizer through building FST_based search network," in Proc. KSCSP, 25, 1, 21-24 (2008).
  9. A. Constantinescu, and G. Chollet, "On cross-language experiments and data-driven units for ALISP," In Proc. ASRU, 606-613 (1997).