Improvements of an English Pronunciation Dictionary Generator Using DP-based Lexicon Pre-processing and Context-dependent Grapheme-to-phoneme MLP

DP 알고리즘에 의한 발음사전 전처리와 문맥종속 자소별 MLP를 이용한 영어 발음사전 생성기의 개선

  • 김회린 (한국전자통신연구원 멀티모달I/F팀) ;
  • 문광식 (인하대학교 전자공학과) ;
  • 이영직 (한국전자통신연구원 멀티모달I/F팀) ;
  • 정재호 (인하대학교 전자공학과)
  • Published : 1999.07.01

Abstract

In this paper, we propose an improved MLP-based English pronunciation dictionary generator to apply to the variable vocabulary word recognizer. The variable vocabulary word recognizer can process any words specified in Korean word lexicon dynamically determined according to the current recognition task. To extend the ability of the system to task for English words, it is necessary to build a pronunciation dictionary generator to be able to process words not included in a predefined lexicon, such as proper nouns. In order to build the English pronunciation dictionary generator, we use context-dependent grapheme-to-phoneme multi-layer perceptron(MLP) architecture for each grapheme. To train each MLP, it is necessary to obtain grapheme-to-phoneme training data from general pronunciation dictionary. To automate the process, we use dynamic programming(DP) algorithm with some distance metrics. For training and testing the grapheme-to-phoneme MLPs, we use general English pronunciation dictionary with about 110 thousand words. With 26 MLPs each having 30 to 50 hidden nodes and the exception grapheme lexicon, we obtained the word accuracy of 72.8% for the 110 thousand words superior to rule-based method showing the word accuracy of 24.0%.

본 논문에서는 가변어휘 단어 인식기에 사용하기 위한 개선된 MLP 기반 영어 발음사전 생성기를 제안한다. 가변어휘 단어 인식기는 인식대상 도메인이 수시로 바뀌는 상황에서 현재의 인식 도메인에 의해 결정되는 임의의 한국어 어휘들에 대해 처리 할 수 있다. 이 시스템을 영어 단어에 대해서도 처리할 수 있도록 하기 위해서는 미리 정의된 사전에 포함할 수 없는 영어 고유명사와 같은 단어의 발음열을 구할 수 있는 방법이 필요하다. 영어 발음사전 생성기를 구현하기 위하여 본 연구에서는 각 자소를 음소로 변환해 주는 문맥종속 다층 퍼셉트론 구조를 제안한다. 각 자소별 다층 퍼셉트론을 훈련하기 위해서는 표준 발음사전으로부터 각 자소에 대응하는 음소 학습용 데이터를 준비해야 한다. 이를 위해 본 연구에서는 적절한 거리척도를 사용하는 동적 프로그래밍 알고리즘을 사용한다. 훈련 및 평가를 위한 데이터로는 116,191개 영어 단어의 발음사전을 사용하였다. 평가 결과 각각 30~50개의 히든 노드를 가지는 26개 자소별 MLP와 예외 자소 발음사전을 가지고 표준 발음사전에 대하여 72.8%의 단어 정확도를 얻었으며, 이것은 기존의 규칙 에 기반한 발음사전 생성의 정확도인 24.0% 보다 매우 우수한 결과임을 보여주었다.

Keywords

References

  1. Proc. of ICASSP Implementation of the POW (Phonetically Optimized Words) algorithm for speech database Yeonja Lim;Youngjik Lee
  2. 제13회 음성통신 및 신호처리 워크샵(KSCSP'96)논문집 v.13 no.1 음성학적 지식에 기반한 한국어 변이음 집단화 수형도의 구현 서영주;성철재;이정철;한민수;이영직
  3. 제13회 음성통신 및 신호처리 워크샵(KSCSP'96)논문집 v.13 no.1 POW 3848 단어 인식기 구현 및 어휘 독립 실험 김희린;이항섭
  4. 한국음향학회지 v.16 no.2 음성학적 지식 기반 변이음 모델을 이용한 가변 어휘 단어 인식기 김회린;이항섭
  5. Jour. of ASK v.16 no.1E Performance of vocabulary-independent speech recognizers with speaker adaptation Oh-Wook Kwon;Chong-Kwan Un;Hoi-Rin Kim
  6. 한국음향학회지 v.17 no.7 음성인식에서 훈련 및 인식 과정에 사용되는 대상 어휘의 차이에 대한 음향 모델의 성능 평가 김회린;이항섭;권오욱
  7. Complex Systems v.1 Parallel networks that learn to pronounce English text T. J. Sejnowski;C. R. Rosenberg
  8. Proc. of ICSP'97 MLP-based English pronunciation dictionary generator for applying to variable vocabulary word recognizer Hoi-Rin Kim;Youngjik Lee;Jung-Chul Lee
  9. Proc. of AVIOS'97 Speech Web browser using variable vocabulary word recognition Hang-Seop Lee;Hoi-Rin Kim