Automatic Back-Transliteration from Foreign Word to English Word

음차표기된 외래어의 발음특성을 이용한 자동 영어단어 복원

  • 이상율 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술 연구센터) ;
  • 강인수 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술 연구센터) ;
  • 나승훈 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술 연구센터) ;
  • 이종혁 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술 연구센터)
  • Published : 2003.04.01

Abstract

음차 표기된 외래어의 원어 복원 문제에 있어서 확률모델을 이용한 방법들이 기존에 많이 사용되었다. 이는‘발음단위’개념 (이재성 1998)을 이용하여 서로 대응될 수 있는 한글발음단위와 영어발음단위의 쌍들을 대역어 집합으로부터 추출하고 이를 확률모델에 적용하는 방법이다. 하지만 영어 철자를 영어 발음단위로 변환하는 과정에서 그 단어의 어원에 따라 서로 다른 발음상의 특징을 보이게 되는데. 이것이 기존의 연구에서 성능을 떨어뜨리는 원인이 되었다. 따라서 본 논문에서는 학습 데이터(대역어 집합)들을 발음 특성에 따라 분류하고. 분류된 각 데이터 집합을 학습과정에서 따로 적용함으로써 서로 다른 특성을 가지는 여러 개의 복원 모델을 얻을 수 있고, 이를 이용하여 원어 복원에 대한 성능을 높일 수 있음을 보여준다.

Keywords