A Study on extraction for Korean-English word pair by using LCS algorithm

LCS알고리즘을 이용한 한-영 대역어 추출 연구

  • Park, Eun-Jin (NLP Team, Speech/Language Technology Research Center, ETRI) ;
  • Yang, Seong-Il (NLP Team, Speech/Language Technology Research Center, ETRI) ;
  • Kim, Young-Kil (NLP Team, Speech/Language Technology Research Center, ETRI)
  • 박은진 (한국전자통신연구원 음성/언어연구센터 언어처리연구팀) ;
  • 양성일 (한국전자통신연구원 음성/언어연구센터 언어처리연구팀) ;
  • 김영길 (한국전자통신연구원 음성/언어연구센터 언어처리연구팀)
  • Published : 2007.05.11

Abstract

매일 생성되는 웹 신문에서 독자가 접해보지 못한 단어는 독자의 이해를 돕기 위하여 괄호를 사용한다. 괄호를 사용하여 표기된 웹 신문의 한국어-영어 대역쌍은 특정 기사에는 출현빈도가 낮지만 전체적으로 여러 신문의 기사를 봤을 때, 최소한 한번 이상 출현하게 된다. 즉, 괄호 안의 동일한 영어 용어 두 개 이상의 문장을 최장일치법 알고리즘에 적용하면 한국어 단어 경계를 자동으로 인식할 수 있다. 본 논문에서는 이런 웹 신문의 괄호 표기 특성을 이용하여 한-영 대역어쌍을 추출하는 방법을 제안한다. 웹 신문 기사 43,648 건에서 최대 2,087개의 한-영 대역어를 추출하였다. 3 개의 서로 다른 테스트 그룹으로 실험한 결과 최대 84.2%의 정확도를 보였다.

Keywords