DaHae: Japanese Morphological Analyzer for Japanese to Korean Machine Translation

DaHae: 일한 기계번역을 위한 일본어 형태소 분석기

  • Yuh, Sang-Hwa (Center fer Korean Language Engineering/Systems Engineering Research Institute) ;
  • Jung, Han-Min (Center fer Korean Language Engineering/Systems Engineering Research Institute) ;
  • Chang, Won (Center fer Korean Language Engineering/Systems Engineering Research Institute) ;
  • Kim, Tae-Wan (Center fer Korean Language Engineering/Systems Engineering Research Institute) ;
  • Hwang, Do-Sam (Center fer Korean Language Engineering/Systems Engineering Research Institute) ;
  • Park, Dong-In (Center fer Korean Language Engineering/Systems Engineering Research Institute)
  • 여상화 (국어공학센터/시스템공학연구소) ;
  • 정한민 (국어공학센터/시스템공학연구소) ;
  • 장원 (국어공학센터/시스템공학연구소) ;
  • 김태완 (국어공학센터/시스템공학연구소) ;
  • 황도삼 (국어공학센터/시스템공학연구소) ;
  • 박동인 (국어공학센터/시스템공학연구소)
  • Published : 1995.10.07

Abstract

일본어는 한자, 히라가나, 가다가나 등 다양한 종류의 문자를 사용하며 이들의 혼용 비율이 매우 높아 띄어쓰기를 하지 않아도 문서의 가독성을 유지한다. ICOT 사전, EDR 사전, ATLAS I/JK사전 등 기존의 전자 사전에서 복합 자종의 표제어가 차지하는 비율(한자+히라가나의 표제어 제외)은 평균 8.8%로 그 수가 매우 작다. 따라서, 문장 내에서 자종의 변화는 단어를 구분하는 하나의 delimiter로 이용될 수 있다. 본 시스템에서는 형태소 분석의 전단계로 전처리기를 두어 자종정보(character type information)에 의한 fragment 분리 및 예외 단어, 정형표현 처리를 수행하며 각 fragment 의 형태소 분석 방법을 제시한다. 형태소 분석기는 전처리기의 처리 결과를 입력받아 각각의 fragment를 전처리기가 제시한 분석 방법에 따라 분석하여 입력 문장의 가능한 모든 분석을 추출한다. 이 방법은 불필요한 사전 탐색과 접속 체크 회수를 줄여 분석 성능을 향상시킨다.

Keywords