The extended longest match strategy for efficient Korean analysis

효율적인 한국어 분석을 위한 확장된 최장일치법

  • Lee, Gi-O (Dept. of Computer Science, Kunsan Junior College) ;
  • Lee, Keun-Yong (Dept. of Computer Science, Kunsan Junior College) ;
  • Lee, Yong-Seok (Dept of Computer Science, Chonbuk National University)
  • 이기오 (군산전문대 전자계산학과) ;
  • 이근용 (군산전문대 전자계산학과) ;
  • 이용석 (전북대학교 컴퓨터 과학과)
  • Published : 1996.10.11

Abstract

한국어 형태소 분석 방법중 최장일치법은 영어의 분석처럼 one-pass로 한국어를 분석할 수 있도록 하는 기법에 가장 적절하다. 그러나 최장일치법은 매우 많은 분석 후보를 생성하여 탐색 회수가 많아 시스템의 성능을 떨어뜨린다. 또한 대부분의 한국어 형태소 분석 시스템들은 형태소 자체에만 중점을 두어 한국어 분석 시스템 전체의 성능은 고려하지 않아 형태소 분석 시스템의 결과가 파서의 입력에 적절치 못한 결과를 생성한다. 본 논문에서는 형태소 분석의 원형복원 규칙과 사전 탐색을 통합하여 과분석 후보에 대한 탐색 회수를 줄이고 전체 시스템의 성능을 향상시키기 위해 파서에 적합한 입력을 제공하는 확장된 최장일치법을 제안한다.

Keywords