A Unified Probablistic Model for Correcting Spacing Errors and Improving Accuracy of Morphological Analysis of Korean Sentences

한국어 문장의띄어 쓰기 오류 교정과 최적 형태소 분석을위한 통합 확률 모델

  • Lee, Dong-Joo (School of Computer Science and Engineering, Seoul National University) ;
  • Yeon, Jong-Heum (School of Computer Science and Engineering, Seoul National University) ;
  • Lee, Sang-Goo (School of Computer Science and Engineering, Seoul National University)
  • 이동주 (서울대학교 전기.컴퓨터 공학부) ;
  • 연종흠 (서울대학교 전기.컴퓨터 공학부) ;
  • 이상구 (서울대학교 전기.컴퓨터 공학부)
  • Published : 2011.06.29

Abstract

띄어쓰기 오류는 한국어로 작성된 글에서 나타나는 가장 흔한 오류 중 하나로 문장의 의미적 모호성과 중의성을 가져온다. 규칙 기반 혹은 통계적접근 방법으로 띄어쓰기 오류를 교정하는다양한 방법이 제시되었으나, 기존의 방법들은 띄어쓰기를 형태소 분석의 전단계로 여기거나 띄어쓰기를 교정하기 위해서 형태소 분석을이용하는 등 각각을 독립된 과정으로 다루어, 한 과정에서 발생하는 오류가 다른 과정으로 전파되도록 하는 문제를 안고 있다. 본 논문에서는 띄어 쓰기와 최적 형태소 분석을 하나의 통합된 문제로 다루어각과정에서 발생할 수 있는 오류가 다른 과정에 영향을 주지 않도록 하고 상호 오류를 보완하여 좀더 정확한 띄어쓰기 오류 교정 및 형태소 분석을 가능하게 하는 확률적 접근 방법을 제시한다.

Keywords

Acknowledgement

Grant : 앱스토어 환경을 지원하는 상황인지기반고객경험관리 플랫폼

Supported by : 지식경제부