한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)
- 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
- /
- Pages.202-206
- /
- 2010
- /
- 2005-3053(pISSN)
구조화된 상세 정보를 제공하는 한국어 형태소 분석기: KMM
KMM: A Detailed Morphological Analysis for Korean
- 김수라 (중앙대학교, 독어독문학과)
- Kim, Soora (Chung-Ang University, Department of German Language and Literature)
- 발행 : 2010.10.08
초록
이 논문에서는 한국어 형태소 분석기 KMM(Korean Malaga Morphology)을 소개하고자 한다. KMM의 개발 동기는 이후 자연언어 처리 단계의 기반으로 사용될 수 있을 뿐 아니라 이론 형태론 연구의 도구로도 사용될 수 있도록 상세한 형태 동사 의미 정보를 제공하는 것이었다. 이론적 틀은 좌연접 문법(Left-Associative Grammar)에 기초한 LA-MORPH이며, 좌연접 기반 문법 개발 도구인 MALAGA로 구현되었다. LA-MORPH에 기반한 KMM은 분석 실행중이 아닐 때에는 사전의 규모를 최소한으로 유지하다가 분석에 필요할 때에만 분석용 사전을 자동으로 생성한다. 형태소 분석은 분석용 사전에 근거하여, 매칭과 결합이라는 단순한 알고리즘만을 사용한다. KMM의 분석은 동사 어절의 경우, 시제, 서법, 문형, 대우법, 명사 어절의 경우 격정보, 수사 결합어절의 경우 추출된 수랑 정보 등과 같은 상세한 정보를 제시한다. 세종 말뭉치와 KIBS 말뭉치를 KMM 을 이용해서 분석한 결과 각각의 94.96%와 94.59%의 분석률과 88.4%와 90.7%의 정확도를 보였다.