A Dynamic Link Model for Korean POS-Tagging

Hwang, Myeong-Jin;Kang, Mi-Young;Kwon, Hyuk-Chul;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
/
Pages.282-289
/
2007
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

한국어 품사 태깅을 위한 다이내믹 링크 모델

A Dynamic Link Model for Korean POS-Tagging

황명진 (부산대학교 컴퓨터공학과 한국어정보처리 연구실) ;
강미영 (국립국어원 국어정보화팀) ;
권혁철 (부산대학교 컴퓨터공학과 한국어정보처리 연구실)

Hwang, Myeong-Jin (Korean Language Processing Lab., Pusan National University) ;
Kang, Mi-Young (Dept. Computer Science and Engineering, Pusan National University) ;
Kwon, Hyuk-Chul (Korean Language Processing Lab., Pusan National University)

발행 : 2007.10.12

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

통계를 이용한 품사 태깅에서는 자료부족 문제가 이슈가 된다. 한국어나 터키어와 같은 교착어는 어절(word)이 다수 형태소로 구성되어 있어서 자료부족 문제가 더 심각하다. 이러한 문제를 극복하고자 교착어 문장을 어절 열이 아니라 형태소의 열이라 가정한 연구도 있었으나, 어절 특성이 사라지기 때문에 파생에 의한 어절의 문법 범주 변화 등의 통계정보와 어절 간의 통계정보를 구하기 어렵다. 본 논문은 효율적인 어절 간 전이확률 계산 방법론을 고안함으로써 어절 단위의 정보를 유지하면서도 자료부족문제를 해결할 수 있는 확률 모델을 제안한다. 즉, 한국어의 형태통사적인 특성을 고려하면 앞 어절의 마지막 형태소와 함께 뒤 어절의 처음 혹은 끝 형태소-즉 두 개의 어절 간 전이 링크만으로도 어절 간 전이확률 계산 시 필요한 대부분 정보를 얻을 수 있고, 문맥에 따라 두 링크 중 하나만 필요하다는 관찰을 토대로 규칙을 이용해 두전이링크 중 하나를 선택해 전이확률 계산에 사용하는 '다이내믹 링크 모델'을 제안한다. 형태소 품사 bi-gram만을 사용하는 이 모델은 실험 말뭉치에 대해 96.60%의 정확도를 보인다. 이는 같은 말뭉치에 대해 형태소 품사 tri-gram 등의 더 많은 문맥 정보를 사용하는 다른 모델을 평가했을 때와 대등한 성능이다.

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국어 품사 태깅을 위한 다이내믹 링크 모델

A Dynamic Link Model for Korean POS-Tagging

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)