Low-Resource Morphological Analysis for Kazakh using Multi-Task Learning

Kaibalina, Nazira;Park, Seong-Bae;

doi:10.3745/PKIPS.y2021m05a.437

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

2021.05a
/
Pages.437-440
/
2021
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

DOI QR Code

Low-Resource Morphological Analysis for Kazakh using Multi-Task Learning

Low-Resource 환경에서 Multi-Task 학습을 이용한 카자흐어 형태소 분석

Kaibalina, Nazira (Department of Computer Science & Engineering, Kyung Hee University) ;
Park, Seong-Bae (Department of Computer Science & Engineering, Kyung Hee University)

;
박성배 (경희대학교 컴퓨터공학과)

Published : 2021.05.12

https://doi.org/10.3745/PKIPS.y2021m05a.437 Citation PDF

Download PDF

⟨ Previous Next ⟩

Abstract

지난 10년 동안 기계학습을 통해 자연어 처리 분야에서 많은 발전이 있었다. Machine translation, question answering과 같은 문제는 사용 가능한 데이터가 많은 언어에서 높은 정확도 성능 결과를 보여준다. 그러나 low-resource 언어에선 동일한 수준의 성능에 도달할 수 없다. 카자흐어는 형태학적 분석을 위해 구축된 대용량 데이터셋이 없으므로 low-resource 환경이다. 카자흐어는 단일 어근으로 수백 개의 단어 형태를 생성할 수 있는 교착어이다. 그래서 카자흐어 문장의 형태학적 분석은 카자흐어 문장의 의미를 이해하는 기본적인 단계이다. 기존에 존재하는 카자흐어 데이터셋은 구체적인 형태학적 분석의 부재로 모델이 충분한 학습이 이루어지지 못하기 때문에 본 논문에서 새로운 데이터셋을 제안한다. 본 논문은 low-resource 환경에서 높은 정확도를 달성할 수 있는 신경망 모델 기반의 카자흐어 형태학 분석기를 제안한다.

Keywords

Acknowledgement

이 논문은 2021년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원(No. 2020R1A4A1018607)과 정보통신기획평가원의 지원(2017-0-01772, 비디오 튜링 테스트를 통과할 수준의 비디오 스토리 이해 기반의 질의응답 기술 개발)을 받아 수행된 연구임.

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

Low-Resource Morphological Analysis for Kazakh using Multi-Task Learning

Low-Resource 환경에서 Multi-Task 학습을 이용한 카자흐어 형태소 분석

Abstract

Keywords

Acknowledgement

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)