한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)
- 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
- /
- Pages.161-166
- /
- 2021
- /
- 2005-3053(pISSN)
한국어 문장 임베딩의 언어적 속성 입증 평가
A Probing Task on Linguistic Properties of Korean Sentence Embedding
- 안애림 (카카오엔터프라이즈) ;
- 고병일 (카카오엔터프라이즈) ;
- 이다니엘 (카카오엔터프라이즈) ;
- 한경은 (카카오엔터프라이즈) ;
- 신명철 (카카오엔터프라이즈) ;
- 남지순 (한국외국어대학교)
- Ahn, Aelim (KakaoEnterprise) ;
- Ko, ByeongiI (KakaoEnterprise) ;
- Lee, Daniel (KakaoEnterprise) ;
- Han, Gyoungeun (KakaoEnterprise) ;
- Shin, Myeongcheol (KakaoEnterprise) ;
- Nam, Jeesun (Hanguk University of Foreign Studies)
- 발행 : 2021.10.14
초록
본 연구는 한국어 문장 임베딩(embedding)에 담겨진 언어적 속성을 평가하기 위한 프로빙 태스크(Probing Task)를 소개한다. 프로빙 태스크는 임베딩으로부터 문장의 표층적, 통사적, 의미적 속성을 구분하는 문제로 영어, 폴란드어, 러시아어 문장에 적용된 프로빙 테스크를 소개하고, 이를 기반으로하여 한국어 문장의 속성을 잘 보여주는 한국어 문장 임베딩 프로빙 태스크를 설계하였다. 언어 공통적으로 적용 가능한 6개의 프로빙 태스크와 한국어 문장의 주요 특징인 주어 생략(SubjOmission), 부정법(Negation), 경어법(Honorifics)을 추가로 고안하여 총 9개의 프로빙 태스크를 구성하였다. 각 태스크를 위한 데이터셋은 '세종 구문분석 말뭉치'를 의존구문문법(Universal Dependency Grammar) 구조로 변환한 후 자동으로 구축하였다. HuggingFace에 공개된 4개의 다국어(multilingual) 문장 인코더와 4개의 한국어 문장 인코더로부터 획득한 임베딩의 언어적 속성을 프로빙 태스크를 통해 비교 분석한 결과, 다국어 문장 인코더인 mBART가 9개의 프로빙 태스크에서 전반적으로 높은 성능을 보였다. 또한 한국어 문장 임베딩에는 표층적, 통사적 속성보다는 심층적인 의미적 속성을 더욱 잘 담고 있음을 확인할 수 있었다.