Methodology of Developing Train Set for BERT's Sentence Similarity Classification with Lexical Mismatch

Jeong, Jaehwan;Kim, Dongjun;Lee, Woochul;Lee, Yeonsoo;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2019.10a
/
Pages.265-271
/
2019
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Methodology of Developing Train Set for BERT's Sentence Similarity Classification with Lexical Mismatch

어휘 유사 문장 판별을 위한 BERT모델의 학습자료 구축

Jeong, Jaehwan (Stanford University) ;
Kim, Dongjun (NCSOFT Corp.) ;
Lee, Woochul (NCSOFT Corp.) ;
Lee, Yeonsoo (NCSOFT Corp.)

정재환 (스탠포드 대학교) ;
김동준 ((주)엔씨소프트) ;
이우철 ((주)엔씨소프트) ;
이연수 ((주)엔씨소프트)

Published : 2019.10.10

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문은 어휘가 비슷한 문장들을 효과적으로 분류하는 BERT 기반 유사 문장 분류기의 학습 자료 구성 방법을 제안한다. 기존의 유사 문장 분류기는 문장의 의미와 상관 없이 각 문장에서 출현한 어휘의 유사도를 기준으로 분류하였다. 이는 학습 자료 내의 유사 문장 쌍들이 유사하지 않은 문장 쌍들보다 어휘 유사도가 높기 때문이다. 따라서, 본 논문은 어휘 유사도가 높은 유사 의미 문장 쌍들과 어휘 유사도가 높지 않은 의미 문장 쌍들을 학습 자료에 추가하여 BERT 유사 문장 분류기를 학습하여 전체 분류 성능을 크게 향상시켰다. 이는 문장의 의미를 결정짓는 단어들과 그렇지 않은 단어들을 유사 문장 분류기가 학습하였기 때문이다. 제안하는 학습 데이터 구축 방법을 기반으로 학습된 BERT 유사 문장 분류기들의 학습된 self-attention weight들을 비교 분석하여 BERT 내부에서 어떤 변화가 발생하였는지 확인하였다.

Keywords

BERT

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Methodology of Developing Train Set for BERT's Sentence Similarity Classification with Lexical Mismatch

어휘 유사 문장 판별을 위한 BERT모델의 학습자료 구축

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)