Methodology of Developing Train Set for BERT's Sentence Similarity Classification with Lexical Mismatch

Jeong, Jaehwan;Kim, Dongjun;Lee, Woochul;Lee, Yeonsoo;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
/
Pages.265-271
/
2019
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

어휘 유사 문장 판별을 위한 BERT모델의 학습자료 구축

Methodology of Developing Train Set for BERT's Sentence Similarity Classification with Lexical Mismatch

정재환 (스탠포드 대학교) ;
김동준 ((주)엔씨소프트) ;
이우철 ((주)엔씨소프트) ;
이연수 ((주)엔씨소프트)

Jeong, Jaehwan (Stanford University) ;
Kim, Dongjun (NCSOFT Corp.) ;
Lee, Woochul (NCSOFT Corp.) ;
Lee, Yeonsoo (NCSOFT Corp.)

발행 : 2019.10.10

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 논문은 어휘가 비슷한 문장들을 효과적으로 분류하는 BERT 기반 유사 문장 분류기의 학습 자료 구성 방법을 제안한다. 기존의 유사 문장 분류기는 문장의 의미와 상관 없이 각 문장에서 출현한 어휘의 유사도를 기준으로 분류하였다. 이는 학습 자료 내의 유사 문장 쌍들이 유사하지 않은 문장 쌍들보다 어휘 유사도가 높기 때문이다. 따라서, 본 논문은 어휘 유사도가 높은 유사 의미 문장 쌍들과 어휘 유사도가 높지 않은 의미 문장 쌍들을 학습 자료에 추가하여 BERT 유사 문장 분류기를 학습하여 전체 분류 성능을 크게 향상시켰다. 이는 문장의 의미를 결정짓는 단어들과 그렇지 않은 단어들을 유사 문장 분류기가 학습하였기 때문이다. 제안하는 학습 데이터 구축 방법을 기반으로 학습된 BERT 유사 문장 분류기들의 학습된 self-attention weight들을 비교 분석하여 BERT 내부에서 어떤 변화가 발생하였는지 확인하였다.

키워드

BERT;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

어휘 유사 문장 판별을 위한 BERT모델의 학습자료 구축

Methodology of Developing Train Set for BERT's Sentence Similarity Classification with Lexical Mismatch

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)