DOI QR코드

DOI QR Code

Data Augmentation Strategy based on Token Cut-off for Using Triplet Loss in Unsupervised Contrastive Learning

비지도 대조 학습에서 삼중항 손실 함수 도입을 위한 토큰 컷오프 기반 데이터 증강 기법

  • Myeongsoo Han (Dept. of Artificial Intelligence, Hanyang University) ;
  • Yoo Hyun Jeong (Dept. of Artificial Intelligence, Hanyang University) ;
  • Dong-Kyu Chae (Dept. of Computer Science, Hanyang University)
  • 한명수 (한양대학교 인공지능학과 ) ;
  • 정유현 (한양대학교 인공지능학과 ) ;
  • 채동규 (한양대학교 컴퓨터소프트웨어과 )
  • Published : 2023.05.18

Abstract

최근 자연어처리 분야에서 의미론적 유사성을 반영하기 위한 대조 학습 (contrastive learning) 관련 연구가 활발히 이뤄지고 있다. 이러한 대조 학습의 핵심은 의미론적으로 가까워져야 하는 쌍과 멀어져야 하는 쌍을 잘 구축하는 것이지만, 기존의 손실 함수는 문장의 상대적인 유사성을 풍부하게 반영하는데 한계가 있다. 이를 해결하기 위해, 이전 연구에서는 삼중 항 손실 함수 (triplet loss)를 도입하였으며, 본 논문에서는 이러한 삼중 항을 구성하기 위해 대조 학습에서의 효과적인 토큰 컷오프(cutoff) 데이터 증강 기법을 제안한다. BERT, RoBERTa 등 널리 활용되는 언어 모델을 이용한 실험을 통해 제안하는 방법의 우수한 성능을 보인다.

Keywords

Acknowledgement

이 논문은 2023 년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No.2020-0-01373, 인공지능대학원지원(한양대학교))을 받아 수행되었음.