Data Augmentation Strategy based on Token Cut-off for Using Triplet Loss in Unsupervised Contrastive Learning

Myeongsoo Han;Yoo Hyun Jeong;Dong-Kyu Chae;

doi:10.3745/PKIPS.y2023m05a.618

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

2023.05a
/
Pages.618-620
/
2023
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

DOI QR Code

Data Augmentation Strategy based on Token Cut-off for Using Triplet Loss in Unsupervised Contrastive Learning

비지도 대조 학습에서 삼중항 손실 함수 도입을 위한 토큰 컷오프 기반 데이터 증강 기법

Myeongsoo Han (Dept. of Artificial Intelligence, Hanyang University) ;
Yoo Hyun Jeong (Dept. of Artificial Intelligence, Hanyang University) ;
Dong-Kyu Chae (Dept. of Computer Science, Hanyang University)

한명수 (한양대학교 인공지능학과 ) ;
정유현 (한양대학교 인공지능학과 ) ;
채동규 (한양대학교 컴퓨터소프트웨어과 )

Published : 2023.05.18

https://doi.org/10.3745/PKIPS.y2023m05a.618 Citation PDF

Download PDF

⟨ Previous Next ⟩

Abstract

최근 자연어처리 분야에서 의미론적 유사성을 반영하기 위한 대조 학습 (contrastive learning) 관련 연구가 활발히 이뤄지고 있다. 이러한 대조 학습의 핵심은 의미론적으로 가까워져야 하는 쌍과 멀어져야 하는 쌍을 잘 구축하는 것이지만, 기존의 손실 함수는 문장의 상대적인 유사성을 풍부하게 반영하는데 한계가 있다. 이를 해결하기 위해, 이전 연구에서는 삼중 항 손실 함수 (triplet loss)를 도입하였으며, 본 논문에서는 이러한 삼중 항을 구성하기 위해 대조 학습에서의 효과적인 토큰 컷오프(cutoff) 데이터 증강 기법을 제안한다. BERT, RoBERTa 등 널리 활용되는 언어 모델을 이용한 실험을 통해 제안하는 방법의 우수한 성능을 보인다.

Keywords

Acknowledgement

이 논문은 2023 년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No.2020-0-01373, 인공지능대학원지원(한양대학교))을 받아 수행되었음.

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

Data Augmentation Strategy based on Token Cut-off for Using Triplet Loss in Unsupervised Contrastive Learning

비지도 대조 학습에서 삼중항 손실 함수 도입을 위한 토큰 컷오프 기반 데이터 증강 기법

Abstract

Keywords

Acknowledgement

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)