Masked language modeling-based Korean Data Augmentation Techniques Using Label Correction

정답 레이블을 고려한 마스킹 언어모델 기반 한국어 데이터 증강 방법론

  • Myunghoon Kang (Department of Computer Science and Engineering, Korea University) ;
  • Jungseob Lee (Department of Computer Science and Engineering, Korea University) ;
  • Seungjun Lee (Department of Computer Science and Engineering, Korea University) ;
  • Hyeonseok Moon (Department of Computer Science and Engineering, Korea University) ;
  • Chanjun Park (Department of Computer Science and Engineering, Korea University) ;
  • Yuna Hur (Human-inspired AI Research) ;
  • Heuiseok Lim (Department of Computer Science and Engineering, Korea University)
  • 강명훈 (고려대학교 컴퓨터학과) ;
  • 이정섭 (고려대학교 컴퓨터학과) ;
  • 이승준 (고려대학교 컴퓨터학과) ;
  • 문현석 (고려대학교 컴퓨터학과) ;
  • 박찬준 (고려대학교 컴퓨터학과) ;
  • 허윤아 (Human-inspired AI 연구소) ;
  • 임희석 (고려대학교 컴퓨터학과)
  • Published : 2022.10.18

Abstract

데이터 증강기법은 추가적인 데이터 구축 혹은 수집 행위 없이 원본 데이터셋의 양과 다양성을 증가시키는 방법이다. 데이터 증강기법은 규칙 기반부터 모델 기반 방법으로 발전하였으며, 최근에는 Masked Language Modeling (MLM)을 응용한 모델 기반 데이터 증강 연구가 활발히 진행되고 있다. 그러나 기존의 MLM 기반 데이터 증강 방법은 임의 대체 방식을 사용하여 문장 내 의미 변화 가능성이 큰 주요 토큰을 고려하지 않았으며 증강에 따른 레이블 교정방법이 제시되지 않았다는 한계점이 존재한다. 이러한 문제를 완화하기 위하여, 본 논문은 레이블을 고려할 수 있는 Re-labeling module이 추가된 MLM 기반 한국어 데이터 증강 방법론을 제안한다. 제안하는 방법론을 KLUE-STS 및 KLUE-NLI 평가셋을 활용하여 검증한 결과, 기존 MLM 방법론 대비 약 89% 적은 데이터 양으로도 baseline 성능을 1.22% 향상시킬 수 있었다. 또한 Gate Function 적용 여부 실험으로 제안 방법 Re-labeling module의 구조적 타당성을 검증하였다.

Keywords

Acknowledgement

이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기술기획평가원의 지원을 받아 수행된 연구이며 (No. 2020-0-00368, 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발) 또한 이 논문은 2021년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NRF-2021R1A6A1A03045425)