검색 모델 성능 향상을 위한 Hard Negative 추출 및 False Negative 문제 완화 방법

Improving Dense Retrieval Performance by Extracting Hard Negative and Mitigating False Negative Problem

  • 박성흠 (건국대학교 인공지능학과) ;
  • 김홍진 (건국대학교 인공지능학과) ;
  • 황금하 (한국전자통신연구원) ;
  • 권오욱 (한국전자통신연구원) ;
  • 김학수 (건국대학교 컴퓨터공학부)
  • Seong-Heum Park (Konkuk University, Department of Artificial Intelligence) ;
  • Hongjin Kim (Konkuk University, Department of Artificial Intelligence) ;
  • Jin-Xia Huang (Electronics and Telecommunications Research Institute) ;
  • Oh-Woog Kwon (Electronics and Telecommunications Research Institute) ;
  • Harksoo Kim (Konkuk University, Department of Computer Science and Engineering)
  • 발행 : 2023.10.12

초록

신경망 기반의 검색 모델이 활발히 연구됨에 따라 효과적인 대조학습을 위한 다양한 네거티브 샘플링 방법이 제안되고 있다. 대표적으로, ANN전략은 하드 네거티브 샘플링 방법으로 질문에 대해 검색된 후보 문서들 중에서 정답 문서를 제외한 상위 후보 문서를 네거티브로 사용하여 검색 모델의 성능을 효과적으로 개선시킨다. 하지만 질문에 부착된 정답 문서를 통해 후보 문서를 네거티브로 구분하기 때문에 실제로 정답을 유추할 수 있는 후보 문서임에도 불구하고 네거티브로 분류되어 대조학습을 진행할 수 있다는 문제점이 있다. 이러한 가짜 네거티브 문제(False Negative Problem)는 학습과정에서 검색 모델을 혼란스럽게 하며 성능을 감소시킨다. 본 논문에서는 False Negative Problem를 분석하고 이를 완화시키기 위해 가짜 네거티브 분류기(False Negative Classifier)를 소개한다. 실험은 오픈 도메인 질의 응답 데이터셋인 Natural Question에서 진행되었으며 실제 False Negative를 확인하고 이를 판별하여 기존 성능보다 더 높은 성능을 얻을 수 있음을 보여준다.

키워드

과제정보

이 논문은 2019년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (2019-0-00004, 준지도학습형 언어지능 원천기술 및 이에 기반한 외국인 지원용 한국어 튜터링 서비스 개발)