• 제목/요약/키워드: 하드 네거티브 샘플링

검색결과 3건 처리시간 0.017초

DPR의 효과적인 하드 네거티브 샘플링을 통한 효율적인 대조학습 방법 (Efficient contrastive learning method through the effective hard negative sampling from DPR)

  • 박성흠;김홍진;황금하;권오욱;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.348-353
    • /
    • 2022
  • 최근 신경망 기반의 언어모델이 발전함에 따라 대부분의 검색 모델에서는 Bi-encoder를 기반으로한 Dense retrieval 모델에 대한 연구가 진행되고 있다. 특히 DPR은 BM25를 통해 정답 문서와 유사한 정보를 가진 하드 네거티브를 사용하여 대조학습을 통해 성능을 더욱 끌어올린다. 그러나 BM25로 검색된 하드 네거티브는 term-base의 유사도를 통해 뽑히기 때문에, 의미적으로 비슷한 내용을 갖는 하드 네거티브의 역할을 제대로 수행하지 못하고 대조학습의 효율성을 낮출 가능성이 있다. 따라서 DRP의 대조학습에서 하드 네거티브의 역할을 본질적으로 수행할 수 있는 문서를 샘플링 하는 방법을 제시하고, 이때 얻은 하드 네거티브의 집합을 주기적으로 업데이트 하여 효과적으로 대조학습을 진행하는 방법을 제안한다. 지식 기반 대화 데이터셋인 MultiDoc2Dial을 통해 평가를 수행하였으며, 실험 결과 기존 방식보다 더 높은 성능을 나타낸다.

  • PDF

체크인 시퀀스 기반의 next POI 추천 시스템을 위한 네거티브 샘플링 방법 (A Negative Sampling Method for Next POI Recommender Systems Based on Check-in Sequences)

  • 김예빈;배홍균;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.470-472
    • /
    • 2023
  • 최근 위치 기반 장소 (POI) 추천 서비스가 많이 사용되면서, 사용자의 이전 방문지들에 대한 체크인 시퀀스를 기반으로 현재 (다음으로) 방문할 법한 POI 를 찾아 사용자에게 추천하는, next POI 추천 시스템에 관한 연구가 활발히 진행되고 있다. 하지만, 기존 연구들의 경우 next POI 추천을 위한 모델 학습 시, 사용자의 네거티브 POIs 에 관한 정교한 샘플링 없이 사용자 선호도를 추론해왔다. 본 연구에서는, 사전 학습된 별도의 사용자 선호도 추론 모델을 통해 사용자의 네거티브 POI로서 쉽게 분류되기 어려운 하드 네거티브 POIs 를 찾고, 이들을 위주로 수행되는 하드 네거티브 샘플링 방법을 새롭게 제안한다. 우리는 실 세계 데이터셋을 이용한 실험을 통해, 제안 방안이 기존 연구들에서 사용되어 온 랜덤 네거티브 샘플링 방법 대비 recall@5 기준, 최대 16.4%까지 추천 정확도를 향상시킬 수 있음을 확인하였다.

검색 모델 성능 향상을 위한 Hard Negative 추출 및 False Negative 문제 완화 방법 (Improving Dense Retrieval Performance by Extracting Hard Negative and Mitigating False Negative Problem)

  • 박성흠;김홍진;황금하;권오욱;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.366-371
    • /
    • 2023
  • 신경망 기반의 검색 모델이 활발히 연구됨에 따라 효과적인 대조학습을 위한 다양한 네거티브 샘플링 방법이 제안되고 있다. 대표적으로, ANN전략은 하드 네거티브 샘플링 방법으로 질문에 대해 검색된 후보 문서들 중에서 정답 문서를 제외한 상위 후보 문서를 네거티브로 사용하여 검색 모델의 성능을 효과적으로 개선시킨다. 하지만 질문에 부착된 정답 문서를 통해 후보 문서를 네거티브로 구분하기 때문에 실제로 정답을 유추할 수 있는 후보 문서임에도 불구하고 네거티브로 분류되어 대조학습을 진행할 수 있다는 문제점이 있다. 이러한 가짜 네거티브 문제(False Negative Problem)는 학습과정에서 검색 모델을 혼란스럽게 하며 성능을 감소시킨다. 본 논문에서는 False Negative Problem를 분석하고 이를 완화시키기 위해 가짜 네거티브 분류기(False Negative Classifier)를 소개한다. 실험은 오픈 도메인 질의 응답 데이터셋인 Natural Question에서 진행되었으며 실제 False Negative를 확인하고 이를 판별하여 기존 성능보다 더 높은 성능을 얻을 수 있음을 보여준다.

  • PDF