한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)
- 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
- /
- Pages.41-46
- /
- 2021
- /
- 2005-3053(pISSN)
강건한 질의응답 모델을 위한 데이터셋 증강 기법
Adversarial Examples for Robust Reading Comprehension
- Jang, Hansol (LG AI Research) ;
- Jun, Changwook (LG AI Research) ;
- Choi, Jooyoung (LG AI Research) ;
- Sim, Myoseop (LG AI Research) ;
- Kim, Hyun (LG AI Research) ;
- Min, Kyungkoo (LG AI Research)
- 발행 : 2021.10.14
초록
기계 독해는 문단과 질문이 주어질 때에 정답을 맞추는 자연어처리의 연구분야다. 최근 기계 독해 모델이 사람보다 높은 성능을 보여주고 있지만, 문단과 질의가 크게 변하지 않더라도 예상과 다른 결과를 만들어 성능에 영향을 주기도 한다. 본 논문에서는 문단과 질문 두 가지 관점에서 적대적 예시 데이터를 사용하여 보다 강건한 질의응답 모델을 훈련하는 방식을 제안한다. 트랜스포머 인코더 모델을 활용하였으며, 데이터를 생성하기 위해서 KorQuAD 1.0 데이터셋에 적대적 예시를 추가하여 실험을 진행하였다. 적대적 예시를 이용한 데이터로 실험한 결과, 기존 모델보다 1% 가량 높은 성능을 보였다. 또한 질의의 적대적 예시 데이터를 활용하였을 때, 기존 KorQuAD 1.0 데이터에 대한 성능 향상을 확인하였다.