Korean Open Domain Question Answering System Using KorQuAD

KorQuAD를 활용한 한국어 오픈도메인 질의응답 시스템

  • Cho, Sanghyun (Dept. of Computer Science Pusan National University) ;
  • Kim, Minho (Dept. of Computer Science Pusan National University) ;
  • Kwon, Hyuk-Chul (Dept. of Computer Science Pusan National University)
  • 조상현 (부산대학교 전기전자컴퓨터공학과) ;
  • 김민호 (부산대학교 전기전자컴퓨터공학과) ;
  • 권혁철 (부산대학교 전기전자컴퓨터공학과)
  • Published : 2019.10.10

Abstract

오픈 도메인 질의응답이란, 질문을 줬을 때 그 질문과 연관성이 높은 문서를 검색하고 검색된 문서에서 정답을 추출하는 태스크이다. 본 논문은 기계 독해 데이터인 KorQuAD를 활용한 오픈도메인 질의응답 시스템을 제안한다. 문서 검색기를 이용하여 질문과 관련 있는 위키피디아 문서들을 검색하고 검색된 문서에 단락 선택 모델을 통해서 문서 질문과 연관성이 높은 단락들을 선별하여 기계 독해 모델에서 처리해야 할 입력의 수를 줄였다. 문서 선별모델에서 선별된 여러 단락에서 추출된 정답 후보에서 여러 가지 정답 모형을 적용하여 성능을 비교하는 실험을 하였다. 본 논문에서 제안한 오픈도메인 질의응답 시스템을 KorQuAD에 적용했을 때, 개발 데이터에서 EM 40.42%, F1 55.34%의 성능을 보였다.

Keywords

Acknowledgement

본 연구는 미래창조과학부 및 정보통신기술연구진흥센터의 정보통신·방송 연구개발사업의 일환으로 수행하였음. [2013-0-00179, (엑소브레인-3세부) 컨텍스트 인지형 Deep-Symbolic 하이브리드 지능 원천 기 술 개발 및 언어 지식 자원 구축]