한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)
- 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
- /
- Pages.97-102
- /
- 2019
- /
- 2005-3053(pISSN)
KorQuAD 2.0: 웹문서 기계독해를 위한 한국어 질의응답 데이터셋
KorQuAD 2.0: Korean QA Dataset for Web Document Machine Comprehension
- 김영민 (LG CNS, AI빅데이터연구소) ;
- 임승영 (LG CNS, AI빅데이터연구소) ;
- 이현정 (LG CNS, AI빅데이터연구소) ;
- 박소윤 (LG CNS, AI빅데이터연구소) ;
- 김명지 (LG CNS, AI빅데이터연구소)
- Kim, Youngmin (LG CNS, AI/Bigdata Research Center) ;
- Lim, Seungyoung (LG CNS, AI/Bigdata Research Center) ;
- Lee, Hyunjeong (LG CNS, AI/Bigdata Research Center) ;
- Park, Soyoon (LG CNS, AI/Bigdata Research Center) ;
- Kim, Myungji (LG CNS, AI/Bigdata Research Center)
- 발행 : 2019.10.10
초록
KorQuAD 2.0은 총 100,000+ 쌍으로 구성된 한국어 질의응답 데이터셋이다. 기존 질의응답 표준 데이터인 KorQuAD 1.0과의 차이점은 크게 세가지가 있는데 첫 번째는 주어지는 지문이 한두 문단이 아닌 위키백과 한 페이지 전체라는 점이다. 두 번째로 지문에 표와 리스트도 포함되어 있기 때문에 HTML tag로 구조화된 문서에 대한 이해가 필요하다. 마지막으로 답변이 단어 혹은 구의 단위뿐 아니라 문단, 표, 리스트 전체를 포괄하는 긴 영역이 될 수 있다. Baseline 모델로 구글이 오픈소스로 공개한 BERT Multilingual을 활용하여 실험한 결과 F1 스코어 46.0%의 성능을 확인하였다. 이는 사람의 F1 점수 85.7%에 비해 매우 낮은 점수로, 본 데이터가 도전적인 과제임을 알 수 있다. 본 데이터의 공개를 통해 평문에 국한되어 있던 질의응답의 대상을 다양한 길이와 형식을 가진 real world task로 확장하고자 한다.