Keyphrase Extraction of Directive Utterances via Discourse Component: Construction and Data Augmentation of Korean Parallel Corpus

담화 성분을 활용한 지시 발화의 키프레이즈 추출: 한국어 병렬 코퍼스 구축 및 데이터 증강 방법론

  • Cho, Won Ik (Seoul National University, Department of Electrical and Computer Engineering and INMC) ;
  • Moon, Young Ki (Department of Computer Engineering, Inha University) ;
  • Kim, Jong In (Interdisciplinary Program in Cognitive Science, Seoul National University) ;
  • Kim, Nam Soo (Seoul National University, Department of Electrical and Computer Engineering and INMC)
  • 조원익 (서울대학교 전기정보공학부 및 뉴미디어통신공동연구소) ;
  • 문영기 (인하대학교 컴퓨터공학과) ;
  • 김종인 (서울대학교 인지과학협동과정) ;
  • 김남수 (서울대학교 전기정보공학부 및 뉴미디어통신공동연구소)
  • Published : 2019.10.10

Abstract

문서 요약, 키프레이즈 추출과 패러프레이징은 인간이, 혹은 기계가 문서를 보다 원활히 이해하는 데에 도움을 주는 방법론들이다. 우리는 본 연구에서 질문/요구 등의 지시성 발화를 대상으로, 핵심 내용을 추출하는 간단한 방법론을 통해 한국어 병렬 코퍼스를 구축한다. 또한, 우리는 인적 자원을 활용한 효율적인 데이터 증강 전략을 통해 부족하거나 필수적인 유형의 발화의 양을 보강하고, 약 5만 쌍 크기의 코퍼스를 제작하여 이를 공개한다.

Keywords

Acknowledgement

본 연구는 2019년도 산업통상자원부 및 산업기술평가관리원(KEIT) 연구비 지원(10076583)이 있었기에 가능했습니다. 또한, 연구의 개념적인 유용성을 확인해 주신 이규환, 정지오, Reinald Kim Amplayo님과 데이터 증강에 도움을 주신 고은아, 기경서, 김상현, 류기민, 이동호, 이윤경, 정민화, 그리고 정예슬 님에게 이 자리를 빌어 감사의 말씀을 전합니다.