Korean Entity Linking based on KorBERT and Popularity

KorBERT와 Popularity 정보에 기반한 한국어 개체연결

  • Jeong Heo (ETRI, Language Intelligence Research Section) ;
  • Kyung-Man Bae (ETRI, Language Intelligence Research Section) ;
  • Soo-Jong Lim (ETRI, Language Intelligence Research Section)
  • 허정 (한국전자통신연구원, 언어지능연구실) ;
  • 배경만 (한국전자통신연구원, 언어지능연구실) ;
  • 임수종 (한국전자통신연구원, 언어지능연구실)
  • Published : 2022.10.18

Abstract

본 논문에서는 KorBERT와 개체 인기정보(popularity)를 이용한 개체연결 기술을 소개한다. 멘션인식(mention detection)은 KorBERT를 이용한 토큰분류 문제로 학습하여 모델을 구성하였고, 개체 모호성해소(entity disambiguation)는 멘션 컨텍스트와 개체후보 컨텍스트 간의 의미적 연관성에 대한 KorBERT기반 이진분류 문제로 학습하여 모델을 구성하였다. 개체 인기정보는 위키피디아의 hyperlink, inlink, length 정보를 활용하였다. 멘션인식은 ETRI 개체명 인식기를 이용한 모델과 비교하였을 경우, ETRI 평가데이터에서는 F1 0.0312, 국립국어원 평가데이터에서는 F1 0.1106의 성능 개선이 있었다. 개체 모호성해소는 KorBERT 모델과 Popularity 모델을 혼용한 모델(hybrid)에서 가장 우수한 성능을 보였다. ETRI 평가데이터에서는 Hybrid 모델에서의 개체 모호성 해소의 성능이 Acc. 0.8911 이고, 국립국어원 평가데이터에서는 Acc. 0.793 이였다. 최종적으로 멘션인식 모델과 개체 모호성해소 모델을 통합한 개체연결 성능은 ETRI 평가데이터에서는 F1 0.7617 이고, 국립국어원 평가데이터에서는 F1 0.6784 였다.

Keywords

Acknowledgement

이 논문은 2022년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No. 2013-2-00131, [엑소브레인-총괄/1세부] 휴먼 지식증강 서비스를 위한 지능진화형 WiseQA 플랫폼 기술 개발)과 2022년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No. RS-2022-00187238, 효율적 사전학습이 가능한 한국어 대형 언어모델 사전학습 기술 개발)