A Comparison of Author Name Disambiguation Performance through Topic Modeling

토픽모델링을 통한 저자명 식별 성능 비교

  • Kim, Ha Jin (Dept. of Library & Information Science, Yonsei Univ.) ;
  • Jung, Hyo-jung (Dept. of Library & Information Science, Yonsei Univ.) ;
  • Song, Min (Dept. of Library & Information Science, Yonsei Univ.)
  • 김하진 (연세대학교 문헌정보학과) ;
  • 정효정 (연세대학교 문헌정보학과) ;
  • 송민 (연세대학교 문헌정보학과)
  • Published : 2014.08.21

Abstract

본 연구에서는 저자명 모호성 해소를 위해 토픽모델링 기법을 사용하여 저자명을 식별 하였다. 기존의 토픽모델링은 용어 자질만을 고려하였지만 본 연구에서는 제 3의 메타데이터 자질을 활용하여 ACT(Author-Conference Topic Model) 모델과 DMR(Dirichlet-multinomial Regression) 토픽모델링을 대상으로 저자명 식별 성능을 평가, 비교하였다. 또한 수작업으로 저자 식별 작업을 한 데이터셋을 기반으로 저자 당 논문 수와 토픽 수에 차이를 두고 연구를 진행하였다. 그 결과 저자명 식별에 있어 ACT 모델보다 DMR 토픽모델링의 성능이 더 우수한 것을 알 수 있었다.

Keywords