Automatic Clustering of Same-Name Authors Using Full-text of Articles

논문 원문을 이용한 동명 저자 자동 군집화

  • Kang, In-Su (NTIS Division, Korea Institute of Science and Technology Information) ;
  • Jung, Han-Min (NTIS Division, Korea Institute of Science and Technology Information) ;
  • Lee, Seung-Woo (NTIS Division, Korea Institute of Science and Technology Information) ;
  • Kim, Pyung (NTIS Division, Korea Institute of Science and Technology Information) ;
  • Goo, Hee-Kwan (NTIS Division, Korea Institute of Science and Technology Information) ;
  • Lee, Mi-Kyung (NTIS Division, Korea Institute of Science and Technology Information) ;
  • Goo, Nam-Ang (NTIS Division, Korea Institute of Science and Technology Information) ;
  • Sung, Won-Kyung (NTIS Division, Korea Institute of Science and Technology Information)
  • 강인수 (한국과학기술정보연구원, NTIS 사업단) ;
  • 정한민 (한국과학기술정보연구원, NTIS 사업단) ;
  • 이승우 (한국과학기술정보연구원, NTIS 사업단) ;
  • 김평 (한국과학기술정보연구원, NTIS 사업단) ;
  • 구희관 (한국과학기술정보연구원, NTIS 사업단) ;
  • 이미경 (한국과학기술정보연구원, NTIS 사업단) ;
  • 구남앙 (한국과학기술정보연구원, NTIS 사업단) ;
  • 성원경 (한국과학기술정보연구원, NTIS 사업단)
  • Published : 2006.11.10

Abstract

Bibliographic information retrieval systems require bibliographic data such as authors, organizations, source of publication to be uniquely identified using keys. In particular, when authors are represented simply as their names, users bear the burden of manually discriminating different users of the same name. Previous approaches to resolving the problem of same-name authors rely on bibliographic data such as co-author information, titles of articles, etc. However, these methods cannot handle the case of single author articles, or the case when articles do not have common terms in their titles. To complement the previous methods, this study introduces a classification-based approach using similarity between full-text of articles. Experiments using recent domestic proceedings showed that the proposed method has the potential to supplement the previous meta-data based approaches.

대용량 과학 기술 문헌의 탐색 및 검색에 있어서 저자, 저자 소속 기관, 게재지 등에 대해 고유 식별자에 기반한 표현의 필요성이 증가하고 있다. 특히, 과학 기술 문헌의 저자가 단순히 이름으로 표현될 경우, 동일명을 가진 서로 다른 저자들에 대한 구분은 사용자의 검색 부담을 가중시키게 된다. 이러한 동명이인의 문제를 해결하기 위한 기존의 접근법들은 공저자 정보, 논문 제목 등의 서지 정보에 의존하는 공통점을 지닌다. 그러나, 기존의 방법들은 공저자가 없거나 논문 제목 간의 공통 어휘가 발견되지 않을 경우 어려움을 겪게 된다. 본 연구에서는, 동명저자 문제 해소를 위한 기존의 접근법을 보완하기 위해, 동명저자들의 논문 원문의 내용에 기반한 문서 군집화 방법을 사용한다. 국내 학술대회 발표 논문집을 대상으로 한 실험에서 제안한 방법이 기존의 서지정보에 기반한 해법의 단점을 보완할 수 있다는 가능성을 보였다.

Keywords