DOI QR코드

DOI QR Code

Enhanced Method for Person Name Retrieval in Academic Information Service

학술정보서비스에서 인명검색 고도화 방법

  • 한희준 (한국과학기술정보연구원 정보유통본부) ;
  • 예용희 (한국과학기술정보연구원 정보유통본부) ;
  • 류범종 (한국과학기술정보연구원 정보유통본부)
  • Published : 2010.02.28

Abstract

In the web or not, all academic information have the creator which produces that information. The creator can be individual, organization, institution, or country. Most information consist of the title, author and content. The article among academic information is described by title, author, keywords, abstract, publisher, ISSN(International Standard Serial Number) and etc., and the patent information is consisted some metadata such as invention title, applicant, inventors, agents, application number, claim items etc. Most web-based academic information services provide search functions to user by processing and handling these metadata, and the search function using the author field is important. In this paper, we propose an effective indexing management for person name search, and search techniques using boosting factor and near operation based on phrase search to improve precision rate of search result. And we describe person name retrieval result with another expression name, co-authors and persons in same research field. The approach presented in this paper provides accurate data and additional search results to user efficiently.

웹이든 웹이 아니든 존재하는 모든 학술정보에는 창작자, 즉 그 정보를 생산한 주체가 존재한다. 그 주체는 개인, 단체, 기관이 될 수 있으며 또는 해당 정보의 성격에 따라 국가가 될 수도 있다. 대부분의 정보는 제목과 저자, 내용으로 구성된다. 학술정보 가운데 논문의 경우 제목, 저자, 키워드, 요약, 발행일, 발행처, ISSN 등의 메타정보로 기술되며, 특허의 경우는 명칭, 출원인, 발명자, 대리인, IPC, 출원번호, 청구항등의 메타정보로 표현된다. 대부분의 웹 기반의 학술정보 서비스에서는 이들 메타정보를 가공 및 처리하여 사용자들에게 검색기능을 제공하며, 특히 인명에 해당하는 저자필드를 이용한 검색기능은 중요한 요소이다. 본 논문에서는 인명검색을 위한 효율적인 색인운영과 구검색 기반의 부스팅 요소를 적용한 인접연산 결과 랭킹 알고리즘을 이용해 인명검색 결과의 정확성 개선 방법을 제안하며, 인명검색시 공저자 및 관련연구자 검색결과를 제공하는 방법을 설명한다. 이는 학술정보서비스에 있어서 정확하고 부가적인 검색결과를 제공하는데 효과적으로 적용될 수 있다.

Keywords

References

  1. R. V. Guha and A. Garg, “Disambiguating People in Search,” In Proceedings of the 13th World Wide Web Conference, ACM Press, 2004.
  2. J. Artiles, J. Gonzalo, and F. Verdejo, “A testbed for people searching stategies in the www,” In Proc. of SIGIR'05, pp.569-570, 2005.
  3. P. Jakub, W. Karol, and S. Marcin, “On knowledge-poor methods for person name matching and lemmatization for highly inflectional languages,” Information retrieval, Vol.12, No.3, pp.275-299, 2009. https://doi.org/10.1007/s10791-008-9085-5
  4. C. Peter, “A Comparison of Personal Name Matching: Techniques and Practical Issues,” Technical report, TR-CS-06-02, Computer Science Laboratory, The Australian National University, Canberra, Australia. 2006.
  5. 이준호, “로마자로 표기된 한글 인명의 검색 방법”, 논문집: 이학편.공학편, 제31호, pp.181-189, 2002.
  6. 김혜숙, “한국인의 로마자 인명 표기의 통일성과 일관성: <영어영문학>게재자를 중심으로”, 영어학, 한국영어학회, 제1권, 제3호, pp.417-435, 2001.
  7. 송재용, 조영화, 류근호, “로마자표기 한글 인명을 위한 검색 모듈 설계와 인명 질의 확장기 구현”, 제25권, 제1호, pp.196-198, 1998.
  8. U. Pfeifer, T. Poersch, and N. Fuhr, “Retrieval effectiveness of proper name search methods,” Information Processing and Management, Vol.32, No.6, pp.667-679, 1996. https://doi.org/10.1016/S0306-4573(96)00042-8
  9. W. Winkler, “Overview of record linkage and current research directions,” Research Report Series #2006-2, Statistical Research Division, U.S. Census Bureau., 2006.
  10. A. Culotta, P. Kanani, R. Hall, M. Wick, and A. McCallum, “Author disambiguation using error-driven machine learning with a ranking loss function,” IIWeb-2007, 2007.
  11. P. Kanani, A. McCallum, and C. Pal, “Improving author coreference by resource-bounded information gathering from the Web,” IJCAI-2007, 2007.
  12. http://www.ndsl.kr
  13. http://scholar.ndsl.kr/artsrch.do