DOI QR코드

DOI QR Code

A Study on the Development of Search Algorithm for Identifying the Similar and Redundant Research

유사과제파악을 위한 검색 알고리즘의 개발에 관한 연구

  • 박동진 (공주대학교 산업시스템공학과) ;
  • 최기석 (한국과학기술정보연구원) ;
  • 이명선 (한국과학기술정보연구원) ;
  • 이상태 (한국표준과학연구원 전산정보팀)
  • Published : 2009.11.28

Abstract

To avoid the redundant investment on the project selection process, it is necessary to check whether the submitted research topics have been proposed or carried out at other institutions before. This is possible through the search engines adopted by the keyword matching algorithm which is based on boolean techniques in national-sized research results database. Even though the accuracy and speed of information retrieval have been improved, they still have fundamental limits caused by keyword matching. This paper examines implemented TFIDF-based algorithm, and shows an experiment in search engine to retrieve and give the order of priority for similar and redundant documents compared with research proposals, In addition to generic TFIDF algorithm, feature weighting and K-Nearest Neighbors classification methods are implemented in this algorithm. The documents are extracted from NDSL(National Digital Science Library) web directory service to test the algorithm.

국가적으로 그리고 각 연구기관에서는 투자의 효율성을 기하기 위하여 연구사업 선정과정에서 데이터베이스로부터 중복과제 혹은 유사과제를 검색하는 과정을 거친다. 최근 부얼리언 기반의 키워드 매칭 검색알고리즘의 발전 및 이를 채택한 검색엔진의 개발로 인하여 검색의 정확도가 많이 향상되었지만, 사용자가 입력하는 제한된 수의 키워드들에 의한 검색은 유사과제 파악과 우선순위의 결정에 어려움이 있다. 본 연구에서는 제안된 과제의 문서를 분석하여 다수의 색인어들을 추출하고, 이들에게 가중치를 부여한 후, 기존의 문서들과 비교하여 유사과제를 찾아내는 문서단위의 검색 알고리즘을 제안한다. 구체적으로 벡터공간검색(Vector-Space Retrieval)모델의 한 종류인 TFIDF(Term Frequency Inverse document Frequency)를 기본 구조로 채택한다. 또한 개발되는 알고리즘에는 연구과제 제안문서의 구조에 적합한 속성별 가중치(feature weighting)를 반영하고 검색속도의 향상을 위하여 K-최근접 문서(KNN: K-Nearest Neighbors) 기법도 반영한 알고리즘을 제시한다. 실험을 위하여 실제 연구제안 문서와 구조가 동일한 기존의 보고서를 사용하였는데, KISTI에서 운영하는 과학기술정보포털서비스인 NDSL에서 이미 분류해 놓은 4분야의 1,000 개 연구 보고서 문서를 발췌하여 실험을 하였다.

Keywords

References

  1. 과학기술정보통합서비스, http://www.ndsl.kr
  2. 국가과학기술종합정보서비스, http://www.ntis.go.kr
  3. 중복지원방지시스템, https://www.naris.re.kr/naris
  4. Goffinet L. and Noirhomme-Fraiture M. (1995) Automatic hypertext link generation based on similarity measures between documents, Research Paper, RP-96-034, Institut d'Informatique, FUNDP. Available at http://www.fundp.ac.be/-lgoffine/Hypertext/semantic_links.html (visited November, 2002).
  5. 최준영, 배환국, 김기태, "하이퍼링크 정보를 이용한 웹문서의 핵심어 추출 및 개념구성," 98 ES 및 MIS 춘계학회 자료집, 1998.
  6. T. Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevant Features, In Proc. of the European Conference on Machine Learning, Springer, 1998.
  7. Y. Yang and X Liu, A reexamination of text categorization methods, In SIGIR-99, 1999.
  8. 이종운 "사례기반추론을 이용한 한글 문서분류 시스템의 성능 향상에 관한 연구", 아주대학교 대학원 경영정보학과 석사학위논문, 2001.
  9. F. Debole and F. Sebastiani, Supervised tern weighting for automated text categorization, In Proc. of SAC-03, 18th ACM Symposium of Applied Computing, pp.784-788, 2003.

Cited by

  1. Quantification of Similarity Using the Edit-distance Method for Searching Cooperative Programs Related to Disaster and Safety Management vol.18, pp.3, 2018, https://doi.org/10.9798/KOSHAM.2018.18.3.151