R&D 과제의 유사도 및 중복도 측정 시스템에 관한 연구

A System for Measuring the Similarity and Redundancy of R&D Project

  • 발행 : 2014.05.28

초록

R&D 과제간의 유사성과 중복성을 분석하는 것은 정부 예산의 효율적 투자를 위해 중요하다. 정부 R&D 과제의 기획 시, 예산의 중복 지원을 방지하기 위해 연구 관리 전담기관, 관련 부처 및 정부차원에서 연구 과제의 중복성을 검토하고 있다. 그러나, 기존의 유사도 분석은 신규 과제 제안서와 기존의 R&D 과제 제안서를 키워드 중심으로 비교, 검색하는 방식에 의존하고 있어, 과제명의 일부 수정, 기술상의 단순 대치 등의 경우, 유사도를 정확히 측정하지 못하는 취약점이 존재한다. 본 연구에서는, R&D 과제 문서의 경우에, 이 문서들을 구별할 수 있는 특징으로써 특허 정보를 활용하고자 한다. 특허 정보는 정부 R&D 특허동향조사사업(http://ipas.rndip.re.kr)을 통해 공표된 자료를 기반으로 한다. 본 연구에서는 신규과제가 입력되었을 때, 특허 정보를 이용하여 R&D 과제간의 유사성 및 중복성을 분석할 수 있는 방안을 제시하고자 한다. 이를 위해, 집합 이론 및 확률 이론을 기반으로 한 유사도 측정 모델을 제시한다. 또한 제시한 측정 모델을 실제 시스템으로 구현하여 중복문서를 식별하고 이들의 유사도를 계산하여 보여준다.

The analysis of the similarities and redundancies among R&D projects is important for the efficient investment of government budgets. When government R&D projects are planned, the redundancies of research tasks are examined by institutions specializing in research management, relevant offices and departments, and the government to prevent redundant funding. However, as existing similarity analyses depend on methods wherein new task proposals and existing R&D project proposals are compared and looked up based on keywords. This results in vulnerability wherein similarity cannot be accurately measured in the event of partial modifications of the task name or technical substitutions. This study aims to use patent information as characteristics by which R&D project documents can be identified. The patent data used is based on materials officially published by the government's R&D patent trend survey project (http://ipas.rndip.re.kr). The study aims to propose a method by which patent information can be used to analyze the similarity and redundancy among R&D projects when new projects are entered. For this purpose, a similarity measurement model based on set theory and probability theory is presented. The presented measurement model is implemented into an actual system to identify redundant documents, and calculate and show their similarity.

키워드