DOI QR코드

DOI QR Code

A study on Similarity analysis of National R&D Programs using R&D Project's technical classification

R&D과제의 기술분류를 이용한 사업간 유사도 분석 기법에 관한 연구

  • Received : 2012.08.07
  • Accepted : 2012.09.11
  • Published : 2012.09.30

Abstract

Recently, coordination task of similarity between national R&D programs is emphasized on view from the R&D investment efficiency. But the previous similarity search method like text-based similarity search which using keyword of R&D projects has reached the limit due to deviation of document's quality. For the solve the limitations of text-based similarity search using the keyword extraction, in this study, utilization of R&D project's technical classification will be discussed as a new similarity search method when analyzed of similarity between national R&D programs. To this end, extracts the Science and Technology Standard Classification of R & D projects which are collected when national R&D Survey & analysis, and creates peculiar vector model of each R&D programs. Verify a reliability of this study by calculate the cosine-based and Euclidean distance-based similarity and compare with calculated the text-based similarity.

최근 R&D 투자효율성 제고를 목표로 사업 간의 유사중복 조정에 대한 중요성이 강조되고 있으나, 과제 혹은 예산요구서 내용 등을 텍스트 기반으로 비교하는 기존 유사검색 방식은 내용의 품질 편차 등으로 인해 유의미한 유사성 도출에 제한점이 있다. 이러한 텍스트 기반의 키워드 추출을 통한 유사검색 한계성을 극복하기 위한 방안으로 본 연구에서는 사업 간 유사도 분석 시 과제의 기술분류를 활용한다. 국가R&D사업 조사 분석 시 수집된 과제들의 과학기술표준분류를 추출하여 사업별 고유벡터 모형을 생성 후 이를 이용하여 코사인 기반, 유클리디안 거리기반 알고리즘을 통해 각 사업 간 유사도를 측정하였으며 기존 키워드 추출방식으로 유사도를 측정한 결과와의 비교를 통해 연구 효율성을 검증하였다.

Keywords

References

  1. Kittiphattanabawon, Theeramunkong, Nantajeewara wat, "News Relation Discovery Based on Association Rule Mining with Combining Factors", IEICE Transactions on Information and Systems, Vol.E94D, pp.404-415, MAR, 2011
  2. Wen Zhang, Taketoshi Yoshida, Xijin Tang, "A com parative study of TF*IDF, LSI and multi-words for text classification", Expert Systems with Applications, Vol.38, pp.2758-2765, MAR, 2011 https://doi.org/10.1016/j.eswa.2010.08.066
  3. Amine. A, Elberrichi. Z, Simonet. M, "Evaluation of Text Clustering Methods Using WordNet", Internat ional ARAB Journal of Information Technology, Vol.7, pp.349-357, OCT, 2010
  4. S. Yoon, S. Kim, and S. Park. "A link-based similarity measure for scientific literature. In Proc. of Int''l. Conf. on World Wide Web, pp.1213-1214, April, 2010.
  5. Egghe.L,"New Relations Between Similarity Measures for Vectors Based on Vector Norms", Journal of the American society for Information science and technology, Vol.60, pp.232-239, FEB, 2009 https://doi.org/10.1002/asi.20949
  6. V.Baladi and B. Vallee, "A note on "Euclidean algorithms are Gaussian", Journal of Number Theory, Vol.129, No.10, OCT, 2009
  7. Tata. S, Patel, JM, "Estimating the selectivity of tf-idf based cosine similarity predicates", Sigmod Record, Vol.36, pp.75-80, DEC, 2007 https://doi.org/10.1145/1361348.1361351
  8. Deshpande, M. and Karypis,, G."Item-based top-N recommendation Algorithms", ACM Transactions on Information Systems, Vol.22, No.1, pp.143-177. Jan, 2004 https://doi.org/10.1145/963770.963776
  9. Jain, A.K., Murty, M. N. and Flynn, P. J., "Data cluste ring: A review", ACM Computing Surveys, Vol.31, No.3, pp.264-321, SEP, 1999 https://doi.org/10.1145/331499.331504
  10. Mao,J. and Jain, A. K., "A self-organizing network for hyperellipsoidal clustering(HEC)", IEEE Transa ctions on Neural Network, Vol.7, No.1, pp.16-29, MAR, 1996 https://doi.org/10.1109/72.478389
  11. 고용수, 김치용, 김성수, "정부의 연구개발(R&D) 투자 규모 및 향후 투자방향에 대한 제언", KISTEP, 2012
  12. 윤석호, 김상욱, "논문 데이터베이스를 위한 텍스트 기반 유사도 계산 방안", 정보처리학회논문지, Vol 18D, No.5, pp.317-322, 2011 https://doi.org/10.3745/KIPSTD.2011.18D.5.317
  13. 이광희, "지식지도 작성을 위한 연구", 한국학술진흥재단, Dec, 2007
  14. 이경일, 서형국, 안태성, "텍스트마이닝 기반 고정밀검색 시스템", 한국정보처리학회, Vol 11,No.2, pp.88-97, 2004
  15. 송미란, 김교정, "사용자 그룹을 이용한 효과적인 정보 여과 및 학습방법에 관한 연구", 숙명여자대학교, 2000

Cited by

  1. A Model for Measuring the R&D Project Similarity using Patent Information vol.18, pp.5, 2014, https://doi.org/10.6109/jkiice.2014.18.5.1013
  2. Systematical Classification Scheme Management to Provide Efficient National R&D Service in P2P vol.86, pp.1, 2016, https://doi.org/10.1007/s11277-015-3111-x
  3. Quantification of Similarity Using the Edit-distance Method for Searching Cooperative Programs Related to Disaster and Safety Management vol.18, pp.3, 2018, https://doi.org/10.9798/KOSHAM.2018.18.3.151