DOI QR코드

DOI QR Code

A Study on Development of Patent Information Retrieval Using Textmining

텍스트 마이닝을 이용한 특허정보검색 개발에 관한 연구

  • Go, Gwang-Su (School of Industrial Management Engineering, Korea University) ;
  • Jung, Won-Kyo (School of Industrial Management Engineering, Korea University) ;
  • Shin, Young-Geun (School of Industrial Management Engineering, Korea University) ;
  • Park, Sang-Sung (School of Industrial Management Engineering, Korea University) ;
  • Jang, Dong-Sik (School of Industrial Management Engineering, Korea University)
  • 고광수 (고려대학교 산업경영공학부) ;
  • 정원교 (고려대학교 산업경영공학부) ;
  • 신영근 (고려대학교 산업경영공학부) ;
  • 박상성 (고려대학교 산업경영공학부) ;
  • 장동식 (고려대학교 산업경영공학부)
  • Received : 2011.06.10
  • Accepted : 2011.08.11
  • Published : 2011.08.31

Abstract

The patent information retrieval system can serve a variety of purposes. In general, the patent information is retrieved using limited key words. To identify earlier technology and priority rights repeated effort is needed. This study proposes a method of content-based retrieval using text mining. Using the proposed algorithm, each of the documents is invested with characteristic value. The characteristic values are used to compare similarities between query documents and database documents. Text analysis is composed of 3 steps: stop-word, keyword analysis and weighted value calculation. In the test results, the general retrieval and the proposed algorithm were compared by using accuracy measurements. As the study arranges the result documents as similarities of the query documents, the surfer can improve the efficiency by reviewing the similar documents first. Also because of being able to input the full-text of patent documents, the users unacquainted with surfing can use it easily and quickly. It can reduce the amount of displayed missing data through the use of content based retrieval instead of keyword based retrieval for extending the scope of the search.

특허정보검색의 목적은 다양한 목적성을 지니고 있다. 일반적으로 특허정보검색은 제한된 키워드들에 의한 검색으로 이루어지며, 선행 특허권과 유사특허를 파악하기 위하여 반복적인 검색과 검토의 노력이 필요하다. 본 논문에서는 특허문서의 전체 텍스트를 분석하여 특징치를 찾아내는 내용기반 검색방법을 제안하고 검색결과를 질의문서와 유사한 문서 순으로 우선 배치하여 검색에 효율을 높일 수 있는 방법을 제안한다. 즉, 제안된 알고리즘은 텍스트 분석과정을 통해 각 문서별로 특징치가 부여되고 문서 간 특징치 비교를 통해 유사문서를 찾고 문서를 랭킹하여 유사정보를 제공한다. 텍스트 분석과정은 Stop-word과정, 핵심단어 추출과정, 핵심단어 가중치 산출 과정으로 이루어진다. 실험결과에서는 정확도 측정을 실시하여 일반검색엔진과 본 논문에서 제안한 알고리즘의 검색 정확도를 비교하였다. 본 논문은 검색결과를 질의한 문서와 유사한 문서 순으로 랭킹하기 때문에 검색이용자가 검색결과 검토과정에서 유사한 문서를 먼저 검토할 수 있도록 하여 검토시간을 줄이고 검색의 효율을 높일 수 있다. 또한 특허문서 전체 텍스트를 입력받아 사용하기 때문에 특허검색에 익숙하지 않는 이용자도 검색을 쉽고 빠르게 이용할 수 있다. 그리고 내용 기반 검색이 이루어지기 때문에 키워드 및 검색 식을 이용하는 방법보다 검색범위를 넓힐 수 있어서 검색에 누락되는 데이터를 줄일 수 있는 효과를 가진다.

Keywords

References

  1. Korea Intellectual Property Office, Patent and Information Analysis, Korea Intellectual Property Office, December, 2007.
  2. http://www.kipris.or.kr/kor/use/use_1.jsp
  3. KIPO, "The understanding of Intellectual Property", pp. 128-138, December, 2009.
  4. J. B. Baik, S. M. Kim and S. W. Lee, "Extracting Alternative Word Candidates for Patent Information Search", Korean Institute of Information Scientists and Engineers, Vol. 15, Issue. 2, pp. 299-303, April, 2009.
  5. K. J. Son and S. J. Lee, "Weighting Methods for compound Nouns in Patent Retrieval System", Korean Institute of Information Scientists and Engineers, Vol. 31, Issue. 1, pp. 895-897, April, 2004.
  6. H. G. Kim, S. H. Lee and Y. H. Mook, "Patent Search System Using IPC Clustering", Korea Contents Association, vol. 5, Issue. 2, pp. 103-106, November, 2007.
  7. L. H. Tong, H. Cong and S. Lixiang, "Automatic classification of patent documents for TRIZ users", World Patent Information, Vol. 28, Issue. 1, pp. 6-13, March, 2006. https://doi.org/10.1016/j.wpi.2005.07.007
  8. Y. L. Chen and Y. T. Chiu, "An IPC-based vector space model for patent retrieval", Information Processing & Management, Vol. 47, Issue. 3, pp. 309-322, May, 2011. https://doi.org/10.1016/j.ipm.2010.06.001
  9. K. K. Lai and S. J. Wu, "Using the patent co-citation approach to establish a new patent classification system", Information Processing & Management, Vol. 41, Issue. 2, pp. 313-330, March, 2005. https://doi.org/10.1016/j.ipm.2003.11.004
  10. WIPS, http://search.wips.co.kr/
  11. I. Feinerer, K. Hornik and D. Meyer. "Text mining infrastructure in R", Journal of Statistical Software, Vol. 25, Issue. 5, pp. 1-54, March 2008.
  12. WIKIPEDIA, http://en.wikipedia.org/wiki/Vector_space_model
  13. G. Salton and M. J. McGill, "Introduction to modern information retrieval", McGraw-Hill, 1983.

Cited by

  1. Analysis of the abstracts of research articles in food related to climate change using a text-mining algorithm vol.24, pp.6, 2013, https://doi.org/10.7465/jkdi.2013.24.6.1429