DOI QR코드

DOI QR Code

IPC Multi-label Classification based on Functional Characteristics of Fields in Patent Documents

특허문서 필드의 기능적 특성을 활용한 IPC 다중 레이블 분류

  • Lim, Sora (Dept. of Telecommunication and Information Engineering, Korea Aerospace University) ;
  • Kwon, YongJin (Dept. of Telecommunication and Information Engineering, Korea Aerospace University)
  • Received : 2016.06.09
  • Accepted : 2016.12.01
  • Published : 2017.02.28

Abstract

Recently, with the advent of knowledge based society where information and knowledge make values, patents which are the representative form of intellectual property have become important, and the number of the patents follows growing trends. Thus, it needs to classify the patents depending on the technological topic of the invention appropriately in order to use a vast amount of the patent information effectively. IPC (International Patent Classification) is widely used for this situation. Researches about IPC automatic classification have been studied using data mining and machine learning algorithms to improve current IPC classification task which categorizes patent documents by hand. However, most of the previous researches have focused on applying various existing machine learning methods to the patent documents rather than considering on the characteristics of the data or the structure of patent documents. In this paper, therefore, we propose to use two structural fields, technical field and background, considered as having impacts on the patent classification, where the two field are selected by applying of the characteristics of patent documents and the role of the structural fields. We also construct multi-label classification model to reflect what a patent document could have multiple IPCs. Furthermore, we propose a method to classify patent documents at the IPC subclass level comprised of 630 categories so that we investigate the possibility of applying the IPC multi-label classification model into the real field. The effect of structural fields of patent documents are examined using 564,793 registered patents in Korea, and 87.2% precision is obtained in the case of using title, abstract, claims, technical field and background. From this sequence, we verify that the technical field and background have an important role in improving the precision of IPC multi-label classification in IPC subclass level.

최근 지식과 정보가 가치를 생산하는 지식기반사회로 접어들면서 지식재산권의 대표적인 형태인 특허에 대한 중요성이 매우 높아지고 있으며 출원되는 특허의 양도 매년 증가하고 있다. 방대한 양의 특허정보를 효과적으로 이용하기 위해서 특허문서를 그 발명의 기술적 주제에 따라 적절하게 분류하는 것이 필요하며 이를 위해 IPC(International Patent Classification)가 주로 사용되고 있다. 현재 주로 사람의 손으로 이뤄지는 특허문서의 IPC 분류과정의 효율성을 높이기 위하여 다양한 데이터마이닝과 기계학습 알고리즘을 기반으로 IPC 자동분류에 관한 연구들이 수행되어 왔다. 하지만 기존의 IPC 자동분류에 관한 연구의 대부분은 특허문서의 구조적 특징과 같은 특허문서 고유의 데이터 특성에 대한 고려보다는 다양한 기계학습 알고리즘을 특허문서로 적용하는 것에 초점을 맞춰왔다. 이에 본 논문에서는 IPC 자동분류를 위해 특허문서의 특징과 구조적 필드의 역할을 기반으로 특허문서 분류에 영향을 끼치는 두 가지 필드, 기술분야 및 배경기술 필드의 활용을 제안한다. 그리고 특허문서가 동시에 다수의 IPC 분류코드를 가지는 점을 반영하여 다중 레이블 분류(multi-label classification) 모델을 구축한다. 또한 IPC 다중 레이블 분류의 실제 현장에서의 적용 가능성 확인을 위해 630개의 범주를 가지는 IPC 서브클래스 레벨까지 분류 가능한 수법을 제안한다. 이를 위해 국내에서 등록된 564,793건의 특허문서를 대상으로 특허문서의 구조적 필드의 영향을 확인하기 위한 IPC 다중 레이블 분류 실험을 수행하였고, 그 결과 제목, 요약, 청구항, 기술분야 및 배경기술 필드를 활용한 실험에서 87.2%의 싱글매치 정확도를 얻었다. 이를 통해 기술분야 및 배경기술 두 필드가 IPC 서브클래스 레벨까지의 다중 레이블 분류의 정확도를 향상시키는데 중요한 역할을 하고 있음을 확인하였다.

Keywords

References

  1. "Intellectual Property Statistics for 2014," Korean Intellectual Property Office, ISSN 2092-5417, 2015.
  2. International Patent Classification Guide, http://www.kipo.go.kr/kpo/user.tdf?a=user.html.HtmlApp&c=4030 4&catmenu=m06_07_02_05&year=2015&ver=01
  3. "Guidelines for Examination," Korean Intellectual Property Office, ISSN 2092-8866.
  4. C.J. Fall, A. Torcsvari, K.Benzineb, G. Karetka, "Automated Categorization in the International Patent Classification," In ACM SIGIR forum, April 2003, vol. 37(1), pp. 10-25. http://dx.doi.org/10.1145/945546.945547
  5. LS. Larkey, "A Patent Search and Classification System," In the 4th ACM Conference on Digital Libraries, pages 19-87, Berkeley, CA, August 99. http://dx.doi.org/10.1145/313238.313304
  6. D. Tikk, G. Biro, A. Törcsvari, "A Hierarchical Online Classifier for Patent Categorization," In Emerging Technologies of Text mining: Techniques and Applications (2007), pp. 244-267. https://doi.org/10.4018/9781599043739.ch012
  7. Y.-L. Chen, Y.-C. Chang, "A three-phase method for patent classification," Information Processing and Management, Vol. 48, no. 6, pp. 1017-1030, 2012. https://doi.org/10.1016/j.ipm.2011.11.001
  8. D. Seneviratne, S. Geva, G. Zuccon, and G. Ferraro, "A Signature Approach to Patent Classification," Information Retrieval Technology Vol. 9460, pp. 413-419, 2016. https://doi.org/10.1007/978-3-319-28940-3_35
  9. C. Park, K. Kim, and D. Seong, "Automatic IPC Classification for Patent Documents of Convergence Technology Using KNN," Journal of KIIT. Vol. 12, no. 3, pp. 175-185, Mar. 2014. https://doi.org/10.14801/kiitr.2014.12.3.175
  10. J. Kim, K. Choi, "Patent Document Categorization based on Semantic Structural Information," In Proc. of the 17th Annual Conference on Human and Cognitive Language Technology, pp. 28-34, 2005. http://www.dbpia.co.kr/Article/NODE01065130
  11. KIPRIS (Korea Intellectual Property Rights Information Service) plus, http://plus.kipris.or.kr/
  12. KLT2000, Korean Morphologigal Analyzer, http://nlp.kookmin.ac.kr/
  13. A. M. Kibriya, E. Frank, B. Pfahringer, and G. Holmes, "Multinomial naive bayes for text categorization revisited," In Seventh Australian joint conference on artificial intelligence, Springer, Berlin, pp. 488-499, 2004. https://doi.org/10.1007/978-3-540-30549-1_43

Cited by

  1. 잠재 의미 분석을 적용한 유사 특허 검색 서비스 시스템 vol.22, pp.8, 2017, https://doi.org/10.6109/jkiice.2018.22.8.1049