<그림 1> 국제특허 분류(IPC) 분류 체계
<그림 2> 기계학습 기반 특허 문헌 분류 실험 구성도
<그림 3> 딥러닝 기반 특허문헌 분류 모델 구성도
<그림 4> 워드 임베딩 벡터 종류에 따른 분포
<그림 5> 임베딩 벡터 크기에 따른 성능 분포
<그림 6> 딥러닝 모델의 성능 분포
<표 1> 특허문헌 분류에 대한 관련연구
<표 2> 추출형식에 따른 어휘 통계 자료
<표 3> 특허 문헌에 형태소 분석기 적용한 예
<표 4> 특허 문헌 분류를 위한 학습집합
<표 5> H02 클래스의 서브클래스들에서의 높은 TF-ICF값을 갖는 상위 10단어
<표 6> “유전자”와 유사도가 높은 상위 20 단어 목록
<표 7> 특허 문헌 분류를 위한 실험 종류
<표 8> TF-ICF와 워드벡터를 이용한 자질추출에 대한 성능 비교
<표 9> 딥러닝 모델 실험에 사용된 하이퍼 파라미터 종류와 범위
<표 10> 기계학습과 딥러닝 모델의 분류 성능 비교표
<표 11> 워드 임베딩 벡터 적용 방법 방법에 따른 분류 성능
<표 12> 단어 추출 방법에 따른 분류 성능 비교
<표 13> 제목 추가에 따른 분류 성능 비교
References
- Kim, Jao-Ho and Choi, Key-Sun. 2005. "Patent Document Categorization based on Semantic Structural Information." Proc. of the 17th Annual Conference on Human and Cognitive Language Technology, 28-34.
- Park, Chanjeong, Kim, Kiyong and Seong, Dongsu. 2014. "Automatic IPC Classification for Patent Documents of Convergence Technology Using KNN." Journal of Korean Institute of Information Technology, 12(3): 175-185.
- Lim, Sora and Kwon, Yongjin. 2017. "IPC Multi-label Classification based on Functional Characteristics of Fields in Patent Documents." Review of Korean Society for Internet Information, 18(1): 77-88.
- Korean Intellectual Property Office. 2018. Intellectual Property Statistics for 2017. Daejeon: Korean Intellectual Property Office.
- KIST, Convergence Research Policy Center. 2018. Research and Analysis of National Convergence Technology R & D in 2017. Seoul: KIST, Convergence Research Policy Center.
- Bahdanau D., Cho, K. and Bengio, Y. 2015. "Neural Machine Translation by Jointly Learning to Align and Translate." In Proceeding of ICLR 2015. [arXiv:1409.0473]
- Bojanowski, P. et al. 2017. "Enriching word vectors with subword information." Transactions of the Association for Computational Linguistics, 5: 135-146. https://doi.org/10.1162/tacl_a_00051
- Chen, Y. and Chang, Y. 2012. "A three-phase method for patent classification." Information Processing & Management, 48(6): 1017-1030. https://doi.org/10.1016/j.ipm.2011.11.001
- Collobert, R. and Weston, J. 2008. "A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning." In Proceeding of the 25th International Conference on Maching Learning.
- Fall, C. et al. 2003. "Automated categorization in the international patent classification." In Acm Sigir Forum, 37(1): 10-25. https://doi.org/10.1145/945546.945547
- Koster, C. and Seutter, M. 2003. "Taming wild phrases." In Proceedings of the 25th European conference on IR research (ECIR'03), 161-176.
- Larkey, L. 1999. "A patent search and classification system." In Proceedings of the fourth ACM conference on Digital libraries, 179-187.
- Mikolov, T., Chen, K., Corrado, G. and Dean, J. 2013. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781.
- Pennington, J., Socher, R. and Manning, C. 2014. "Glove: Global vectors for word representation." In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 1532-1543.
- Tikk, D., Biro, G. and Torcsvari, A. 2008. "A hierarchical online classifier for patent categorization." Emerging technologies of text mining: Techniques and applications. IGI Global, 244-267.