Performance Comparison of Statistics-Based Machine Learning Model for Classification of Technical Documents

Kim, Jin-gu;Yu, Heonchang;

doi:10.3745/PKIPS.y2022m05a.393

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

2022.05a
/
Pages.393-396
/
2022
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

DOI QR Code

Performance Comparison of Statistics-Based Machine Learning Model for Classification of Technical Documents

기술문서 분류를 위한 통계기반 기계학습 모델 성능비교 및 한계 연구

Kim, Jin-gu (Dept. of Computer & Information Technology, Korea University) ;
Yu, Heonchang (Dept. of Computer & Information Technology, Korea University)

김진구 (고려대학교 컴퓨터정보통신대학원 빅데이터융합학과) ;
유헌창 (고려대학교 컴퓨터정보통신대학원 빅데이터융합학과)

Published : 2022.05.17

https://doi.org/10.3745/PKIPS.y2022m05a.393 Citation PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 연구는 국방과학기술 분야의 특허 및 논문 실적을 이용하여 통계기반 기계학습 모델 4 종을 학습하고, 실제 분석 대상기관의 데이터 입력결과를 분석하여 실용성에 대한 한계점 분석을 목적으로 한다. 기존 연구에서는 특허분류코드를 기준으로 분류하여 특수 목적으로 활용하거나 세부 연구 범위 내 연구 주제탐색 및 특징연구 등 미시적인 관점에서의 상세연구 활용 목적인 반면, 본 연구는 거시적인 관점에서 연구의 전체적인 흐름과 경향성 파악을 목적으로 한다. 이에 ICT 기술 138 종의 특허 및 논문 30,965 건과 국방과학기술 192 종의 특허 및 논문 23,406 건을 학습데이터로 각 모델을 학습하였다. 비교한 통계기반 학습모델은 Support Vector Machines, Decision Tree, Naive Bayes, XGBoost 모델이다. 학습데이터에 대한 학습검증 단계에서는 최대 99.4%의 성능을 보였다. 다만, 실제 분석대상기관의 특허 및 논문 12,824 건으로 입력분석한 결과, 모델별 편향성 문제, 데이터 전처리 이슈, 다중클래스 및 다중레이블 문제를 확인, 도출한 문제에 대한 해결방안을 제시하고 추가 연구의 방향성을 제시한다.

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

Performance Comparison of Statistics-Based Machine Learning Model for Classification of Technical Documents

기술문서 분류를 위한 통계기반 기계학습 모델 성능비교 및 한계 연구

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)