Annual Conference of KIPS (한국정보처리학회:학술대회논문집)
- 2020.05a
- /
- Pages.516-518
- /
- 2020
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
Comparison of Korean Standard Industrial Classification Automatic Classification Model on Deep Learning
딥러닝 기반 한국 표준 산업분류 자동분류 모델 비교
- Woo, Chan Kyun (Dept. of Big Data Convergence, Korea University Graduate School of Computer and Information Technology) ;
- Lim, Heui Seok (Dept. of Computer Science and Engineering, Korea University)
- Published : 2020.05.29
Abstract
통계청에서는 지역별고용조사, 인구총조사 등 다양한 조사를 실시하고 있다. 이러한 조사에서는 응답자의 사업체명, 사업체가 주로 하는 일, 응딥자가 한 일, 부서 및 직책 정보 등을 조사해서 조사되어진 자료를 토대로 한국 표준 산업분류 형태로 코드를 부여해 주고 있다. 각 조사에서는 자연어 형태로 입력을 받아서 자료처리 기간에 코딩작업을 하는 조사가 있고 조사원이 입력을 하면서 자동코딩시스템을 이용해서 산업분류 코드를 입력하는 방식도 있다. 본 연구에서는 전자의 방법을 자동화하는 것에 초점을 두었다. 딥러닝 알고리즘을 이용해서 기존에 코드부여가 완료된 자료를 가지고 실험을 해본 결과 조사된 모든 항목을 사용했을 때에는 CNN이 81.36%로 가장 좋은 성능을 보였고, 항목을 2가지로 (사업체가 주로 하는 일/응딥자가 한 일) 줄였을 경우 전체적으로 더 좋은 성능을 보였다. 그 중에 CNN-LSTM이 85.91%로 가장 좋은 성능을 보였다.