A Machine Learning-Based Vocational Training Dropout Prediction Model Considering Structured and Unstructured Data

정형 데이터와 비정형 데이터를 동시에 고려하는 기계학습 기반의 직업훈련 중도탈락 예측 모형

  • 하만석 (국민대학교 비즈니스IT전문대학원) ;
  • 안현철 (국민대학교 비즈니스IT전문대학원)
  • Received : 2018.10.24
  • Accepted : 2018.11.21
  • Published : 2019.01.28


One of the biggest difficulties in the vocational training field is the dropout problem. A large number of students drop out during the training process, which hampers the waste of the state budget and the improvement of the youth employment rate. Previous studies have mainly analyzed the cause of dropouts. The purpose of this study is to propose a machine learning based model that predicts dropout in advance by using various information of learners. In particular, this study aimed to improve the accuracy of the prediction model by taking into consideration not only structured data but also unstructured data. Analysis of unstructured data was performed using Word2vec and Convolutional Neural Network(CNN), which are the most popular text analysis technologies. We could find that application of the proposed model to the actual data of a domestic vocational training institute improved the prediction accuracy by up to 20%. In addition, the support vector machine-based prediction model using both structured and unstructured data showed high prediction accuracy of the latter half of 90%.

직업훈련 교육 현장에서 느끼는 가장 큰 어려움 중 하나는 중도탈락 문제이다. 훈련과정마다 많은 수의 학생들이 중도탈락을 하게 되어 국가 예산 낭비 및 청년 취업률 개선에 장애 요인이 되고 있다. 본 연구에서는 중도탈락의 원인을 주로 분석한 기존 연구들과 달리, 각종 수강생 정보를 활용하여 사전에 중도탈락을 예측할 수 있는 기계학습 기반 모형을 제안하고자 한다. 특히 본 연구의 제안모형은 수강생 관련 정형 데이터 뿐 아니라 비정형 데이터인 강사의 상담일지 정보까지 동시에 고려하여 모형의 예측정확도를 제고하고자 하였다. 이 때 비정형 데이터에 대한 분석은 최근 주목받고 있는 텍스트 분석 기술인 Word2vec과 합성곱 신경망을 이용해 수행하였다. 국내 한 직업훈련기관의 실제 데이터에 제안모형을 적용해 본 결과, 정형데이터만을 사용하여 중도탈락을 예측할 때보다 비정형 데이터를 함께 고려했을 때 예측의 정확도가 최대 20%까지 향상됨을 확인할 수 있었다. 아울러, Support Vector Machine을 기반으로 정형 데이터와 비정형 데이터를 결합해 분석했을 때, 검증용 데이터셋 기준으로 90% 후반대의 높은 예측 정확도를 나타냄을 확인하였다.


CCTHCV_2019_v19n1_1_f0001.png 이미지

그림 1. Word2vec을 활용한 CNN 모형 예시

CCTHCV_2019_v19n1_1_f0002.png 이미지

그림 2. 제안 모형의 구조 체계

CCTHCV_2019_v19n1_1_f0003.png 이미지

그림 3. 정형 데이터와 비정형 데이터의 결합 방식

CCTHCV_2019_v19n1_1_f0004.png 이미지

그림 4. word2vec으로 만들어진 벡터 예시

표 1. 성인학습자의 중도탈락 요인

CCTHCV_2019_v19n1_1_t0001.png 이미지

표 2. 실험 데이터셋 구성

CCTHCV_2019_v19n1_1_t0002.png 이미지

표 3. 전체 정형 데이터 변수 목록

CCTHCV_2019_v19n1_1_t0003.png 이미지

표 4. 최종적으로 선택된 12개의 정형 입력변수

CCTHCV_2019_v19n1_1_t0004.png 이미지

표 5. 실험에 사용된 소프트웨어 목록

CCTHCV_2019_v19n1_1_t0005.png 이미지

표 6. CNN 설정값

CCTHCV_2019_v19n1_1_t0006.png 이미지

표 7. 정형 데이터 모형의 예측 정확도

CCTHCV_2019_v19n1_1_t0007.png 이미지

표 8. 로지스틱 회귀분석 상세 결과

CCTHCV_2019_v19n1_1_t0008.png 이미지

표 9. 비정형 데이터 모형의 예측 정확도

CCTHCV_2019_v19n1_1_t0009.png 이미지

표 10. 제안 모형 실험 결과

CCTHCV_2019_v19n1_1_t0010.png 이미지

표 11. 실험결과 요약

CCTHCV_2019_v19n1_1_t0011.png 이미지

표 12. McNemar 검정 결과

CCTHCV_2019_v19n1_1_t0012.png 이미지


