DOI QR코드

DOI QR Code

A Machine Learning-Based Vocational Training Dropout Prediction Model Considering Structured and Unstructured Data

정형 데이터와 비정형 데이터를 동시에 고려하는 기계학습 기반의 직업훈련 중도탈락 예측 모형

  • 하만석 (국민대학교 비즈니스IT전문대학원) ;
  • 안현철 (국민대학교 비즈니스IT전문대학원)
  • Received : 2018.10.24
  • Accepted : 2018.11.21
  • Published : 2019.01.28

Abstract

One of the biggest difficulties in the vocational training field is the dropout problem. A large number of students drop out during the training process, which hampers the waste of the state budget and the improvement of the youth employment rate. Previous studies have mainly analyzed the cause of dropouts. The purpose of this study is to propose a machine learning based model that predicts dropout in advance by using various information of learners. In particular, this study aimed to improve the accuracy of the prediction model by taking into consideration not only structured data but also unstructured data. Analysis of unstructured data was performed using Word2vec and Convolutional Neural Network(CNN), which are the most popular text analysis technologies. We could find that application of the proposed model to the actual data of a domestic vocational training institute improved the prediction accuracy by up to 20%. In addition, the support vector machine-based prediction model using both structured and unstructured data showed high prediction accuracy of the latter half of 90%.

직업훈련 교육 현장에서 느끼는 가장 큰 어려움 중 하나는 중도탈락 문제이다. 훈련과정마다 많은 수의 학생들이 중도탈락을 하게 되어 국가 예산 낭비 및 청년 취업률 개선에 장애 요인이 되고 있다. 본 연구에서는 중도탈락의 원인을 주로 분석한 기존 연구들과 달리, 각종 수강생 정보를 활용하여 사전에 중도탈락을 예측할 수 있는 기계학습 기반 모형을 제안하고자 한다. 특히 본 연구의 제안모형은 수강생 관련 정형 데이터 뿐 아니라 비정형 데이터인 강사의 상담일지 정보까지 동시에 고려하여 모형의 예측정확도를 제고하고자 하였다. 이 때 비정형 데이터에 대한 분석은 최근 주목받고 있는 텍스트 분석 기술인 Word2vec과 합성곱 신경망을 이용해 수행하였다. 국내 한 직업훈련기관의 실제 데이터에 제안모형을 적용해 본 결과, 정형데이터만을 사용하여 중도탈락을 예측할 때보다 비정형 데이터를 함께 고려했을 때 예측의 정확도가 최대 20%까지 향상됨을 확인할 수 있었다. 아울러, Support Vector Machine을 기반으로 정형 데이터와 비정형 데이터를 결합해 분석했을 때, 검증용 데이터셋 기준으로 90% 후반대의 높은 예측 정확도를 나타냄을 확인하였다.

Keywords

CCTHCV_2019_v19n1_1_f0001.png 이미지

그림 1. Word2vec을 활용한 CNN 모형 예시

CCTHCV_2019_v19n1_1_f0002.png 이미지

그림 2. 제안 모형의 구조 체계

CCTHCV_2019_v19n1_1_f0003.png 이미지

그림 3. 정형 데이터와 비정형 데이터의 결합 방식

CCTHCV_2019_v19n1_1_f0004.png 이미지

그림 4. word2vec으로 만들어진 벡터 예시

표 1. 성인학습자의 중도탈락 요인

CCTHCV_2019_v19n1_1_t0001.png 이미지

표 2. 실험 데이터셋 구성

CCTHCV_2019_v19n1_1_t0002.png 이미지

표 3. 전체 정형 데이터 변수 목록

CCTHCV_2019_v19n1_1_t0003.png 이미지

표 4. 최종적으로 선택된 12개의 정형 입력변수

CCTHCV_2019_v19n1_1_t0004.png 이미지

표 5. 실험에 사용된 소프트웨어 목록

CCTHCV_2019_v19n1_1_t0005.png 이미지

표 6. CNN 설정값

CCTHCV_2019_v19n1_1_t0006.png 이미지

표 7. 정형 데이터 모형의 예측 정확도

CCTHCV_2019_v19n1_1_t0007.png 이미지

표 8. 로지스틱 회귀분석 상세 결과

CCTHCV_2019_v19n1_1_t0008.png 이미지

표 9. 비정형 데이터 모형의 예측 정확도

CCTHCV_2019_v19n1_1_t0009.png 이미지

표 10. 제안 모형 실험 결과

CCTHCV_2019_v19n1_1_t0010.png 이미지

표 11. 실험결과 요약

CCTHCV_2019_v19n1_1_t0011.png 이미지

표 12. McNemar 검정 결과

CCTHCV_2019_v19n1_1_t0012.png 이미지

References

  1. 아시아경제 뉴스, http://www.asiae.co.kr/news/view.htm?idxno=2 018082113382462570
  2. 김승수, 비정형정보와 CNN기법을 활용한 고객행태예측: 전자상거래 사례를 중심으로, 한양대학교 경영학과, 박사학위논문, 2018.
  3. 직업교육훈련 촉진법 제2조 제1호, http://www.law.go.kr/lsInfoP.do?urlMode=lsInfoP&lsId=000864#0000
  4. 배경석, 직업교육훈련에 참여한 성인학습자의 중도탈락 요인 분석, 한국기술교육대학교 대학원, 석사학위논문, 2004
  5. 고용노동부, 직업능력개발사업현황, 2017.
  6. 권근배, 직업전문학교 수료자와 중도탈락자의 특성 비교연구 - 직업훈련 청소년의 중도탈락예방 프로그램 개발을 위한 기초연구, 성균관대학교 행정대학원, 석사학위논문, 2001.
  7. 권혜진, "개인, 교육기관, 사회적 변인이 사이버대 재학생의 중도탈락의도 결정에 미치는 영향," 한국콘텐츠학회논문지, 제10권, 제3호, pp.404-412, 2010. https://doi.org/10.5392/JKCA.2010.10.3.404
  8. 김경희, "지방대학생들의 학업중단 영향요인과 대학생활만족도 분석," 한국콘텐츠학회논문지, 제11권, 제8호, pp.378-387, 2011. https://doi.org/10.5392/JKCA.2011.11.8.378
  9. 박대권, 실업자직업훈련의 중도탈락 원인 분석, 연세대학교 대학원, 박사학위논문, 1999.
  10. 이준택, 직업학교장면에서 중도탈락에 영향을 미치는 요인 탐색, 호서대학교 대학원, 석사학위논문, 2004.
  11. 정선정, 직업교육 이러닝 e-Learning의 중도탈락 원인 분석, 이화여자대학교 정보과학대학원, 석사학위논문, 2005.
  12. M. L. Conte, F. M. Rottino, and L. Salvati, "Dropping out from a Training Course after the High School in Italy," Proceedings of SIS2007, pp.503-504, 2007.
  13. H. Yi, L. Zhang, Y. Yao, A. Wang, Y. Ma, Y. Shi, J. Chu, P. Loyalka, and S. Rozelle, "Exploring the dropout rates and causes of dropout in upper-secondary technical and vocational education and training (TVET) schools in China," International Journal of Educational Development, Vol.42, pp.115-123, 2015. https://doi.org/10.1016/j.ijedudev.2015.04.009
  14. 구본용, 신현숙, 유제민, "데이터마이닝을 이용한 중퇴 모형에 관한 연구," 청소년상담연구, 제10권, 제2호, pp.35-57, 2002.
  15. 구본용, 유제민, "중퇴에 관한 위험 및 보호요인의 신경망 모형," 한국심리학회지, 제8권, 제1호, pp.133-146, 2003.
  16. 전주성, "사이버 대학의 잠재적 중도탈락자 예측에 관한 연구," Andragogy Today, 제13권, 제1호, pp.121-139, 2010.
  17. 정소영, 권수태, "연관규칙과 의사결정트리를 이용한 중도탈락자 예측모형 개발," 한국정보기술학회논문지, 제6권, 제5호, pp.202-210, 2018.
  18. 유지원, "일반대학에서 교양 e-러닝 강좌의 중도탈락 예측모형 개발과 조기 판별 가능성 탐색," 한국컴퓨터교육학회 논문지, 제17권, 제1호, 2014.
  19. 노혜란, 최미나, "대학 이러닝에서 학습자의 참여지속에 관한 로지스틱 회귀분석, 교육정보미디어연구," 제17권, 제4호, pp.593-614, 2011.
  20. B. S. Acharya and S. Neupane, "Determinants of vocational training drop out: A Logit Model Analysis," Annamalai International Journal Of Business Studies & Research, Vol.4, No.1, pp.75-80, 2012.
  21. H. Baars and H. G. Kemper, "Management Support with Structured and Unstructured Data-an Integrated Business Intelligence Framework," Information Systems Management, Vol.25, No.2, pp.132-148, 2008. https://doi.org/10.1080/10580530801941058
  22. 조성우, Big Data 시대의 기술, KT 종합기술원, pp.5-7, 2011.
  23. Y. Li and L. Xu, "Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective," In Proceedings of the 24th International Joint Conference on Artificial Intelligence, 2015.
  24. P. D. Turney and P. Pantel, "From frequency to meaning: Vector space models of semantics," Journal of Artificial Intelligence Research, Vol.37, pp.141-188, 2010. https://doi.org/10.1613/jair.2934
  25. T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient Estimation of Word Representations in Vector Space," In Proceedings of Workshop at ICLR, pp.1-12, 2013.
  26. J. Firth, A Synopsis of Linguistic Theory, 1930-1955, Studies in Linguistic Analysis, pp.1-32, 1957.
  27. 김우주, 김동희, 장희원, "Word2vec을 활용한 문서의 의미 확장 검색방법," 한국콘텐츠학회논문지, 제16권, 제10호, pp.687-692, 2016. https://doi.org/10.5392/JKCA.2016.16.10.687
  28. 박성수, 이건창, "워드 임베딩과 반감독 학습을 사용한 효율적 한국어 감성 표지 생성 방안," 한국지능시스템학회 논문지, 제28권, 제2호, pp.185-191, 2018.
  29. T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, "Distributed Representations of Words and Phrases and their Compositionality," In International Conference on Neural Information Processing Systems (NIPS'13), pp.3111-3119, 2013.
  30. http://operatingsystems.tistory.com/entry/Data-Mining-Word2vec-CBOW
  31. Q. Le and T. Mikolov, "Distributed representations of sentences and documents," In International Conference on Machine Learning, pp.1188-1196, 2014.
  32. 유용민, Doc2vec과 문서 군집기법을 적용한 카테고리 자동생성, 인하대학교 공학대학원, 석사학위논문, 2018.
  33. 이모세, 안현철, "효과적인 입력변수 패턴 학습을 위한 시계열 그래프 기반 합성곱 신경망 모형:주식시장 예측에의 응용," 지능정보연구, 제24권, 제1호, pp.167-181, 2018. https://doi.org/10.13088/JIIS.2018.24.1.167
  34. Y. Kim, "Convolutional neural networks for sentence classification," arXiv preprint arXiv:1408.5882, 2014.
  35. A. Krizhevsky, I. Sutskever, and G. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," International Conference on Neural Information Processing Systems (NIPS'12), pp.1097-1105, 2012.
  36. 한정수, 컨벌루션 신경회로망과 ELM 분류기를 이용한 영상 분류, 조선대학교 대학원, 석사학위논문, 2017.
  37. https://github.com/kkb2849/Word2vec-kor/blob/master/dict_data/w2v_model_wiki_kor
  38. 안현철, "유전자 알고리즘을 이용한 다분류 SVM의 최적화: 기업신용등급 예측에의 응용," Information Systems Review, 제16권, 제3호, pp.161-177, 2014. https://doi.org/10.14329/isr.2014.16.3.161
  39. 이종식, 안현철, "입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구," 지능정보연구, 제23권, 제4호, pp.147-168, 2017. https://doi.org/10.13088/JIIS.2017.23.4.147