A Development on a Predictive Model for Buying Unemployment Insurance Program Based on Public Data

공공데이터 기반 고용보험 가입 예측 모델 개발 연구

  • 조민수 (포항공과대학교(POSTECH) 산업경영공학과) ;
  • 김도현 (포항공과대학교(POSTECH) 산업경영공학과) ;
  • 송민석 (포항공과대학교(POSTECH) 산업경영공학과) ;
  • 김광용 (근로복지공단) ;
  • 정충식 (근로복지공단) ;
  • 김기대 (근로복지공단)
  • Received : 2017.12.01
  • Accepted : 2017.12.26
  • Published : 2017.12.31

Abstract

With the development of the big data environment, public institutions also have been providing big data infrastructures. Public data is one of the typical examples, and numerous applications using public data have been provided. One of the cases is related to the employment insurance. All employers have to make contracts for the employment insurance for all employees to protect the rights. However, there are abundant cases where employers avoid to buy insurances. To overcome these challenges, a data-driven approach is needed; however, there are lacks of methodologies to integrate, manage, and analyze the public data. In this paper, we propose a methodology to build a predictive model for identifying whether employers have made the contracts of employment insurance based on public data. The methodology includes collection, integration, pre-processing, analysis of data and generating prediction models based on process mining and data mining techniques. Also, we verify the methodology with case studies.

빅데이터의 중요성이 증가함에 따라 공공기관에서는 다양한 빅데이터 관련 인프라를 제공하고 있으며, 그 중 하나가 공공데이터이다. 공공데이터 기반의 다양한 활용 사례가 공유되고 있으며, 공공기관에서도 데이터 기반의 모델을 통해 공공의 문제를 해결하려는 움직임을 보이고 있다. 대표적으로 사회 보험 중 하나인 고용보험 케이스가 있다. 고용보험은 근로자의 권익 보호를 위해 근로자를 고용한 모든 사업주가 필수적으로 가입하여야 하는 보험이지만 가입누락의 경우가 많다. 가입누락을 막기 위한 데이터 기반의 접근이 필요하지만, 분산된 형태의 공공데이터, 수집 시기의 차이로 인해 데이터 통합이 어렵고, 체계적인 방법론이 부재한 상황이다. 본 논문에서는 공공데이터를 기반의 고용보험 가입 예측을 위한 모델 도출방법론을 제시하고자 한다. 본 방법론은 데이터 수집, 데이터 통합 및 전처리, 데이터 탐색 및 이력 데이터 분석, 예측 모델 도출을 포함하며, 프로세스 마이닝 및 데이터 마이닝을 활용한다. 또한, 사례 연구를 통해 본 방법론의 유효성을 검증한다.

Keywords

References

  1. Breiman, L., "Random Forests", Machine Learning, Vol.45, No.1, pp.5-32, 2001. https://doi.org/10.1023/A:1010933404324
  2. Fayyad, U., G. Piatetsky-Shapiro, and P. Smyth, "From data mining to knowledge discovery in databases", AI magazine, Vol.17, No.3, pp.37-54, 1996.
  3. Kim, G.H., S. Trimi, and J.H. Chung, "Big-data applications in the government sector", Communications of the ACM, Vol.57, No.3, pp.78-85, 2014. https://doi.org/10.1145/2500873
  4. Liaw, A. and M. Wiener, "Classification and regression by random forest", R News, Vol.2, No.3, pp.18-22, 2002.
  5. Provost, F. and T. Fawcett, "Data science and its relationship to big data and data-driven decision making", Big Data, Vol.1, No.1, pp.51-59, 2013. https://doi.org/10.1089/big.2013.1508
  6. Quinlan, J.R., "Simplifying decision trees", International Journal of Man-Machine Studies, Vol.27, No.3, pp.221-234, 1987. https://doi.org/10.1016/S0020-7373(87)80053-6
  7. Rosenblatt, F., "Principles of neurodynamics. perceptrons and the theory of brain mechanisms", Brain Theory, pp.245-248, 1961.
  8. Rowley, H.A., S. Baluja, and T. Kanade, "Neural network-based face detection", IEEE Transactions on pattern analysis and machine intelligence, Vol.20, No.1, pp.23-38, 1998. https://doi.org/10.1109/34.655647
  9. Song, M. and W.M.P. van der Aalst, "Supporting process mining by showing events at a glance", In Proceedings of the 17th Annual Workshop on Information Technologies and Systems(WITS), pp.139-145, 2007.
  10. Tong, S. and D. Koller, "Support vector machine active learning with applications to text classification", Journal of Machine Learning Research, Vol.2, pp.45-66, 2001.
  11. van der Aalst, W.M.P., "Process mining: data science in action", Springer, 2016.
  12. van der Aalst, W.M.P., A.J.M.M. Weijters, and L. Maruster, "Workflow Mining: Discovering process models from event logs", IEEE Transactions on Knowledge and Data Engineering, Vol.16, 2003.
  13. Vapnik, V., The nature of statistical learning theory, Springer, 2000.
  14. Weijters, A.J.M.M., W.M.P van der Aalst, and A.A. De Medeiros, "Process mining with heuristics miner-algorithm", Technische Universiteit Eindhoven, Tech. Rep. WP, Vol.166, pp.1-34, 2006.
  15. Witten, I.H., E. Frank, M.A. Hall, and C.J. Pal, "Data Mining: Practical machine learning tools and techniques", Morgan Kaufmann, 2016.