DOI QR코드

DOI QR Code

Development of a Default Prediction Model for Vulnerable Populations Using Imbalanced Data Analysis

불균형 데이터 처리 기반의 취약계층 채무불이행 예측모델 개발

  • 이종화 (동의대학교 e비즈니스학과)
  • Received : 2024.08.17
  • Accepted : 2024.09.09
  • Published : 2024.09.30

Abstract

Purpose This study aims to analyze the relationship between consumption patterns and default risk among financially vulnerable households in a rapidly changing economic environment. Financially vulnerable households are more susceptible to economic shocks, and their consumption patterns can significantly contribute to an increased risk of default. Therefore, this study seeks to provide a systematic approach to predict and manage these risks in advance. Design/methodology/approach The study utilizes data from the Korea Welfare Panel Study (KOWEPS) to analyze the consumption patterns and default status of financially vulnerable households. To address the issue of data imbalance, sampling techniques such as SMOTE, SMOTE-ENN, and SMOTE-Tomek Links were applied. Various machine learning algorithms, including Logistic Regression, Decision Tree, Random Forest, and Support Vector Machine (SVM), were employed to develop the prediction model. The performance of the models was evaluated using Confusion Matrix and F1-score. Findings The findings reveal that when using the original imbalanced data, the prediction performance for the minority class (default) was poor. However, after applying imbalance handling techniques such as SMOTE, the predictive performance for the minority class improved significantly. In particular, the Random Forest model, when combined with the SMOTE-Tomek Links technique, showed the highest predictive performance, making it the most suitable model for default prediction. These results suggest that effectively addressing data imbalance is crucial in developing accurate default prediction models, and the appropriate use of sampling techniques can greatly enhance predictive performance.

Keywords

References

  1. 고승형, 박준호, 왕다운, 강은석, 한현욱, "의료기기 네트워크 트래픽 보안 관련 머신러닝 알고리즘 성능 비교," 한국 IT 서비스학회지, 제22권, 제5호, 2023, pp. 99-108.
  2. 김명국, 정호성, 민찬호, "개인신용평가 모델을 위한 데이터 증강과 전이학습," 한국정보기술학회논문지, 제22권, 제3호, 2024, pp. 11-21.
  3. 김소현, 조성현, "머신러닝을 활용한 대학생 중도탈락 위험군의 예측모델 비교 연구: N 대학 사례를 중심으로," 대한통합의학회지, 제12권, 제2호, 2024, pp. 155-166.
  4. 김승철, 서상민, "딥러닝 기반의 자동차 타이어 결함 분류," 한국지식정보기술학회 논문지, 제18권, 제6호, 2023, pp. 1527-1534.
  5. 김인호, 이경섭, "트리 기반 앙상블 방법을 활용한 자동 평가 모형 개발 및 평가," 서울특별시 주거용 아파트를 사례로. 한국데이터정보과학회지, 제31권, 제2호, 2020, pp. 375-389.
  6. 나현식, 박소희, 최대선, "수치 데이터 세트에서 Tomek Links 방법과 Balancing GAN 을 결합한 불균형 데이터 문제 개선 기술," 정보과학회논문지, 제47권, 제10호, 2020, pp. 974-984.
  7. 심영, "부채가계의 금융채무불이행과 소비지출구조," 한국생활과학회지, 제27권, 제2 호, 2018, pp. 143-164.
  8. 양은모, 배호중, "주택마련에 따른 과도한 부채가 삶의 만족도에 미치는 영향," 보건사회연구, 제40권, 제2호, 2020, pp. 518-555.
  9. 오미애, 신재동, "한국복지패널의 가중치 및 표본 특성," 보건복지포럼, 제281권, 2020, pp. 45-62.
  10. 위경우, 고혁진, 박영석, 민경록, "신용한도와 이자율은 가계의 소비행태와 채무불이행 패턴에 영향을 미치는가?," 경영학연구, 제38권, 제6호, 2009, pp. 1445-1466.
  11. 이강혁, 이강훈, 고태훈, "불균형 데이터 분류를 위한 Expectation-maximization 알고리즘과 경계 관측치를 이용한 SMOTE," 대한산업공학회지, 제47권, 제3호, 2021, pp. 232-241.
  12. 이상록, 김형관, "저소득층 노인가구의 보유 자산이 물질적 결핍에 미치는 영향-자산 규모 및 자산 요소의 영향을 중심으로," 한국콘텐츠학회논문지, 제24권, 제6호, 2024, pp. 598-610.
  13. 이성우, 김연국, "대출중개 플랫폼별 고객의 채무불이행 리스크 비교," 한국산업정보 학회논문지, 제29권, 제2호, 2024, pp. 119-131.
  14. 이종화, 이현규, "F1 스코어를 이용한 한국어 감정 지수 연구," 인터넷전자상거래연구, 제20권, 제1호, 2020, pp. 131-145.
  15. 이희원, 박성호, 이승현, 이승재, 이강배, "불균형 데이터를 갖는 냉동 컨테이너 고장 판별 및 원인 분석을 위한 기계학습 모형 개발," 한국융합학회논문지, 제13권, 제1호, 2022, pp. 23-30.
  16. 편승희, 민대기, "KLPGA 에서 로지스틱회귀와 기계학습을 이용한 성적예측," 한국체육과학회지, 제30권, 제1호, 2021, pp. 1035-1042.
  17. 한국보건사회연구원, "2023년 한국복지패널 조사분석보고서," 2024, https://www.koweps.re.kr:442/research/report/list.do
  18. 한국복지패널, https://www.koweps.re.kr/
  19. Boateng, E. Y., Otoo, J., and Abaye, D. A., "Basic tenets of classification algorithms K-nearest-neighbor, support vector machine, random forest and neural network: A review," Journal of Data Analysis and Information Processing, Vol. 8, No. 4, 2020, pp. 341-357.
  20. Chicco, D., and Jurman, G., "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation," BMC genomics, Vol. 21, 2020, pp. 1-13.
  21. Ferrag, M. A., Maglaras, L., Ahmim, A., Derdour, M., and Janicke, H., "Rdtids: Rules and decision tree-based intrusion detection system for internet-of-things networks," Future internet, Vol. 12, No. 3, 2020, p. 44.
  22. Gupta, A., and Singh, R. K., "Applications of emerging technologies in logistics sector for achieving circular economy goals during COVID 19 pandemic: analysis of critical success factors.," International Journal of Logistics Research and Applications, Vol. 27, No. 4, 2024, pp. 451-472.
  23. Hong, C. S., and Oh, T. G., "TPR-TNR plot for confusion matrix," CSAM (Communications for Statistical Applications and Methods), Vol. 28, No. 2, 2021, pp. 161-169.
  24. Maceika, A., Bugajev, A., ostak, O. R., and Vilutien, T., "Decision tree and AHP methods application for projects assessment: a case study," Sustainability, Vol. 13, No. 10, 2021, p. 5502.
  25. Pangallo, M., Aleta, A., del Rio-Chanona, R. M., Pichler, A., Martin-Corral, D., Chinazzi, M., ... and Farmer, J. D., "The unequal effects of the health-economy trade-off during the COVID-19 pandemic," Nature Human Behaviour, Vol. 8, No. 2, 2024, pp. 264-275.
  26. Priyanka, and Kumar, D., "Decision tree classifier: a detailed survey," International Journal of Information and Decision Sciences, Vol. 12, No. 3, 2020, pp. 246-269.
  27. Sarker, I. H., "Machine learning: Algorithms, real-world applications and research directions," SN computer science, Vol. 2, No. 3, 2021, p. 160.
  28. Shah, K., Patel, H., Sanghvi, D., and Shah, M., "A comparative analysis of logistic regression, random forest and KNN models for the text classification," Augmented Human Research, Vol. 5, No. 1, 2020, p. 12.
  29. Tanveer, M., Rajani, T., Rastogi, R., Shao, Y. H., and Ganaie, M. A., "Comprehensive review on twin support vector machines.," Annals of Operations Research, 2022, pp. 1-46.
  30. Zaidi, A., and Al Luhayb, A. S. M., "Two statistical approaches to justify the use of the logistic function in binary logistic regression," Mathematical Problems in Engineering, Vol. 2023, No. 1, 2023, pp. 552-567.
  31. Zhang, H., Zimmerman, J., Nettleton, D., and Nordman, D. J., "Random forest prediction intervals," The American Statistician, Vol. 74, No. 4, 2020, pp. 292-406.