DOI QR코드

DOI QR Code

A Study on Default Prediction Model: Focusing on The Imbalance Problem of Default Data

부도 예측 모형 연구: 부도 데이터의 불균형 문제를 중심으로

  • Jinsoo Park (Department of Management Information Systems, Dong-A University) ;
  • Kangbae Lee (Department of Management Information Systems, Dong-A University) ;
  • Yongbok Cho (Department of Management Information Systems, Dong-A University)
  • 박진수 (동아대학교 경영정보학과) ;
  • 이강배 (동아대학교 경영정보학과) ;
  • 조용복 (동아대학교 경영정보학과)
  • Received : 2024.03.06
  • Accepted : 2024.05.03
  • Published : 2024.05.31

Abstract

This study summarizes improvement strategies for addressing the imbalance problem in observed default data that must be considered when constructing a default model and compares and analyzes the performance improvement effects using data resampling techniques and default threshold adjustments. Empirical analysis results indicate that as the level of imbalance resolution in the data increases, and as the default threshold of the model decreases, the recall of the model improves. Conversely, it was found that as the level of imbalance resolution in the data decreases, and as the default threshold of the model increases, the precision of the model improves. Additionally, focusing solely on either recall or precision when addressing the imbalance problem results in a phenomenon where the other performance evaluation metrics decrease significantly due to the trade-off relationship. This study differs from most previous research by focusing on the relationship between improvement strategies for the imbalance problem of default data and the enhancement of default model performance. Moreover, it is confirmed that to enhance the practical usability of the default model, different improvement strategies for the imbalance problem should be applied depending on the main purpose of the model, and there is a need to utilize the Fβ Score as a performance evaluation metric.

본 연구는 부도 예측 모형을 구축할 때 반드시 고려해야 하는 관측된 부도 데이터의 불균형 문제에 대한 개선 방안을 정리하고, 데이터 리샘플링 기법과 부도 임계치 조정에 따른 모형의 성능 개선 효과를 비교 분석한다. 실증분석 결과 데이터의 불균형 해소 수준이 높을수록, 그리고 모형의 부도 임계치가 낮을수록 모형의 민감도가 개선되는 것을 발견하였으며, 데이터의 불균형 해소 수준이 낮을수록, 그리고 모형의 부도 임계치가 높을수록 모형의 정밀도가 개선되는 것을 발견하였다. 또한 민감도 또는 정밀도 중 한 가지 지표만을 중심으로 불균형 문제를 개선할 경우, 상충 관계로 인해 나머지 성능 평가 지표가 지나치게 낮아지는 현상을 확인하였다. 본 연구는 기존 선행 연구와는 달리 부도 데이터의 불균형 문제 개선 방안과 부도 예측 모형의 성능 개선 효과의 관계에 초점을 두고 있다는 점에서 시사점을 찾을 수 있다. 또한 부도 예측 모형의 실무적 활용도 제고를 위해 모형의 활용 목적에 따라 불균형 문제 개선 방안을 달리 적용하는 것이 바람직하며, 모형의 주된 성능 평가 지표로는 Fβ Score를 활용해야 할 필요가 있음을 확인하였다.

Keywords

Acknowledgement

이 논문은 동아대학교 교내연구비 지원에 의하여 연구되었음.

References

  1. 금융감독원, "금감원, 금융상황 점검회의 개최", 2023.08.24, Available at https://www.fss.or.kr/fss/bbs/B0000188/view.do?nttId=129829&menuNo=200218&cl1Cd=&sdate=&edate=&searchCnd=1&searchWrd=%EC%A0%90%EA%B2%80&pageIndex=3.
  2. 김명종, 윤우섭, "기업부도 예측 앙상블 모형의 최적화", 경영정보학연구, 제24권, 제1호, 2022, pp. 39-57.
  3. 노정담, 최병구, "불균형 정형 데이터를 위한 SMOTE와 변형 CycleGAN 기반 하이브리드 오버샘플링 기법", 경영정보학연구, 제24권, 제4호, 2022, pp. 97-118.
  4. 조성임, 김명종, "비대칭 마진 SVM 최적화 모델을 이용한 기업부실 예측모형의 범주 불균형 문제 해결", 경영정보학연구, 제24권, 제4호, 2022, pp. 23-40.
  5. 조용복, 조동우, 최보승, "불균형 시계열 자료를 위한 분류 알고리즘 적용방안: 기업 부도모형을 중심으로", Journal of The Korean Data Analysis Society(JKDAS), 제24권, 제2호, 2022, pp. 639-651.
  6. 한국은행, "통화정책방향 관련 총재 기자간담회(2023.11)", 2023.11.30, Available at https://www.bok.or.kr/portal/bbs/B0000169/view.do?nttId=10080889&menuNo=200059&pageIndex=1.
  7. Altman, E. I., "Financial ratios, discriminant analysis and the prediction of corporate bankruptcy", The Journal of Finance, Vol.23, No.4, 1968, pp. 589-609.
  8. Barboza, F., H. Kimura, and E. Altman, "Machine learning models and bankruptcy prediction", Expert Systems with Applications, Vol.83, 2017, pp. 405-417.
  9. Buckland, M. and F. Gey, "The relationship between recall and precision", Journal of The American Society for Information Science, Vol.45, No.1, 1994, pp. 12-19.
  10. Cateni, S., V. Colla, and M. Vannucci, "A method for resampling imbalanced datasets in binary classification tasks for real-world problems", Neurocomputing, Vol.135, 2014, pp. 32-41.
  11. Chawla, N. V., K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, "SMOTE: synthetic minority over-sampling technique", Journal of Artificial Intelligence Research, Vol,16, 2002, pp. 321-357.
  12. Datta, S. and S. Das, "Near-Bayesian support vector machines for imbalanced data classification with equal or unequal misclassification costs", Neural Networks, Vol.70, 2015, pp. 39-52.
  13. Dembczynski, K., A. Jachnik, W. Kotlowski, W. Waegeman, and E. Hullermeier, "Optimizing the F-measure in multi-label classification: Plug-in rule approach versus structured loss minimization", In International Conference on Machine Learning, 2013, pp. 1130-1138.
  14. Dubey, R., J. Zhou, Y. Wang, P. M. Thompson, J. Ye, and Alzheimer's Disease Neuroimaging Initiative, "Analysis of sampling techniques for imbalanced data: An n = 648 ADNI study", NeuroImage, Vol.87, 2014, pp. 220-241.
  15. Esposito, C., G. A. Landrum, N. Schneider, N. Stiefl, and S. Riniker, "GHOST: Adjusting the decision threshold to handle imbalanced data in machine learning", Journal of Chemical Information and Modeling, Vol.61, No.6, 2021, pp. 2623-2640.
  16. Guyon, I. and A. Elisseeff, "An introduction to variable and feature selection", Journal of Machine Learning Research, Vol.3, 2003, pp. 1157-1182.
  17. Haixiang, G., L. Yijing, J. Shang, G. Mingyun, H. Yuanyue, and G. Bing, "Learning from class-imbalanced data: Review of methods and applications", Expert Systems with Applications, Vol.73, 2017, pp. 220-239.
  18. Han, H., W. Y. Wang, and B. H. Mao, "Borderline-SMOTE: A new over-sampling method in imbalanced data sets learning", In International Conference on Intelligent Computing, 2005, pp. 878-887.
  19. He, H., Y. Bai, E. A. Garcia, and S. Li, "ADASYN: Adaptive synthetic sampling approach for imbalanced learning", IEEE International Joint Conference on Neural Networks, 2008, pp. 1322-1328.
  20. He, H. and E. A. Garcia, "Learning from imbalanced data", IEEE Transactions on Knowledge and Data Engineering, Vol.21, No.9, 2009, pp. 1263-1284.
  21. Kaggle, "Loan Default Prediction Dataset", NIK HIL, 2023, Available at https://www.kaggle.com/datasets/nikhil1e9/loan-default.
  22. Kim, M. J., D. K. Kang, and H. B. Kim, "Geometric mean based boosting algorithm with over-sampling to resolve data imbalance problem for bankruptcy prediction", Expert Systems with Applications, Vol.42, No.3, 2015, pp. 1074-1082.
  23. Lopez, V., A. Fernandez, S. Garcia, V. Palade, and F. Herrera, "An insight into classification with imbalanced data: Empirical results and current trends on using data intrinsic characteristics", Information Sciences, Vol.250, 2013, pp. 113-141.
  24. Mani, I. and I. Zhang, "kNN approach to unbalanced data distributions: A case study involving information extraction", In Proceedings of Workshop on Learning From Imbalanced Datasets, Vol.126, No.1, 2003, pp. 1-7.
  25. Mellor, A., S. Boukir, A. Haywood, and S. Jones, "Exploring issues of training data imbalance and mislabelling on random forest performance for large area land cover classification using the ensemble margin", ISPRS Journal of Photogrammetry and Remote Sensing, Vol.105, 2015, pp. 155-168.
  26. Messier, W. F. Jr. and J. V. Hansen, "Inducing rules for expert system development: An example using default and bankruptcy data", Management Science, Vol.34, No.4, 1998, pp. 1403-1415.
  27. Musicant, D. R., V. Kumar, and A. Ozgur, "Optimizing F-Measure with Support Vector Machines", FLAIRS, 2003, pp. 356-360.
  28. Nan, Y., K. M. Chai, W. S. Lee, and H. L. Chieu, "Optimizing F-measure: A tale of two approaches", arXiv preprint arXiv:1206.4625, 2012.
  29. Ohlson, J. A., "Financial ratios and the probabilistic prediction of bankruptcy", Journal of Accounting Research, 1980, pp. 109-131.
  30. Sheng, V. S. and C. X. Ling, "Thresholding for making classifiers cost-sensitive", Aaai, Vol.6, 2006, pp. 476-481.
  31. Shin, K. S., T. S. Lee, and H. J. Kim, "An application of support vector machines in bankruptcy prediction", Expert Systems with Applications, Vol.28, No.1, 2005, pp. 127-135.
  32. Weiss, G. M., "Mining with rarity: A unifying framework", ACM Sigkdd Explorations Newsletter, Vol.6, No.1, 2004, pp. 7-19.
  33. Yijing, L., G. Haixiang, L. Xiao, L. Yanan, and L. Jinling, "Adapted ensemble classification algorithm based on multiple classifier system and feature selection for classifying multi-class imbalanced data", Knowledge-Based Systems, Vol.94, 2016, pp. 88-104.
  34. Zhou, J., W. Li, J. Wang, S. Ding, and C. Xia, "Default prediction in P2P lending from high-dimensional data based on machine learning", Physica A: Statistical Mechanics and Its Applications, Vol.534, 2019.
  35. Zhou, L., "Performance of corporate bankruptcy prediction models on imbalanced dataset: The effect of sampling methods", Knowledge-Based Systems, Vol.41, 2013, pp. 16-25.
  36. Zmijewski, M. E., "Methodological issues related to the estimation of financial distress prediction models", Journal of Accounting Research, Vol.22, 1984, pp. 59-82.