DOI QR코드

DOI QR Code

TeGCN:Transformer-embedded Graph Neural Network for Thin-filer default prediction

TeGCN:씬파일러 신용평가를 위한 트랜스포머 임베딩 기반 그래프 신경망 구조 개발

  • Seongsu Kim (Graduate School of Information, Yonsei University) ;
  • Junho Bae (Graduate School of Information, Yonsei University) ;
  • Juhyeon Lee (Graduate School of Information, Yonsei University) ;
  • Heejoo Jung (Hana TI, Cloud Center MSP Cell) ;
  • Hee-Woong Kim (Graduate School of Information, Yonsei University)
  • 김성수 (연세대학교 정보대학원) ;
  • 배준호 (연세대학교 정보대학원) ;
  • 이주현 (연세대학교 정보대학원) ;
  • 정희주 (하나금융TI 클라우드센터 MSP셀) ;
  • 김희웅 (연세대학교 정보대학원)
  • Received : 2023.09.06
  • Accepted : 2023.09.24
  • Published : 2023.09.30

Abstract

As the number of thin filers in Korea surpasses 12 million, there is a growing interest in enhancing the accuracy of assessing their credit default risk to generate additional revenue. Specifically, researchers are actively pursuing the development of default prediction models using machine learning and deep learning algorithms, in contrast to traditional statistical default prediction methods, which struggle to capture nonlinearity. Among these efforts, Graph Neural Network (GNN) architecture is noteworthy for predicting default in situations with limited data on thin filers. This is due to their ability to incorporate network information between borrowers alongside conventional credit-related data. However, prior research employing graph neural networks has faced limitations in effectively handling diverse categorical variables present in credit information. In this study, we introduce the Transformer embedded Graph Convolutional Network (TeGCN), which aims to address these limitations and enable effective default prediction for thin filers. TeGCN combines the TabTransformer, capable of extracting contextual information from categorical variables, with the Graph Convolutional Network, which captures network information between borrowers. Our TeGCN model surpasses the baseline model's performance across both the general borrower dataset and the thin filer dataset. Specially, our model performs outstanding results in thin filer default prediction. This study achieves high default prediction accuracy by a model structure tailored to characteristics of credit information containing numerous categorical variables, especially in the context of thin filers with limited data. Our study can contribute to resolving the financial exclusion issues faced by thin filers and facilitate additional revenue within the financial industry.

국내 씬파일러(Thin Filer)의 수가 1200만명을 넘어서며, 금융 업계에서 씬파일러의 신용을 정확히 평가하여 우량고객을 선별해 대출을 공급하는 시도가 많아지고 있다. 특히, 차주의 신용정보에 존재하는 비선형성을 반영하여 채무불이행을 예측하기 위해서 다양한 머신러닝 알고리즘을 활용한 연구가 진행되고 있다. 그 중 그래프 신경망 구조(Graph Neural Network)는 일반적인 신용정보 외에 대출자 간의 네트워크 정보를 반영할 수 있다는 점에서 데이터가 부족한 씬파일러의 채무 불이행 예측에서 주목할 만하다. 그러나, 그래프 신경망을 활용한 기존의 연구들은 신용정보에 존재하는 다양한 범주형 변수를 적절히 처리하지 못했다는 한계가 있었다. 이에 본 연구는 범주형 변수의 맥락적 정보를 추출할 수 있는 트랜스포머 메커니즘(Transformer mechanism)과 대출자 간 네트워크 정보를 반영할 수 있는 그래프 합성곱 신경망(Graph Convolutional Network)를 결합하여 효과적으로 씬파일러의 채무 불이행 예측이 가능한 TeGCN (Transformer embedded Graph Convolutional Network)를 제안한다. TeGCN는 일반 대출자 데이터셋과 씬파일러 데이터셋에 대하여 모두 베이스 라인 모델 대비 높은 성능을 보였으며, 특히 씬파일러 채무 불이행 예측에 우수한 성능을 달성했다. 본 연구는 범주형 변수가 많은 신용정보와 데이터가 부족한 씬파일러의 특성에 적합한 모델 구조를 결합하여 높은 채무 불이행 예측 성능을 달성했다는 시사점이 있다. 이는 씬파일러의 금융소외문제를 해결하고 금융업계에서 씬파일러를 대상으로 추가적인 수익을 창출하는데 기여할 수 있을 것이다.

Keywords

References

  1. 권영탁. (2021, 08.17). [권영탁의 핀테크 이야기] 대안신용평가로 씬파일러들 구제해야. 한국금융신문. https://m.fntimes.com/html/view.php?ud=202108140937274397dd55077bc2_18
  2. 김명종. (2012). 회사채 신용등급 예측을 위한 SVM 앙상블학습. 지능정보연구, 18(2), 29-45.
  3. 김성진, & 안현철. (2016). 기업신용등급 예측을 위한 랜덤 포레스트의 응용. 산업혁신연구, 32(1), 187-211.
  4. 김연정. (2021, 09.27). '금융이력부족자' 대부분 신용점수 700점대...은행 대출에 불리. 연합뉴스. https://www.yna.co.kr/view/AKR20210926043100002
  5. 김종윤, 장원중, & 김광용. (2019). 온라인 상거래 데이터를 반영한 개인신용평가모형 (커머스 스코어) 개발. 정보기술아키텍처 연구, 16(1), 45-55.
  6. 김정산. (2023, 05.09). 금융소비자 양극화..."저신용자 더 빌리고 고신용자 더 모았다". 메트로신문. https://www.metroseoul.co.kr/article/20230509500001
  7. 김하영, 허정윤, & 권호창. (2022). 인공지능 기반 금융서비스의 공정성 확보를 위한 체크리스트 제안: 인공지능 기반 개인신용평가를 중심으로. 지능정보연구, 28(3), 259-278.
  8. 엄하늘, 김재성, & 최상옥. (2020). 머신러닝 기반 기업부도위험 예측모델 검증 및 정책적 제언: 스태킹 앙상블 모델을 통한 개선을 중심으로. 지능정보연구, 26(2), 105-129.
  9. 오윤설. (2020). 신용등급 재평가를 통한 대출 상환 여부 예측. 한국정보과학회 학술발표논문집, 580-582.
  10. 유성준, & 박나리. (2020). CART 기법을 이용한 개인신용정보 재현자료 생성 기법. 통계연구, 25(1), 1-30.
  11. 이군희, 유영범, & 하승인. (2017). 개인신용평가 모형을 위한 딥러닝 활용에 대한 연구. 대한산업공학회 춘계공동학술대회 논문집, 4042-4047.
  12. 이우형. (2018). 딥러닝 학습의 판별 성능 증대를 위한 부스팅 활용에 대한 연구 : 신용평가 모형을 중심으로. 서강대학교.
  13. 김유진. (2022, 01.03). [신년기획] 가계대출 총량관리 시작... 은행, 35조 중금리 대출시장서 기회 노린다. 이투데이, https://www.etoday.co.kr/news/view/2092457
  14. 김나경 & 김예지. (2023, 03.15). [단독] '無이력의 악순환' 씬파일러 99.9%가 신용 800점 이하..."거래이력이 없지, 빚 안 갚는다 했나". 파이낸셜뉴스, https://www.fnnews.com/news/202303151401284618
  15. 홍종선, & 김지훈. (2009). 신용평가모형에서 두 분포함수의 동일성 검정을 위한 비모수적인 검정방법. 한국데이터정보과학회지, 20(2), 261-272. 
  16. Abrahams, C. R., & Zhang, M. (2008). Fair lending compliance: Intelligence and implications for credit risk management (Vol. 13). John Wiley & Sons.
  17. Agosto, A., Giudici, P., & Leach, T. (2019). Spatial regression models to improve P2P credit risk management. Frontiers in artificial intelligence, 2, 6.
  18. Baesens, B., Setiono, R., Mues, C., & Vanthienen, J. (2003). Using neural network rule extraction and decision tables for credit-risk evaluation. Management science, 49(3), 312-329.
  19. Benediktsson, J. A., Swain, P. H., & Ersoy, O. K. (1990). Neural network approaches versus statistical methods in classification of multisource remote sensing data. Vancouver, Canada, July 10-14, 1989) IEEE Transactions on Geoscience and Remote Sensing.
  20. Breiman, L. (2001). Random forests. Machine learning, 45, 5-32.
  21. Calabrese, R., Elkink, J. A., & Giudici, P. S. (2017). Measuring bank contagion in Europe using binary spatial regression models. Journal of the Operational Research Society, 68, 1503-1511.
  22. Cerda, P., Varoquaux, G., & Kegl, B. (2018). Similarity encoding for learning with dirty categorical variables. Machine Learning, 107 (8-10), 1477-1494.
  23. Chen, T., & Guestrin, C. (2016, August). Xgboost: A scalable tree boosting system. In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining (pp. 785-794).
  24. Chollet, F. (2021). Deep learning with Python. Simon and Schuster.
  25. Dahouda, M. K., & Joe, I. (2021). A deep-learned embedding technique for categorical features encoding. IEEE Access, 9, 114381-114391.
  26. Duarte, F., Martins, B., Pinto, C. S., & Silva, M. J. (2018). Deep neural models for ICD-10 coding of death certificates and autopsy reports in free-text. Journal of biomedical informatics, 80, 64-77.
  27. Fu, X., Ouyang, T., Chen, J., & Luo, X. (2020). Listening to the investors: A novel framework for online lending default prediction using deep learning neural networks. Information Processing & Management, 57(4), 102236.
  28. Guo, C., & Berkhahn, F. (2016). Entity embeddings of categorical variables. arXiv preprint arXiv:1604.06737.
  29. He, H., & Fan, Y. (2021). A novel hybrid ensemble model based on tree-based method and deep learning method for default prediction. Expert Systems with Applications, 176, 114899.
  30. Hendrycks, D., & Gimpel, K. (2016). Gaussian error linear units (gelus). arXiv preprint arXiv:1606.08415.
  31. Huang, X., Khetan, A., Cvitkovic, M., & Karnin, Z. (2020). Tabtransformer: Tabular data modeling using contextual embeddings. arXiv preprint arXiv:2012.06678.
  32. Kipf, T. N., & Welling, M. (2016). Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907.
  33. Lagasio, V., Pampurini, F., Pezzola, A., & Quaranta, A. G. (2022). Assessing bank default determinants via machine learning. Information Sciences, 618, 87-97.
  34. Lee, J. W., & Sohn, S. Y. (2021). Evaluating borrowers' default risk with a spatial probit model reflecting the distance in their relational network. PloS one, 16(12), e0261737.
  35. Lee, J. W., Lee, W. K., & Sohn, S. Y. (2021). Graph convolutional network-based credit default prediction utilizing three types of virtual distances among borrowers. Expert Systems with Applications, 168, 114411.
  36. Li, Z., Tian, Y., Li, K., Zhou, F., & Yang, W. (2017). Reject inference in credit scoring using semi-supervised support vector machines. Expert Systems with Applications, 74, 105-114.
  37. Li, Z., Wang, X., Yao, L., Chen, Y., Xu, G., & Lim, E. P. (2022, November). Graph Neural Network with Self-attention and Multi-task Learning for Credit Default Risk Prediction. In Web Information Systems Engineering-WISE 2022: 23rd International Conference, Biarritz, France, November 1-3, 2022, Proceedings (pp. 616-629). Cham: Springer International Publishing.
  38. Liu, X., Li, Y., Jiang, C., Wang, Z., Zhao, F., & Wang, J. (2022, May). Attentive feature fusion for credit default prediction. In 2022 IEEE 25th International Conference on Computer Supported Cooperative Work in Design (CSCWD) (pp. 816-821). IEEE.
  39. Luo, C., Wu, D., & Wu, D. (2017). A deep learning approach for credit scoring using credit default swaps. Engineering Applications of Artificial Intelligence, 65, 465-470.
  40. Moscato, V., Picariello, A., & Sperli, G. (2021). A benchmark of machine learning approaches for credit score prediction. Expert Systems with Applications, 165, 113986.
  41. Munoz-Cancino, R., Bravo, C., Rios, S. A., & Grana, M. (2023). On the combination of graph data for assessing thin-file borrowers' creditworthiness. Expert Systems with Applications, 213, 118809.
  42. Seger, C. (2018). An investigation of categorical variable encoding techniques in machine learning: binary versus one-hot and feature hashing.
  43. Shumovskaia, V., Fedyanin, K., Sukharev, I., Berestnev, D., & Panov, M. (2021). Linking bank clients using graph neural networks powered by rich transactional data. International Journal of Data Science and Analytics, 12, 135-145.
  44. Vong, W. K., Hendrickson, A. T., Navarro, D. J., & Perfors, A. (2019). Do additional features help or hurt category learning? The curse of dimensionality in human learners. Cognitive science, 43(3), e12724.
  45. Woo, H., & Sohn, S. Y. (2022). A credit scoring model based on the Myers-Briggs type indicator in online peer-to-peer lending. Financial Innovation, 8(1), 1-19.
  46. Yamashita, R., Nishio, M., Do, R. K. G., & Togashi, K. (2018). Convolutional neural networks: an overview and application in radiology. Insights into imaging, 9, 611-629.
  47. Zhang, L., Wang, J., & Liu, Z. (2023). What should lenders be more concerned about? Developing a profit-driven loan default prediction model. Expert Systems with Applications, 213, 118938.
  48. Zhang, S., Tong, H., Xu, J., & Maciejewski, R. (2019). Graph convolutional networks: a comprehensive review. Computational Social Networks, 6(1), 1-23.
  49. Zhou, L., & Wang, H. (2012). Loan default prediction on large imbalanced data using random forests. TELKOMNIKA Indonesian Journal of Electrical Engineering, 10(6), 1519-1525.
  50. Zhou, X., Zhang, W., & Jiang, Y. (2020). Personal credit default prediction model based on convolution neural network. Mathematical Problems in Engineering, 2020, 1-10. 
  51. 기획재정부. (2021.02.17). 씬파일러 정의. 09.05, 2023, from https://www.moef.go.kr/sisa/dictionary/detail?idx=3216.
  52. 네이버 테크핀 리포트. (2021, 09.04). 09.05, 2023, from https://www.navercorp.com/navercorp_/research/2022/20220217202609_2.pdf.
  53. 통계청. (2023, 03.22). 성별 연령대별 소득. 09.05, 2023, from https://kosis.kr/statHtml/statHtml.do?orgId=101&tblId=DT_1EP_2010&conn_path=I2