Abstract
In this paper, a Diffusion Multi-step Classifier (DMC) is proposed to address the imbalance issue in credit prediction. DMC utilizes a Diffusion Model to generate continuous numerical data from credit prediction data and creates categorical data through a Multi-step Classifier. Compared to other algorithms generating synthetic data, DMC produces data with a distribution more similar to real data. Using DMC, data that closely resemble actual data can be generated, outperforming other algorithms for data generation. When experiments were conducted using the generated data, the probability of predicting delinquencies increased by over 20%, and overall predictive accuracy improved by approximately 4%. These research findings are anticipated to significantly contribute to reducing delinquency rates and increasing profits when applied in actual financial institutions.
본 논문에서는 신용 예측에서 발생하는 불균형 문제를 해결하기 위해 Diffusion Multi-step Classifier(DMC)를 제안한다. DMC는 Diffusion Model을 통해 신용 예측 데이터의 연속적인 수치형 데이터들을 생성하고 생성된 데이터들을 Multi-step Classifier로 구분하는 것으로 범주형 데이터를 생성한다. DMC를 통해 기존의 데이터를 생성하는 다른 알고리즘보다 실제 데이터와 유사한 분포를 가지는 데이터를 생성할 수 있었다. 이렇게 생성된 데이터를 사용하여 실험을 진행하였을 때 연체를 예측할 확률이 20%이상 상승하였으며, 전체적으로 예측 정확성은 약 4%정도 상승하였다. 이러한 연구 결과는 실제 금융기관에 적용 시 연체율 감소와 수익 증가에 큰 기여를 할 수 있을것으로 예상된다.