DOI QR코드

DOI QR Code

A Study on the Adjustment of Posterior Probability for Oversampling when the Target is Rare

목표 범주가 희귀한 자료의 과대표본추출에 대한 연구

  • Kim, U.N. (BC Card) ;
  • Lee, S.K. (Department of Statistics, Sungshin Women's University) ;
  • Choi, J.H. (Department of Information & Statistics, Korea University)
  • Received : 20110300
  • Accepted : 20110600
  • Published : 2011.06.30

Abstract

When an event of target variable is rare, a widespread strategy is to build a model on the sample that disproportionally over-represents the events, that is over-sampled. Using the data over-sampled from the original data set, the predicted values would be biased; however, it can be easily corrected to represent the population. In this study, we investigate into the relationship between the proportion of rare event on a data-mart and the model performance using real world data of a Korean credit card company. Also, we use the methods for adjusting of posterior probability for over-sampled data of the offset method and the weighted method. Finally, we compare the performance of the methods using real data sets.

반응/미반응 목표변수를 갖는 모집단에서 관심 목표범주의 빈도가 극히 작을 경우, 즉 희귀할(rare) 경우, 모형 구축을 위한 데이터마트를 형성할 때 반응/미반응 범주 구성비는 구축된 모형의 성능에 영향을 준다. 본 연구는 이러한 점에 착안하여 반응/미반응 범주 구성비와 모형성능의 관련성을 모형평가 통계량에 기반하여 판단한다. 이로써 데이터마트 형성에 이상적인 반응/미반응 범주 구성비를 탐지하려는데 본 연구의 목적을 두고 있다. 또한 일반적으로 목표범주의 빈도가 희귀할 경우, 분할 표본추출에 의하여 희귀사건(rare event)을 과대표본추출(oversampling)하는 것이 일반적이며, 이로부터 기인하는 사후확률에 대한 편향을 조정하게 된다. 본 연구에서는 사후확률 조정방법으로 오프셋(offset) 방법과 가중치 방법(sampling weights)을 적용하고 이를 비교하였다.

Keywords

References

  1. 강현철, 한상태, 최종후, 이성건, 김은석, 엄익현, 김미경 (2006). 고객관계관리(CRM)를 위한 데이터마이닝 방법론, 자유아카데미.
  2. 이태림, 구자용, 박헌진, 이긍희, 최대우 (2004). 데이터마이닝, 한국방송통신대학교출판부.
  3. 장남식, 홍성완, 장재호 (1999). 데이터 마이닝, 대청미디어.
  4. Galit, S., Nitin, R. P. and Peter, C. B. (2006). Data Mining for Business Intelligence, John Wiley & Sons, New York.
  5. Scott, A. J. and Wild, C. J. (1986). Fitting logistic regression models under case-control or choice based sampling, Journal of the Royal Statistical Society B, 48, 170-182.
  6. Scott, A. J. and Wild, C. J. (1997). Fitting regression models to case-control data by maximum likelihood, Biometrika, 84, 57-71. https://doi.org/10.1093/biomet/84.1.57