DOI QR코드

DOI QR Code

불균형 자료에 대한 분류분석

Classification Analysis for Unbalanced Data

  • 김동아 (이화여자대학교 통계학과) ;
  • 강수연 (이화여자대학교 통계학과) ;
  • 송종우 (이화여자대학교 통계학과)
  • Kim, Dongah (Department of Statistics, Ewha Womans University) ;
  • Kang, Suyeon (Department of Statistics, Ewha Womans University) ;
  • Song, Jongwoo (Department of Statistics, Ewha Womans University)
  • 투고 : 2015.03.20
  • 심사 : 2015.04.28
  • 발행 : 2015.06.30

초록

일반적인 2집단 분류(2-class classification)의 경우, 두 집단의 비율이 크게 차이나지 않는 경우가 많다. 본 논문에서는 두 집단의 비율이 크게 차이나는 불균형 데이터(unbalanced data)의 분류 문제에 대해서 다루고자 한다. 불균형 데이터의 분류방법은 균형이 맞는 데이터(balanced data)의 경우보다 분류하기 어려운 경우가 많다. 이런 자료에서 보통의 분류모형을 적용하게 되면 많은 경우에 대부분의 관측치가 큰 집단으로 분류 되는 경우가 많은데 실질적인 어플리케이션에서는 이런 오분류가 손해가 더 큰 경우가 대부분이다. 우리는 sampling 기법을 이용하여 다양한 분류 방법론의 성능을 비교 분석 하였다. 또한 비대칭 손실(asymmetric loss)을 가정한 경우에 어떤 방법론이 가장 작은 loss를 생성하는 지를 비교하였다. 성능 비교를 위해서는 오분류율(misclassification rate), G-mean, ROC, 그리고 AUC(Area under the curve) 등을 이용하였다.

We study a classification problem of significant differences in the proportion of two groups known as the unbalanced classification problem. It is usually more difficult to classify classes accurately in unbalanced data than balanced data. Most observations are likely to be classified to the bigger group if we apply classification methods to the unbalanced data because it can minimize the misclassification loss. However, this smaller group is misclassified as the larger group problem that can cause a bigger loss in most real applications. We compare several classification methods for the unbalanced data using sampling techniques (up and down sampling). We also check the total loss of different classification methods when the asymmetric loss is applied to simulated and real data. We use the misclassification rate, G-mean, ROC and AUC (area under the curve) for the performance comparison.

키워드

참고문헌

  1. Breiman, L. (2001). Random forests, Machine Learning, 45, 5-32. https://doi.org/10.1023/A:1010933404324
  2. Chawla, N., Bowyer, K., Hall, L. and Kegelmeyer, W. (2002). SMOTE: Synthetic minority over-sampling technique, Journal of Artificial Intelligence Research, 16, 321-357.
  3. Chen, C., Liaw, A. and Breiman, L. (2004). Using random forest to learn imbalanced data, Technical Report 666.
  4. Karatzoglou, A., Meyer, D. and Hornik, K. (2006). Support vector machines in R, Journal of Statistical Software, 15.
  5. Kubat, M., Holte, R. and Matwin, S. (1997). Learning when negative examples abound. In Proceedings of ECML-97, 9th European Conference on Machine Learning, 146-153.
  6. Kubat, M. and Matwin, S. (1997). Addressing the curse of imbalanced training sets: One-sided selection, Proceedings of the 14th International Conference on Machine Learning, 179-186.
  7. Park, C., Kim, Y., Kim, J., Song, J. and Choi, H. (2011). Datamining using R, Kyowoo, Seoul.
  8. R Development Core Team (2010). R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, ISBN 3-900051-07-0. http://www.R-project.org
  9. Vapnik, V. (1998). Statistical Learning Theory, Wiley, New York.
  10. Wu, G. and Chang, E. (2003). Class-boundary alignment for imbalanced dataset learning, In ICML 2003 Workshop on Learning from Imbalanced Data Sets II, Washington, DC.