DOI QR코드

DOI QR Code

An Improved AdaBoost Algorithm by Clustering Samples

샘플 군집화를 이용한 개선된 아다부스트 알고리즘

  • Baek, Yeul-Min (Dept. of Electronics and Computer Engineering, Hanyang University) ;
  • Kim, Joong-Geun (Dept. of Electronics and Computer Engineering, Hanyang University) ;
  • Kim, Whoi-Yul (Dept. of Electronics and Computer Engineering, Hanyang University)
  • 백열민 (한양대학교 전자컴퓨터통신공학과) ;
  • 김중근 (한양대학교 전자컴퓨터통신공학과) ;
  • 김회율 (한양대학교 전자컴퓨터통신공학과)
  • Received : 2013.06.04
  • Accepted : 2013.07.15
  • Published : 2013.07.30

Abstract

We present an improved AdaBoost algorithm to avoid overfitting phenomenon. AdaBoost is widely known as one of the best solutions for object detection. However, AdaBoost tends to be overfitting when a training dataset has noisy samples. To avoid the overfitting phenomenon of AdaBoost, the proposed method divides positive samples into K clusters using k-means algorithm, and then uses only one cluster to minimize the training error at each iteration of weak learning. Through this, excessive partitions of samples are prevented. Also, noisy samples are excluded for the training of weak learners so that the overfitting phenomenon is effectively reduced. In our experiment, the proposed method shows better classification and generalization ability than conventional boosting algorithms with various real world datasets.

본 논문에서는 아다부스트의 과적합 문제를 해결하기 위해 샘플 군집화를 이용한 개선된 아다부스트 알고리즘을 제안한다. 아다부스트는 다양한 객체 검출 방법에서 좋은 성능을 보이는 방법으로 알려져 있지만 훈련 샘플에 노이즈가 존재하는 경우 과적합 현상이 발생하는 문제가 있다. 이를 해결하기 위해 제안하는 방법은 우선 훈련 샘플의 긍정 샘플을 k-평균 군집화 알고리즘을 이용하여 K개의 군집으로 나눈다. 이후 아다부스트의 약분류기 훈련 시 K개의 군집 중 훈련 오차를 최소화하는 하나의 군집만을 선택하여 사용한다. 이로써, 제안하는 방법은 매 회 반복되는 약분류기의 훈련 시 훈련 샘플들이 과분할 되는 것과 노이즈 샘플이 훈련에 사용되는 것을 방지함으로써 기존 아다부스트의 과적합 현상을 효과적으로 줄여준다. 실험 결과, 제안하는 방법은 다양한 실제 데이터셋에서 기존의 부스팅 기반 방법들에 비해 더 나은 분류 성능 및 일반화 성능을 보여주었다.

Keywords

References

  1. R. E. Schapire and Y. Singer, "Improved boosting algorithms using confidence-rated predictions," Machine Learning, vol. 37, no. 3 pp. 297-336, 1999. https://doi.org/10.1023/A:1007614523901
  2. J. Friedman, T. Hastie, and R. Tibshirani, "Additive logistic regression: A statistical view of boosting," The Annals of Statistics, vol. 38, no. 2, pp. 337-374, 2000.
  3. A. Vezhnevets and V. Vezhnevets, "Modest AdaBoost - Teaching AdaBoost to Generalize Better," Graphicon, vol. 12, no. 5, pp. 987-997, 2005.
  4. S. Merler, B. Caprile, and C. Furlanello, "Bias-Variance Control via Hard Points Shaving," International Journal of Pattern Recognition and Artificial Intelligence, vol. 18, no. 5, pp. 891-903, 2004. https://doi.org/10.1142/S0218001404003460
  5. D.-S. Kim, Y.-M. Baek, and W.-Y. Kim, "Reducing Overfitting of AdaBoost by Clustering-based Pruning of Hard Examples," Proceedings of the 7th International Conference on Ubiquitos Information Management and Communication, no. 90, 2013.
  6. A. Vezhnevets and O. Barinova, "Avoiding boosting overfitting by removing confusing samples," Proceedings of European Conference on Machine Learning, pp. 430-441, 2007.
  7. J. Cao, S. Kwong, and R. Wang, "A noise-detection based AdaBoost algorithm for mislabeled data," Pattern Recognition, vol. 45, no. 12, pp. 4451-4465, 2012. https://doi.org/10.1016/j.patcog.2012.05.002
  8. A. Frank, and A. Asuncion, UCI Machine Learning Repository, , 2013.
  9. A. Vezhnevets, GML Matlab Toolbox, Technical Manual, Graphics and Media Lab., Computer Science Department, Moscow state University.

Cited by

  1. Image Tracking Based Lane Departure Warning and Forward Collision Warning Methods for Commercial Automotive Vehicle vol.39, pp.2, 2015, https://doi.org/10.3795/KSME-A.2015.39.2.235