DOI QR코드

DOI QR Code

A Study on the Analysis of Factors for the Golden Glove Award by using Machine Learning

머신러닝을 이용한 골든글러브 수상 요인 분석에 대한 연구

  • 엄대엽 (호서대학교 빅데이터AI학과) ;
  • 김성용 (호서대학교 빅데이터AI학과)
  • Received : 2022.02.17
  • Accepted : 2022.03.31
  • Published : 2022.05.28

Abstract

The importance of data analysis in baseball has been increasing after the success of MLB's Oakland which applied Billy Beane's money ball theory, and the 2020 KBO winner NC Dinos. Various studies using data in baseball has been conducted not only in the United States but also in Korea, In particular, the models using deep learning and machine learning has been suggested. However, in the previous studies using deep learning and machine learning, the focus is only on predicting the win or loss of the game, and there is a limitation in that it is difficult to interpret the results of which factors have an important influence on the game. In this paper, to investigate which factors is important by position, the prediction model for the Golden Glove award which is given for the best player by position is developed. To develop the prediction model, XGBoost which is one of boosting method is used, which also provide the feature importance which can be used to interpret the factors for prediction results. From the analysis, the important factors by position are identified.

야구에서 데이터분석의 중요성은 점점 더 커지고 있는데, 이는 Billy Beane의 머니볼 이론을 적용한 MLB의 오클랜드 구단과 2020년 KBO 우승팀인 NC다이노스의 사례에서도 알 수 있다. 미국 뿐 만 아니라 우리나라에서도 데이터를 이용한 다양한 연구이 이루어지고 있는데, 특히 경기의 승패를 예측하기 딥러닝 및 머신러닝을 이용한 연구가 활발하게 진행되고 있다. 그러나 기존 연구의 경우 경기 승패 예측에 초점이 맞추어져 있으며, 어떠한 요인이 경기에 중요한 영향을 주었는지에 대한 결과 해석이 어렵다는 한계점이 존재한다. 이에 따라 본 논문에서는 포지션별 최고의 선수에게 수여되는 골든글러브 수상 예측 모형을 개발하고, 어떠한 요인이 수상에 영향을 주는지를 파악함으로써, 우수한 선수로 구분되는 척도를 찾고자 한다. 분석 모형으로는 Boosting 기법 중의 하나인 XGBoost를 이용하였으며, 어떠한 요인이 골든글러브 수상에 중요한 영향을 주었는지 파악하기 위하여 XGBoost의 변수 중요도를 이용하였다. 이와 같은 분석을 통해 각 포지션별 중요한 지표를 파악할 수 있었다.

Keywords

Acknowledgement

이 논문은 2019년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NRF-2019R1D1A3A03103802).

References

  1. M. Lewis, Moneyball: The Art of winning an unfair game, Norton: New York, 2003.
  2. 김형우, 머신러닝 기법을 활용한 프로야구 승패 예측, 전남대학교, 석사학위논문, 2021.
  3. Y. Oh, H. Kim, J. Yun, and J. Lee, "Using Data Mining Techniques to Predict Win-Loss in Korean Professional Baseball Games," Korean Institute of Industrial Engineers, Vol.40, No.1, pp.8-17, 2014. https://doi.org/10.7232/JKIIE.2014.40.1.008
  4. 채진석, 조은형, 엄한주, "프로야구 포스트시즌 진출예측을 위한 통계적 모형 비교," 한국체육측정평가학회지, 제12권, 제1호, pp.33-48, 2010. https://doi.org/10.21797/KSME.2010.12.1.003
  5. 오광모, 이장택, "데이터마이닝을 이용한 한국 프로야구 선수들의 연봉에 관한 모형연구," 한국스포츠사회학회지, 제16권, 제2호, pp2-310, 2003.
  6. 박동주, 김병우, 정영선, 안창욱, "Deep Neural Network 기반 프로야구 일일 관중 수 예측 : 광주-기아 챔피언스 필드를 중심으로," 스마트미디어저널, 제7권, 제1호, pp.16-23, 2018. https://doi.org/10.30693/SMJ.2018.7.1.16
  7. 홍석미, 정경숙, 정태충, "혼합형 기계 학습 모델을 이용한 프로야구 승패 예측 시스템," 한국정보과학회, 제9권, 제6호, pp.693-698, 2003.
  8. 노언석, 최재현, "기계학습을 활용한 프로야구 승부예측에 관한 연구," 한국IT정책경영학회논문지, 제9권, 제1호, pp.335-338, 2017.
  9. 김태훈, 임성원, 고진광, 이재학, "인공지능 모델에 따른 한국프로야구의 승패 예측 분석에 관한 연구," 한국빅데이터학회, 제5권, 제2호, pp.77-84, 2020. https://doi.org/10.36498/KBIGDT.2020.5.2.77
  10. 서영진, 문형우, 우용태, "기계학습 기법을 이용한 한국프로야구 승패 예측 모델," 한국컴퓨터정보학회, 제24권, 제2호, pp.17-24, 2019. https://doi.org/10.9708/JKSCI.2019.24.02.017
  11. 김종훈, 김경태, 한종기, "Deep Learning 기반 기계학습 알고리즘을 이용한 야구 경기 Big Data 분석," 한국통신학회, 제2015권, 제11호, pp.262-265, 2015.
  12. L. Breiman, "Random Forest," Machine Learning, Vol.45, No.1, pp.5-32, 2001. https://doi.org/10.1023/A:1010933404324
  13. R. Rojas, AdaBoost and the super bowl of classifiers a tutorial introduction to adaptive boosting, Freie University: Berlin, 2009.
  14. T. Hastie, R. Tibshirani, and J. H. Friedman, "10. Boosting and Additive Trees," The Elements of Statistical Learning(2nd ed.), New York: Springer, 2009.
  15. T. Chen and C. Guestrin, "XGBoost: A scalable tree boosting system," Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining San Francisco, pp. 785-794, 2016.
  16. J. H. Friedman, "Greedy Function Approximation: A Gradient Boosting Machine," The Annals of Statistics, Vol.29, No.5, pp.1189-1232, 2001. https://doi.org/10.1214/aos/1013203451