DOI QR코드

DOI QR Code

Prediction of OPS(On-base Plus Slugging) in KBO League

한국프로야구에서 장타율과 출루율(OPS) 예측 연구

  • 신동윤 (강원대학교 대학원 컴퓨터과학과) ;
  • 김진호 (강원대학교 대학원 컴퓨터과학과)
  • Received : 2022.05.06
  • Accepted : 2022.06.07
  • Published : 2022.06.30

Abstract

In sports, the proportion of data analysis in team management such as team strategy planning and marketing is increasing. In KBO(Korea Baseball Organization) league, in particular, plans such as recruiting players and fostering players are established to devise team strategies for the next year, such as FA and trade, at the end of a season. For these reasons, it is very important to predict players' performance for the next year. In this study, the target was limited to only the batter and tried to find out how to predict whether the performance of the next year will improve. As a standard record for rising and falling, OPS(On-Base Plus Slugging), which is easy to calculate and has a high relationship with team score, was used. In this study, 40 years of regular season data from 1982 to 2021 were used as data, and 11 machine learning classification models were used as experimental methods. Predicting the rise and fall of OPS, RBF SVM, Neural Net, Gaussian Process, and AdaBoost were more accurate than other classification models, and age did not significantly affect accuracy.

스포츠 분야에서는 팀 전략 구상과 마케팅 등 팀 운영에 있어서, 데이터 분석의 비중이 점점 더 커지고 있다. 특히, 한국프로야구에서는 한 시즌이 끝나면 FA, 트레이드 등 다음 해 팀 전략을 구상하기 위해서 선수 영입과 선수 육성 등의 계획을 수립하는데, 이 때 선수들의 다음 해 성적을 예측하는 것이 매우 중요하다. 본 연구에서는 타자만으로 대상을 한정지어 다음 해의 성적이 상승할지를 예측해보고자 하였다. 상승 및 하락의 기준이 되는 기록으로는, 계산하기 쉽고 팀 득점과의 관계가 높은 OPS로 하였다. 본 연구에서 데이터는 한국프로야구 1982년부터 2021년까지 40년간의 정규시즌 데이터를 사용하였고, 실험 방법으로는 11개의 머신러닝 분류 모델을 사용하였다. OPS의 상승 및 하락 여부를 예측해본 결과, RBF SVM, Neural Net, Gaussian Process, AdaBoost가 다른 분류 모델에 비해 정확도가 높게 나왔고 나이는 정확도에 큰 영향을 주지 못했다.

Keywords

Acknowledgement

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (No. 2021R1F1A1059255).

References

  1. KBO 2020 공식 야구규칙 https://lgcxydabfbch3774324.cdn.ntruss.com/KBO_FILE/ebook/pdf/2020_야구규칙.pdf
  2. Blakeley B. McShane, Alexander Braunstein, James Piette and Shane T. Jensen, "A Bayesian Variable Selection Approach to Major League Baseball Hitting Metrics," Journal of Quantitative Analysis in Sports, Vol. 7, No. 4, 2009.
  3. 조영석, 조영주, "한국프로야구에서 OPS와 득점에 관한 연구", Journal of The Korean Data Analysis Society, Vol. 7, No. 1, pp. 221-231, 2005.
  4. 김혁주, "한국프로야구에서 출루능력과 장타력이 득점 생산성에 미치는 영향", 한국데이터정보과학회지, Vol. 23, No. 6, pp. 1165-1174, 2012.
  5. 정진상, "빅 데이터 분석 기법을 이용한 한국프로야구 타자 평가 지표 개발", 창원대학교 석사학위 논문집, 2014.
  6. 정예린, "빅 데이터 분석과 투수 기량을 반영한 한국프로야구 타자 평가 모델", 창원대학교, 2017.
  7. 김예형, "한국 프로야구에서 득점과 실점에 영향을 미치는 요인에 관한 통계적 연구", 원광대학교, 2014.
  8. 문형우, "야구 경기에서 빅데이터 분석과 마르코프 연쇄를 이용한 득점 예측 모형". 창원대학교 박사학위논문, 2014.
  9. 이승준, "데이터가 바꿀 한국 야구의 미래", 한겨레, Oct. 27, 2019.
  10. 장원석, "예전의 명 감독은 잊어라, 데이터가 우승을 이끈다", 동아비즈니스리뷰, Vol. 286, 2019.
  11. 스탯티즈, http://www.statiz.co.kr/
  12. 김민택, 구자환, 김응모, "하둡 및 스파크 기반 빅데이터 분석 플랫폼을 이용한 타자 OPS 예측", 한국정보과학회 학술발표논문집 Vol. 2019, No.12.
  13. 박지훈, http://suxism.com/?page_id=3453
  14. 한정섭, 정다현, 김성준, "머신러닝을 활용한 빅데이터 분석을 통해 KBO 타자의 OPS 예측", 차세대융합기술학회논문지 Vol. 6, No. 1, 2022.
  15. 홍종선, 신동식, "2017년 한국프로야구 타자력 예측모형 개발", 한국데이터정보과학회지 Vol. 28, No. 3, 2017.
  16. 유진, 조선일보, 2022.02.04 https://www.chosun.com/sports/sports_photo/2022/02/04/WYAO6SJZOOPPAOFDSMN5A5TTBM/
  17. 벤저민 바우머, 앤드루 짐발리스트, 세이버메트릭스 레볼루션, 송민구 역, 한빛비즈, 2015.
  18. 나무위키, https://namu.wiki/w/OPS?rev=197
  19. 황규인, 동아일보, 2020-05-14 https://www.donga.com/news/Sports/article/all/20200514/101035162/1
  20. Mitchel Lichtman, 2009-12-21, https://tht.fangraphs.com/how-do-baseball-players-age-part-1/
  21. 이장택, "한국프로야구 타자 연봉의 결정요인", 한국데이터정보과학회지, Vol. 30, No. 6, pp. 1375-138, 2019.
  22. 오상진, 스포탈코리아, 2018-05-16, https://sports. v.daum.net/v/20180516164422799
  23. 박성배, 이완영, 전홍권, "한국프로야구 타자 연봉 평가 척도에 영향을 미치는 경기력 변수 분석", 한국사회체육학회지, Vol. 66, pp. 55 - 65, 2016.