Abstract
Estimation of winning percentage in baseball has always been particularly interesting to many baseball fans. We have fitted models including linear regression and Pythagorean formula to the Korean baseball data of seasons from 1982 to 2015. Using RMSE criterion for both the linear formula and the Pythagorean formula, we compared two models in predicting the actual winning percentage. Pythagorean expectation is superior to linear formula when there is either high or low winning percentage. Two methods yield very similar efficiencies when the actual winning percentage is about 50%. To understand and use for estimating winning percentage, it is easier linear formula as estimated equations.
한국프로야구에서 팀의 승률을 예측하는 것은 야구팬들에게중요한 관심사이다. 팀들의 승률을 1982년부터 2015년까지의 모든 한국프로야구 기록을 이용하여 야구의 피타고라스 모형과 선형회귀모형을 사용하여 추정하고 평균제곱오차의 제곱근 (root mean squared error; RMSE)을 이용하여 상대적 효율성을 비교하였다. 결론적으로 승률이 높거나 낮은 경우에는 피타고라스 모형, 승률이 50% 근방에서는 선형회귀모형이 각각 효율성이 뛰어났다. 또한 전체데이터를 사용하는 경우에는 피타고라스모형이 상대적 효율성이 좋았으며, 효율성이 비슷하면 선형회귀모형이 사용과 이해도의 측면에서 좀 더 바람직하다고 할 수 있다.