국내 배달음식 이용건수 분석 및 예측

A Study on the Number of Domestic Food Delivery Services

  • 권재영 (이화여자대학교 통계학과) ;
  • 김시내 (이화여자대학교 통계학과) ;
  • 박은지 (이화여자대학교 통계학과) ;
  • 송종우 (이화여자대학교 통계학과)
  • Kwon, Jaeyoung (Department of Statistics, Ewha Womans University) ;
  • Kim, Sinae (Department of Statistics, Ewha Womans University) ;
  • Park, Eungee (Department of Statistics, Ewha Womans University) ;
  • Song, Jongwoo (Department of Statistics, Ewha Womans University)
  • 투고 : 2015.07.29
  • 심사 : 2015.09.23
  • 발행 : 2015.10.31


우리나라는 세계적으로 배달음식 문화가 가장 많이 발달한 나라 중에 하나로 최근에는 일인가구의 증가와 배달앱 시장의 발달과 함께 그 성장 속도 또한 눈부시게 증가하고 있다. 따라서 배달음식 이용에 큰 영향을 미칠 것으로 예상되는 날씨와 날짜별 변수를 고려하여 시간대별 배달음식 이용건수를 예측함으로써 소비자와 생산자 모두에게 이익을 주는 예측모형을 찾고자 한다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 2014년도 배달음식 통화건수를 예측하는데 있다. 예측에 사용되는 회귀 모형은 선형회귀모형, 랜덤 포레스트, 그래디언트 부스팅, 서포트 벡터 기계, 신경망, 로지스틱 회귀모형으로 총 6가지이다. 고려되는 배달음식 업종은 총 4가지(족발/보쌈정식, 중국음식, 치킨, 피자)로 크게 두 가지 방법을 이용하여 각 업종별 배달음식 이용건수를 예측하였다. 첫 번째 방법은 총 이용건수와 각 업종별 배달음식 이용비율을 곱하여 각 업종별 배달음식 이용건수를 예측하는 것이고, 두 번째 방법은 각 업종별 모형을 세워 각 업종별 배달음식 이용건수를 예측하는 방법이다. 최종적으로 선택된 모형은 방법 1에서는 신경망 모형과 선형회귀모형이며, 방법 2에서는 신경망 모형이었다. 방법 2보다는 방법 1로 구한 결과가 더 예측력이 좋은 것으로 나타났다.

Food delivery services are well developed in the Republic of Korea, The increase of one person households and the success of app applications influence delivery services these days. We consider a prediction model for the food delivery service based on weather and dates to predict the number of food delivery services in 2014 using various data mining techniques. We use linear regression, random forest, gradient boosting, support vector machines, neural networks, and logistic regression to find the best prediction model. There are four categories of food delivery services and we consider two methods. For the first method, we estimate the total number of delivery services and the posterior probabilities of each delivery service. For the second method, we use different models for each category and combine them to estimate the total number of delivery services. The neural network and linear regression model perform best in the first method, this is followed by the neural network which is the best for the second method. The result shows that we can estimate the number of deliveries accurately based on dates and weather information.



  1. Breiman, L. (2001). Random forests, Machine Learning, 45, 5-32.
  2. Breiman, L., Friedman. J., Olshen, R. and Stone, C. (1984). Classification and Regression Trees, Chapman and Hall, New York.
  3. Cortes, C. and Vapnik, V. (1995). Support-vector networks, Machine Learning, 20, 273-297.
  4. Friedman, J. (2002). Stochastic gradient boosting, Computational Statistics & Data Analysis, 38, 367-378.
  5. Hastie, T., Tibshirani, R. and Friedman, J. (2009). The Elements of Statistical Learning, Springer, New York, USA.
  6. James, G., Witten, D., Hastie, T. and Tibshirani, R. (2013). An Introduction to Statistical Learning, Springer, New York, USA.
  7. Karatzoglou, A., Meyer, D. and Hornik, K. (2006). Support Vector Machines in R. Journal of Statistical Software, 15(9).
  8. Park, C., Kim, Y., Kim, J., Song, J. and Choi, H. (2011). Datamining using R, Kyowoo, Seoul.
  9. R Development Core Team (2010). R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, ISBN 3-900051-07-0.
  10. Ridgeway, G. (2012). Generalized Boosted Models: A guide to the gbm package.
  11. Thomas, D. (2000). An experimental comparison of three methods for constructing ensembles of decision trees: Bagging, boosting, and randomization, Machine Learning, 40, 139-157.

피인용 문헌

  1. Short-Term Wind Electric Power Forecasting Using a Novel Multi-Stage Intelligent Algorithm vol.10, pp.3, 2018,
  2. A Comparative Analysis of the Environmental Benefits of Drone-Based Delivery Services in Urban and Rural Areas vol.10, pp.3, 2018,