A Study on Predictive Modeling of Public Data: Survival of Fried Chicken Restaurants in Seoul

서울 치킨집 폐업 예측 모형 개발 연구

  • 방준아 (성균관대학교 통계학과) ;
  • 손광민 (성균관대학교 통계학과) ;
  • 이소정 (CJ올리브네트웍스 DT융합연구소) ;
  • 이현근 (CJ올리브네트웍스 빅데이터센터) ;
  • 조수빈 (성균관대학교 통계학과)
  • Received : 2018.11.27
  • Accepted : 2018.12.31
  • Published : 2018.12.31

Abstract

It seems unrealistic to say that fried chicken, often known as the American soul food, has one of the biggest markets in South Korea. Yet, South Korea owns more numbers of fried chicken restaurants than those of McDonald's franchise globally[4]. Needless to say not all these fast-food commerce survive in such small country. In this study, we propose a predictive model that could potentially help one's decision whilst deciding to open a store. We've extracted all fried chicken restaurants registered at the Korean Ministry of the Interior and Safety, then collected a number of features that seem relevant to a store's closure. After comparing the results of different algorithms, we conclude that in order to best predict a store's survival is FDA(Flexible Discriminant Analysis). While Neural Network showed the highest prediction rate, FDA showed better balanced performance considering sensitivity and specificity.

대한민국에서 치킨집은 전 세계 맥도날드 매장 수보다 많을 정도로 자영업의 큰 비중을 차지하는 창업 업종이다. 치킨집은 꾸준히 생겨나고 있지만, 소상공인의 창업 후 폐업률은 3년 62%, 5년 71%에 육박하는 것으로 나타났다. 특히, 숙박 및 음식점의 경우 70%가 3년을, 82%가 5년을 버티지 못하는 것으로 집계되었다. 이에 본 연구는 '서울 치킨집 폐업 예측 모형'을 개발하여, 예비창업자가 개업 후보지를 선정하는 의사결정 과정에 도움을 주고자 하였다. 먼저 행정자치부 지방행정 인허가 데이터의 업소별 개 폐업 신고 일자를 중심으로 다양한 변수를 수집하였다. 이후 다양한 분류 알고리즘을 적용하고, 예측 모형의 성능을 비교하였다. 그 결과, 인공신경망(Neural Networks)이 가장 높은 정확도를 보였지만 특이도와 민감도가 불균형적이었다. 이에 비해 유연판별분석(FDA)은 인공신경망보다 정확도는 낮지만, 상대적으로 균형적인 예측 성능을 보였다.

Keywords

References

  1. 고은지, "소상공인 71%, 5년내 문 닫아...식당.여관은 1년내 절반 폐업", 2016.09.28., https://www.yna.co.kr/view/AKR20160927179000003
  2. 국가법령정보센터, 국토의 계획 및 이용에 관한 법률, 2018.06.12.
  3. 국가법령정보센터, 다중이용업소의 안전관리에 관한 특별법, 2017.12.26.
  4. 김현우, "'우후죽순' 치킨집, 전 세계 맥도날드 매장보다 많아", 2015.10.05., https://www.ytn.co.kr/_ln/0102_201510052201553904
  5. 박수호, & 서은내, "3040 vs 5060 세대별 창업 특징 살펴보니 | "인생 이모작…내 노후는 내가" 5060 반란", 2016.08.12., http://news.mk.co.kr/newsRead.php?no=575619&year=2016
  6. 배정원, "소비자기대지수", 2012.11.24., http://biz.chosun.com/site/data/html_dir/2012/11/24/2012112400390.html
  7. 윤효원, "자영업자 700만명, 절반으로 줄여야", 2018.09.03., http://www.labortoday.co.kr/news/articleView.html?idxno=153665
  8. 이진욱, 유국현, 문병민, 배석주, "감성분석과 Word2vec을 이용한 비정형 품질 데이터 분석", 품질경영학회지, 제45권, 제1호, pp.117-127, 2017. https://doi.org/10.7469/JKSQM.2017.45.1.117
  9. 이현, "창업자 5명 중 2명은 치킨집.편의점...이미 포화 상태", 2016.07.11., http://news.jtbc.joins.com/article/article.aspx?news_id=NB11269730&pDate=20160711
  10. 최현준, "선행종합지수", 2012.03.04., http://www.hani.co.kr/arti/economy/economy_general/521840.html
  11. 통계청, 기업생멸행정통계, 2016.
  12. 통계청, 자영업 현황분석, 2016.
  13. "Orthogonal Partial Least Squares (OPLS) in R", 2013.07.28., https://www.r-bloggers.com/orthogonal-partial-least-squares-opls-in-r
  14. "A Quick Introduction to K-Nearest Neighbors Algorithm", 2017.04.11., https://medium.com/@adi.bronshtein/a-quick-introduction-to-k-nearest-neighbors-algorithm-62214cea29c7
  15. "SVM Separating Hyperplanes", 2012.11.26., https://en.wikipedia.org/wiki/Support_vector_machine#cite_note-CorinnaCortes-1/512px-Svm_separating_hyperplanes_(SVG).svg
  16. "What is an artificial neural network? Here's everything you need to know", 2018.09.13, https://www.digitaltrends.com/cool-tech/what-is-an-artificial-neural-network/
  17. Chen, T., & Guestrin, C., "XGBoost: A Scalable Tree Boosting System", International Conference on Knowledge Discovery and Data Mining, pp.785-794, 2016.
  18. Fawcett, Tom, "An Introduction to ROC Analysis", Pattern Recognition Letters, Vol.27, No.8, pp.861-874, 2006. https://doi.org/10.1016/j.patrec.2005.10.010
  19. Friedman J, Hastie T, Tibshirani R., "Additive Logistic Regression: A Statistical View of Boosting", Annals of Statistics, Vol.28, No.2, pp.337-374, 2000. https://doi.org/10.1214/aos/1016120463
  20. Han, J., & Kamber, M., Data mining: Concepts and techniques (3rd ed.), Amsterdam: Elsevier, Morgan Kaufmann, 2011.
  21. Hastie, T., Tibshirani, R., & Buja, A., "Flexible Discriminant Analysis by Optimal Scoring", J. of the American Statistical Association, Vol.89, No.428, pp.1255-1270, 1994. https://doi.org/10.1080/01621459.1994.10476866
  22. Hoerl, A., & Kennard, R., "Ridge Regression: Biased Estimation for Nonorthogonal Problems", Technometrics, Vol. 42, No. 1, pp.80-86, 2000. https://doi.org/10.1080/00401706.2000.10485983
  23. Keller, J. M., Gray, M. R., & Givens, J. A., "A fuzzy K-nearest neighbor algorithm", IEEE Transactions on Systems, Man, and Cybernetics, Vol.SMC-15, No.4, pp.580-585, 1985. https://doi.org/10.1109/TSMC.1985.6313426
  24. Kuhn, M., & Johnson, K., Applied predictive modeling (2nd ed.), New York: Springer., 2016.
  25. Leo Breiman, "Random Forests", 2001., https://www.stat.berkeley.edu/-breiman/randomforest2001.pdf
  26. Schalkoff, R.J, Artificial neural networks, McGraw-Hill, 1997.
  27. Sinnott, R.W, "Virtues of the Haversine", Sky and Telescope, Vol. 68, Issue 2, pp.158, 1984.
  28. Vapnik, V. N., The nature of statistical learning theory, New York: Springer, 2010.
  29. Wold, S., Sjostrom, M., & Erikssonb, L., "PLS-regression: A basic tool of chemometrics", Chemometrics and Intelligent Laboratory Systems, Vol.58, No.2, pp.109-130, 2001. https://doi.org/10.1016/S0169-7439(01)00155-1
  30. Zou, H., & Hastie, T., "Regularization and Variable Selection via the Elastic Net", J. of the Royal Statistical Society. Series B (Statistical Methodology), Vol. 67, No.2, pp.301-320. 2005. https://doi.org/10.1111/j.1467-9868.2005.00503.x