DOI QR코드

DOI QR Code

The impact of the change in the splitting method of decision trees on the prediction power

의사결정나무의 분기법 변화가 예측력에 미치는 영향

  • Chang, Youngjae (Department of Statistics and Data Science, Korea National Open University)
  • 장영재 (한국방송통신대학교 통계.데이터과학과)
  • Received : 2022.04.14
  • Accepted : 2022.05.19
  • Published : 2022.08.31

Abstract

In the era of big data, various data mining techniques have been proposed as major analysis methodologies. As complex and diverse data is mass-produced, data mining techniques have attracted attention as a method that forms the foundation of data science. In this paper, we focused on the decision tree, which is frequently used in practice and easy to understand as one of representative data mining methods. Specifically, we analyzed the effect of the splitting method of decision trees on the model performance. We compared the prediction power and structures of decision tree models with different split methods based on various simulated data. The results show that the linear combination split method can improve the prediction accuracy of decision trees in the case of data simulated from nonlinear models with complex structure.

빅데이터 시대에 이르러 다양한 데이터 마이닝 기법이 주요 분석 방법론으로 제안되었다. 복잡 다양한 데이터가 양산되면서 데이터 마이닝 기법은 데이터 과학의 토대를 이루는 방법으로 부각되었다. 본고에서는 해석의 유용성과 예측력 향상의 측면 모두에 초점을 맞추어 다양한 실험 연구를 시행하였다. 구체적인 모형으로는 의사결정나무를 선택하였는데, 이는 실무적 사용 빈도가 높은 방법으로서 활용 폭이 넓을 뿐만 아니라 이해가 쉽고 성능평가가 용이한 방법론이기 때문이다. 의사결정나무모형을 대상으로 이 모형의 구조를 크게 변형시키지 않으면서도 예측력 향상의 목적을 이룰 수 있는 방법을 살펴보았으며 분기변수의 선택 방법이 모형의 성능에 미치는 영향을 분석하였다. 이 효과를 측정하기 위해서 다양한 모의실험 모델을 생성하고 분기법의 변화에 따른 예측력을 비교하였다. 비선형성을 지니면서 단일 분할을 통해서 하위 집합으로 명확하게 구분하기 어려운 복잡한 데이터의 경우에는 선형결합 분기방법이 예측력 제고에 도움을 주는 것으로 나타났다.

Keywords

Acknowledgement

이 논문은 2020학년도 한국방송통신대학교 국외연수비 지원을 받아 작성된 것임.

References

  1. Alfaro E, Gamez M, and Garcia N (2018). Ensemble Classification Methods with Applications in R, Wiley.
  2. Breiman L, Friedman JH, Olshen RA, and Stone CJ (1984). Classification and Regression Trees, Wadsworth, Belmont, CA.
  3. Chang Y (2021). Monetary policy synchronization of Korea and United States reflected in the statements, The Korean Journal of Applied Statistics, 34, 121-132.
  4. Chang Y and Kim H (2011). Tree-structured nonlinear regression, The Korean Journal of Applied Statistics, 24, 759-768. https://doi.org/10.5351/KJAS.2011.24.5.759
  5. Caudle KA, Pyeatt LD, Morast A, Karlsson A, and Hoover RC (2019). Building a better decision tree by delaying the split decision, ICCDA 2019: Proceedings of the 2019 3rd International Conference on Compute and Data Analysis, March, 78-83.
  6. Friedman JH (1991). Multivariate adaptive regression splines, The Annals of Statistics, 19, 1-67.
  7. Loh WY (2002). Regression trees with unbiased variable selection and interaction detection, Statistica Sinica, 12, 361-386.
  8. Loh WY (2008). Regression by parts: Fitting visually interpretable models with GUIDE, Handbook of Computational Statistics, III, 447-469, Springer.
  9. Loh WY (2011). Classification and regression trees, Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 1, 14-23. https://doi.org/10.1002/widm.8
  10. Loh WY (2014). Fifty years of classification and regression trees (with discussion), International Statistical Review, 34, 329-370. https://doi.org/10.1111/insr.12016
  11. Loh WY and Zhou P (2021). Variable importance scores, International Statistical Review, 34, 329-370.
  12. Woo S and Chang Y (2020). An analysis of the signaling effect of FOMC statements, The Korean Journal of Applied Statistics, 33, 321-334. https://doi.org/10.5351/KJAS.2020.33.3.321