• 제목/요약/키워드: Categorical Boosting (CatBoost)

검색결과 2건 처리시간 0.015초

CatBoost와 PyCaret을 기반한 영화 박스오피스 예측 모델의 성능 비교 및 SHAP 해석 (Performance Comparison and SHAP Interpretation of Movie Box Office Prediction Models Based on CatBoost and PyCaret)

  • 김희성;문지훈
    • 사물인터넷융복합논문지
    • /
    • 제10권5호
    • /
    • pp.213-226
    • /
    • 2024
  • 본 연구는 한국 영화진흥위원회에서 수집한 박스오피스 데이터를 활용하여 관람 인원수와 매출액을 예측하는 모델을 구축하고, 이를 비교 및 분석하였다. 데이터 전처리 단계에서는 불필요한 변수를 제거하고, 결측치를 범주형 및 수치형 데이터에 따라 각각 처리하여 데이터의 일관성을 유지하였다. 또한, 탐색적 자료 분석을 통해 서울 지역의 관람 인원수, 매출액, 총 상영관 수, 영화 장르, 영화 등급, 개봉 월을 주요 변수로 선정하였으며, 서울 지역의 관람 인원수와 매출액이 박스오피스 성과와 높은 상관관계를 나타냄을 확인하였다. 이러한 분석을 바탕으로 CatBoost와 PyCaret AutoML을 사용하여 예측 모델을 개발하였다. CatBoost는 감독명, 제작사명, 영화 장르와 같은 범주형 변수를 효과적으로 처리할 수 있는 특성으로 인해 적합하다고 판단되었으며, PyCaret AutoML은 비전문가도 다양한 모델을 쉽게 비교할 수 있는 도구로서 모델링 과정을 자동화하여 효율성을 극대화할 수 있다. 예측 모델의 성능은 평균절대 오차, 평균제곱근오차, 결정 계수를 기준으로 평가하였으며, CatBoost가 더 높은 예측 정확도를 보였다. 또한, SHAP 기법을 적용하여 주요 변수를 해석하였으며, 서울 지역의 관람 인원수와 매출액이 가장 중요한 변수임을 확인할 수 있었다. 본 연구는 신뢰성 있는 박스오피스 예측 모델을 제시함으로써 영화 산업의 의사결정에 기여하고, 데이터 기반 전략 수립을 지원한다.

A robust approach in prediction of RCFST columns using machine learning algorithm

  • Van-Thanh Pham;Seung-Eock Kim
    • Steel and Composite Structures
    • /
    • 제46권2호
    • /
    • pp.153-173
    • /
    • 2023
  • Rectangular concrete-filled steel tubular (RCFST) column, a type of concrete-filled steel tubular (CFST), is widely used in compression members of structures because of its advantages. This paper proposes a robust machine learning-based framework for predicting the ultimate compressive strength of RCFST columns under both concentric and eccentric loading. The gradient boosting neural network (GBNN), an efficient and up-to-date ML algorithm, is utilized for developing a predictive model in the proposed framework. A total of 890 experimental data of RCFST columns, which is categorized into two datasets of concentric and eccentric compression, is carefully collected to serve as training and testing purposes. The accuracy of the proposed model is demonstrated by comparing its performance with seven state-of-the-art machine learning methods including decision tree (DT), random forest (RF), support vector machines (SVM), deep learning (DL), adaptive boosting (AdaBoost), extreme gradient boosting (XGBoost), and categorical gradient boosting (CatBoost). Four available design codes, including the European (EC4), American concrete institute (ACI), American institute of steel construction (AISC), and Australian/New Zealand (AS/NZS) are refereed in another comparison. The results demonstrate that the proposed GBNN method is a robust and powerful approach to obtain the ultimate strength of RCFST columns.