DOI QR코드

DOI QR Code

Performance Comparison and SHAP Interpretation of Movie Box Office Prediction Models Based on CatBoost and PyCaret

CatBoost와 PyCaret을 기반한 영화 박스오피스 예측 모델의 성능 비교 및 SHAP 해석

  • Huiseong Kim (Department of AI and Big Data, Soonchunhyang University) ;
  • Jihoon Moon (Department of AI and Big Data, Soonchunhyang University)
  • 김희성 (순천향대학교 AI.빅데이터학과) ;
  • 문지훈 (순천향대학교 AI.빅데이터학과)
  • Received : 2024.09.29
  • Accepted : 2024.10.14
  • Published : 2024.10.31

Abstract

This study uses box office data collected by the Korean Film Council (KOFIC) to develop and compare predictive models for cinema attendance and revenue. Data preprocessing removed irrelevant variables and handled missing values separately for categorical and numerical data to ensure consistency. Exploratory data analysis identified key variables, including Seoul audience size, revenue, total number of screens, film genre, rating, and month of release, which revealed a strong correlation between Seoul audience size and revenue with box office performance. Based on this analysis, predictive models were developed using CatBoost and PyCaret AutoML. CatBoost was chosen for its effectiveness in handling categorical variables such as director name, production company, and genre, while PyCaret AutoML was chosen for its ability to automate the modeling process, making it easy for non-experts to compare different models. The performance of the models was evaluated using mean absolute error (MAE), root mean squared error (RMSE), and R-squared (R2), with CatBoost demonstrating superior accuracy. In addition, the SHAP technique was used to interpret the models, identifying Seoul's audience size and revenue as the most significant predictors. This research presents reliable box office prediction models that will improve decision-making in the film industry and support the development of data-driven strategies.

본 연구는 한국 영화진흥위원회에서 수집한 박스오피스 데이터를 활용하여 관람 인원수와 매출액을 예측하는 모델을 구축하고, 이를 비교 및 분석하였다. 데이터 전처리 단계에서는 불필요한 변수를 제거하고, 결측치를 범주형 및 수치형 데이터에 따라 각각 처리하여 데이터의 일관성을 유지하였다. 또한, 탐색적 자료 분석을 통해 서울 지역의 관람 인원수, 매출액, 총 상영관 수, 영화 장르, 영화 등급, 개봉 월을 주요 변수로 선정하였으며, 서울 지역의 관람 인원수와 매출액이 박스오피스 성과와 높은 상관관계를 나타냄을 확인하였다. 이러한 분석을 바탕으로 CatBoost와 PyCaret AutoML을 사용하여 예측 모델을 개발하였다. CatBoost는 감독명, 제작사명, 영화 장르와 같은 범주형 변수를 효과적으로 처리할 수 있는 특성으로 인해 적합하다고 판단되었으며, PyCaret AutoML은 비전문가도 다양한 모델을 쉽게 비교할 수 있는 도구로서 모델링 과정을 자동화하여 효율성을 극대화할 수 있다. 예측 모델의 성능은 평균절대 오차, 평균제곱근오차, 결정 계수를 기준으로 평가하였으며, CatBoost가 더 높은 예측 정확도를 보였다. 또한, SHAP 기법을 적용하여 주요 변수를 해석하였으며, 서울 지역의 관람 인원수와 매출액이 가장 중요한 변수임을 확인할 수 있었다. 본 연구는 신뢰성 있는 박스오피스 예측 모델을 제시함으로써 영화 산업의 의사결정에 기여하고, 데이터 기반 전략 수립을 지원한다.

Keywords

Acknowledgement

본 연구는 2024년 과학기술정보통신부 및 정보통신기획평가원의 SW중심대학사업(2021-0-01399)의 연구결과로 수행되었음.