한국 영화의 산업의 흥행 극대화를 위한 AutoML 기반의 박스오피스 유형 분류 및 예측 모델

A Box Office Type Classification and Prediction Model Based on Automated Machine Learning for Maximizing the Commercial Success of the Korean Film Industry

  • 임수빈 (순천향대학교 의료과학과) ;
  • 문지훈 (순천향대학교 AI.빅데이터학과) ;
  • 노승민 (중앙대학교 산업보안학과)
  • 투고 : 2023.05.02
  • 심사 : 2023.05.16
  • 발행 : 2023.06.30

초록

본 논문은 한국 영화 산업의 의사 결정자들이 온라인상에서의 영화의 흥행을 극대화할 수 있도록 지원하는 데 도움을 주고자 역대 박스오피스 영화를 수집하여 영화를 유형별로 군집화하고, 유형별 온라인 박스오피스를 예측하는 모델을 제시한다. 이를 위해 먼저 다양한 특성을 고려하여 영화의 흥행 요인을 식별하고, 계산 효율성을 고려하여 특성 차원을 줄인다. 다음으로 영화의 유형을 체계적으로 분류하고, 유형별 온라인 박스오피스를 예측하며 흥행에 이바지한 요소를 분석한다. 이때, AutoML (Automated Machine Learning) 기법을 활용함으로써 다양한 기계학습 알고리즘을 자동으로 구성하고, 문제에 최적화된 알고리즘을 선택함으로써 여러 알고리즘을 쉽게 시도 및 선택한다. 이를 통해 정보화된 판단을 내릴 수 있는 기반을 제공하고, 영화 산업의 더 나은 성과를 도모하는 데 이바지할 것으로 기대할 수 있다.

This paper presents a model that supports decision-makers in the Korean film industry to maximize the success of online movies. To achieve this, we collected historical box office movies and clustered them into types to propose a model predicting each type's online box office performance. We considered various features to identify factors contributing to movie success and reduced feature dimensionality for computational efficiency. We systematically classified the movies into types and predicted each type's online box office performance while analyzing the contributing factors. We used automated machine learning (AutoML) techniques to automatically propose and select machine learning algorithms optimized for the problem, allowing for easy experimentation and selection of multiple algorithms. This approach is expected to provide a foundation for informed decision-making and contribute to better performance in the film industry.

키워드

과제정보

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 대학 ICT 연구센터지원사업의 연구 결과로 수행되었음(IITP-2023-2018-0-01799).

참고문헌

  1. N. Quader, M. O. Gani, D. Chaki, and M. H. Ali, "A machine learning approach to predict movie box-office success," in Proc. of the 2017 20th International Conference of Computer and Information Technology (ICCIT), pp. 1-7, IEEE, Dec. 2017.
  2. J. H. Byun, J. H. Kim, Y. J. Choi, and H. C. Lee, "Movie Box-office Prediction using Deep Learning and Feature Selection: Focusing on Multivariate Time Series," Journal of The Korea Society of Computer and Information, Vol. 25, No. 6, pp. 35-47, 2020.
  3. V. Subramaniyaswamy, M. V. Vaibhav, R. V. Prasad, and R. Logesh, "Predicting movie box office success using multiple regression and SVM," in Proc. of the 2017 International Conference on Intelligent Sustainable Systems (ICISS), pp. 182-186, IEEE, Dec. 2017.
  4. S. Leem, J. Oh, D. So, and J. Moon, "Towards Data-Driven Decision-Making in the Korean Film Industry: An XAI Model for Box Office Analysis Using Dimension Reduction, Clustering, and Classification," Entropy, Vol. 25, No. 4, p. 571, 2023.
  5. J. A. Costales, J. A. Abellana, J. S. Gracia, and M. Devaraj, "Analysis on Natural Language Processing Using Page Ranking Algorithm on YouTube Videos," in Proc. of the 2021 7th International Conference on Computing and Artificial Intelligence, pp. 173-177, Apr. 2021.
  6. T. Anwar, "Identify Hate Speech Spreaders on Twitter using Transformer Embeddings Features and AutoML Classifiers-Notebook for PAN at CLEF 2021," in CLEF, 2021.
  7. VKOBIS, "Available online: https://www.vkobis.or.kr/boxoffice/selectBoxofficeHistoryList.do (accessed on 25 February 2023)."
  8. E. Becht et al., "Dimensionality reduction for visualizing single-cell data using UMAP," Nature Biotechnology, Vol. 37, No. 1, pp. 38-44, 2019. https://doi.org/10.1038/nbt.4314
  9. M. W. Dorrity, L. M. Saunders, C. Queitsch, S. Fields, and C. Trapnell, "Dimensionality reduction by UMAP to visualize physical and genetic interactions," Nature Communications, Vol. 11, No. 1, p. 1537, 2020.
  10. D. Angelov, "Top2vec: Distributed representations of topics," arXiv preprint arXiv:2008.09470, 2020.
  11. M. Ali, "PyCaret: An open source, low-code machine learning library in Python," PyCaret version 2, 2020.
  12. S. M. Lundberg and S. I. Lee, "A unified approach to interpreting model predictions," in Proc. of the Advances in Neural Information Processing Systems 30, 2017.