1. 서론
2005년 영상 공유 사이트로서 처음 개설된 유튜브는 현재 가장 널리 쓰이는 정보공유 채널 중 하나가 되었다. 2022년 10월 기준, 국내 유튜브 이용자는 4,183만여명으로 대한민국 전체 인구의 80%를 넘으며 이들의 월 이용시간은 총 13억 8057만여 시간으로 국내 주요 앱 중 가장 많은 것으로 나타났다[1]. 유튜브 영상의 여러 카테고리 중 음식/요리 분야 카테고리는 꾸준한 성장세를 보여주고 있는데 특히 우리나라 파워 유튜브 크리에이터 순위에는 먹방 크리에이터가 다수를 차지할 정도로 먹방 콘텐츠는 대중적인 인기를 끌고 있다[2]. 이처럼 먹방 크리에이터들의 영향력이 커짐에 따라 외식기업들은 이들과의 콜라보레이션을 통한 제품 마케팅이나 이들의 팬을 대상으로 하는 팬슈머 마케팅을 진행하는 사례가 늘고 있는 추세이다[3].
먹방 콘텐츠가 다양한 부가가치를 창출하면서 먹방 콘텐츠는 산업계 뿐 아니라 학계에서도 관심있는 연구대상이 되고 있다[2-6]. 선행 연구에서는 시청자들이 먹방 콘텐츠를 관람하는 의도와 동기를 분석하고 선행요인을 설명하는 것이 주요 연구주제가 되어왔다[4-5]. 이들 연구에서는 사회적, 성적, 오락적 이유 등을 먹방 시청 동기로 제시하거나 대리 체험에 대한 동기 혹은 식사의 동반자를 찾는 동기로 먹방 콘텐츠를 소비하는 것으로 분석한 바 있다[4-5]. 최근 연구에서는 마케팅 관점에서 시청자들의 소비 의사결정에 먹방 콘텐츠가 어떠한 영향을 미치는지를 주요 연구주제로 다루고 있다[2-3][6].
한편 유튜브 콘텐츠 연구에서는 영상 시청과 영상에 대한 선호에 영향을 주는 여러 요인에 대한 다양한 연구들이 진행되어왔다[7-11]. 그리고 일부 연구에서는 머신러닝 기법을 활용함으로써 영상의 조회수 등 인기(popularity)를 예측하는 모델을 제안하였다[10-11]. 이러한 연구들을 포함한 선행 연구에서는 주로 전체 콘텐츠나 특정 주제를 대상으로 하였으며 먹방 콘텐츠의 특성 관점에서 어떠한 요인들이 먹방 콘텐츠 시청 의사결정과 선호에 영향을 주는지를 분석한 사례는 흔하지 않다. 이에 본 연구에서는 머신러닝 기법을 활용하여 먹방 콘텐츠 분야 유튜브 영상의 조회수와 좋아요를 예측하기 위한 모델을 제안하고 사후분석으로서 SHAP 기법을 활용하여 각 목표변수에 영향을 주는 선행 요인들을 분석하고자 한다. 본 연구 결과는 유튜브 먹방 콘텐츠의 마케팅 전략과 채널의 성장 전략 수립을 위한 가이드를 제공할 수 있으며, 본 연구에서 제시한 방법론은 향후 타분야 콘텐츠 관련 연구에도 유용한 사례가 될 수 있을 것이다.
본 논문은 다음과 같이 구성된다. 2장에서는 유튜브 콘텐츠 분석 분야 문헌을 리뷰한다. 3장에서는 데이터 수집에서부터 전처리 및 모델 구축에 이르는 일련의 분석과정을 설명한다. 4장에서는 구축한 모델들의 성능을 비교함으로써 최적의 모델을 제안하며 중요변수 분석을 통하여 조회수 및 좋아요에 영향을 미치는 요인을 식별한다. 마지막으로 5장에서는 연구결과를 요약하고 시사점을 제시하는 것으로 논문을 마무리한다.
2. 관련 연구
유튜브 콘텐츠의 인기에 대한 연구에서는 일반적으로 조회수와 같은 트래픽 데이터를 인기의 척도로 사용하는 것이 보편적이다[12]. 조회수는 해당 콘텐츠에 대한 관심의 크기이자 수익으로 직결될 수 있는 지표가 되기 때문이다. 실제 유튜브에서는 조회수를 근거로 인기급상승 영상 목록을 구성하며 이는 역으로 조회수를 크게 증가시키는 결과로 이어진다. 선행 연구에서는 조회수 외에도 좋아요수와 댓글들의 긍부정 정도를 포함하여 영상의 인기(popularity)를 성과지표로 보거나 혹은 별도의 평가지표를 만들어 분석한 시도도 있어왔다[10-12]. 좋아요수의 경우 유튜브에서는 구독을 하지 않는 시청자를 포함한 불특정 다수에게 추천영상으로 제공하는 기준으로 좋아요수를 사용하고 있다. 또한 좋아요수는 해당 컨텐츠에 대하여 만족한 시청자들의 수를 나타낸다고 볼 수 있으므로 콘텐츠 크리에이터에게 중요도가 높다. 댓글의 긍부정성은 콘텐츠의 업로드 초기에는 확보할 수 없는 데이터이다. 콘텐츠의 인기를 조기예측하려는 본 연구에는 적절치 않으므로 논의에서 제외하였다. 결과적으로 본 연구에서는 콘텐츠의 인기를 판단하기 위하여 조회수와 좋아요수를 중요 변수로 다룰 필요가 있다고 판단하였다.
지금까지 유튜브 콘텐츠의 인기를 예측하고 영향요인을 찾는 여러 시도가 있어왔다. 홈트레이닝 콘텐츠를 대상으로 진행된 선행연구[8]에서는 콘텐츠의 내용(운동 유형, 코칭 방법), 크리에이터의 특성(얼굴 및 신체 매력도와 성별), 채널 요인(구독자 수, 영상 개수, 업로드 주기)등의 데이터를 분석하였는데 신체 매력도, 성별, 업로드 주기, 영상 개수 등이 유의한 변수로 나타났다. 인적자원개발 관련 1,171개 콘텐츠를 분석한 선행연구[9]에서는 채널운영자 유형, 게시연도, 댓글수, 좋아요수, 연결정도 중심성 등이 콘텐츠의 조회수에 유의한 변수임을 보였다.
최근에는 머신러닝 알고리즘을 기반으로 예측 모델을 제시한 시도들이 늘고 있다. 유튜브와 페이스북에서 수집한 2만여 개의 콘텐츠를 대상으로 진행한 연구[10]에서는 영상의 특성, 색상, 얼굴, 텍스트 등과 같은 여러 시각적 요소를 수집하고 서포트 벡터 회귀(SVR) 기법을 사용하여 콘텐츠의 미래 인기를 예측하였다. 유튜브 콘텐츠의 미래 인기를 사전예측하는 방법론을 제안한 최근의 연구[11]에서는 관련 동영상, 작성자, 키워드, 제목, 설명, 조회수, 선호도 값, 댓글 수 및 구독자 수 등의 정보를 모델 구축에 활용하였으며 나이브 베이즈, SVM, 로지스틱 회귀, 인공 신경망 및 의사결정나무 등 다섯 가지 분류기를 사용하였다.
최근 연구들의 흐름을 참고하여 본 연구에서도 머신러닝 알고리즘을 기반으로 먹방 콘텐츠의 조회수와 좋아요수에 대한 사전예측이 가능한 모델을 구축하고자 한다. 조회수와 좋아요수는 특성에 차이가 있으므로 별도의 모델을 각각 구축하고 추가적으로 사후 분석을 통하여 두 변수의 예측에 영향력이 있는 변수들을 식별하고자 한다.
3. 연구 방법
3.1 연구절차
본 연구의 전체적인 흐름은 그림 1에서 보는 바와 같다. 우선, 유튜브 먹방 콘텐츠들 중 분석 대상을 선정하고 API와 Pretty Scale을 활용하여 데이터를 추출한다. 데이터 전처리와 데이터 분할 과정을 거쳐 조회수 예측과 좋아요수 예측 모델 구축에 필요한 데이터셋을 준비한다. 두 모델 구축시 각각 세 가지 머신러닝 알고리즘을 사용하여 학습을 진행한 뒤, 성능 평가를 통해 최적의 모델을 선정한다. 이후 SHAP 분석을 수행하여 중요 변수를 식별한다. 세부적인 설명은 다음 절에서 이어진다.
(그림 1) 연구 흐름도
(Figure 1) Research flow
3.2 데이터 수집과 전처리
본 연구의 분석 대상은 먹방 유튜브 채널에 게시된 영상 콘텐츠들이다. 본 연구의 목적에 맞는 분석 대상 콘텐츠를 선별하기 위하여 우선 유튜브 채널 랭킹 사이트(https://playboard.co/)를 참조하여 구독자 규모 순 상위 130개의 먹방 채널을 식별하였다. 먹방 채널에도 여러 부류가 있는데 먹방 콘텐츠 외 피트니스나 브이로그 등 다른 장르가 혼합된 콘텐츠가 게시되는 경우나 영상 내 크리에이터의 얼굴이 등장하지 않고 소리만 들리거나 다수의 사람이 등장하는 경우 등은 본 연구에 부적절하다고 판단하여 제외하였다. 결과적으로 50개의 채널에 게시된 22,223개의 영상을 분석의 대상으로 결정하였다.
데이터 수집은 크게 두 가지 방법으로 수행하였다. 먼저 API를 사용하여 22,223개 콘텐츠의 기본 정보를 수집하였는데 데이터 중 결측치가 있는 행들을 제거하였고 60초 이하의 짧은 쇼츠 영상은 분석 대상에서 제외시켰다. 최종적으로 20,805개의 콘텐츠를 분석에 활용하였으며 수집된 정보에는 조회수와 좋아요수, 영상 길이, 구독자수, 제목, 해시태그 등을 포함한다. 다음으로 대상 콘텐츠의 크리에이터 성별과 매력도 변수를 도출하고자 얼굴 이미지를 캡처하여 수집하였다. 먹방의 주된 내용은 음식 섭취이지만 동일한 음식이라 하더라도 섭취 주체인 크리에이터에 따라 영상 소비 경험은 달라질 수 있으며 시청자들의 콘텐츠 선택과 반응에 영향을 미칠 수 있다고 판단하였기 때문이다. 선행연구에서는 테니스 선수들의 외모와 시청률과의 관계를 살펴보거나[13] 홈트레이닝 콘텐츠 크리에이터의 얼굴 및 신체 매력도와 조회수 간의 관계를 연구한 바 있다[8]. 이들 선행연구에서는 매력도를 판단하기 위하여 Pretty Scale을 활용하였다. Pretty Scale은 100만여장의 얼굴과 몸 이미지를 신경망 알고리즘으로 학습한 프로그램으로서 눈, 코, 입, 귀, 이마 등 얼굴의 제요소를 기준점으로 대칭성에 근거하여 100점 만점으로 평가할 수 있다[14]. 본 연구에서도 Pretty Scale(http://www.prettyscale.com)을 활용하여 먹방 크리에이터들의 매력도를 측정하였다.
목표변수인 조회수는 게시후 경과 시간에 영향을 받으므로 경과 시간(초)으로 정규화시켰고, 좋아요수는 해당 콘텐츠의 조회수에 따른 영향이 있으므로 조회수로 정규화시켰다. 콘텐츠의 제목 데이터는 제목의 글자수를 계산하여 변수화하였다. 해시태그의 경우 빈도가 높은 해시태그를 살펴보았다. (그림 2)는 해시태그들에 대한 워드클라우드로서 “먹방”, “mukbang”, “yt:cc=on”, “ASMR", "리얼사운드" 등이 빈도수 기준 상위 5개에 해당되었다. 이상 5개 해시태그의 포함여부를 원-핫 인코딩 방법으로 변수화하였다. 추가로 해시태그 개수를 별도의 변수로 생성하였다. 본 연구에서 활용한 변수들의 기술 통계량은 (표 1)에서 보는 바와 같다.
(그림 2) 해시태그 빈도수 워드클라우드
(Figure 2) Hashtag Frequency Word Cloud
(표 1) 변수 기술통계량
(Table 1) Variable Description Statistics
3.3 조회수 예측모델과 좋아요수 예측모델 학습
조회수를 예측하는 모델을 학습시키기 위하여 20,805개의 전체 데이터셋을 8:2의 비율로 훈련용 데이터와 학습용 데이터로 분할하였다. 그리고 Random Forest와 XGBoost 및 LGBM 모델을 사용하여 학습을 진행하였다. 학습에는 scikit-learn, xgboost 등의 라이브러리를 활용하였다. 각 모델의 튜닝시 그리드서치로 최적의 하이퍼파라미터 값을 결정하였고 그 외 파라미터들은 모델에서 제공하는 기본값을 사용하였다.
다음으로 좋아요수를 예측하는 모델을 학습하였다. 데이터셋 분할과 Random Forest 등 세 가지 모델 기반의 학습 진행, 하이퍼파라미터 값 결정 등 모델의 학습 과정은 조회수 예측모델과 동일한 방식으로 시행하였다.
4. 연구 결과
4.1 예측모델 성능 비교
3.3에서 구축한 예측모델에 대한 성능비교는 MAE, MSE, RMSE, MAPE, R2를 사용하였다. MAE(Mean Absolute Error)는 오차의 절대값의 평균을 나타내며 MSE(Mean Square Error)는 오차의 제곱의 평균, RMSE(Root Mean Square Error)는 MSE의 제곱근, MAPE(Mean Absolute Percent Error)는 MAE의 백분율을 나타낸다. MAE는 오차의 크기를 직관적으로 해석할 수 있으며 MAPE는 MAE를 퍼센트로 표현하여 스케일에 따른 결과해석의 어려움을 해소할 수 있다. MSE는 특이값에 민감한 특성이 있으며 RMSE는 실제값과 유사하도록 MSE에 제곱근을 취한 값이다. R2는 제시된 모델이 데이터를 얼마나 잘 설명하는지를 나타낸다.
먼저 본 연구에서 제시한 조회수 예측모델들의 성능 비교 결과는 (표 2)에서 보는 바와 같다. 세 가지 모델 간 성능 차이는 크지 않은 것으로 나타났다. MAPE 기준으로는 RandomForest 모델이 타 모델 대비 다소 우세한 성능을 보였으나 모델의 설명력(R2) 기준으로 가장 높은 값을 가진 LGBM 모델을 최종 모델로 선정하였다.
(표 2) 조회수 예측모델 간 성능비교
(Table 2) Performance Comparison among View Count Prediction Models
좋아요수 예측모델에 대한 성능비교 결과는 (표 3)에서 보는 바와 같다. (표 2)와 비교해볼 때 좋아요수 예측모델이 조회수 예측모델 대비 MAPE 기준으로 오차는 크지만 R2 값을 기준으로 설명력은 우세한 것으로 나타났다. 좋아요수 모델 간의 성능 차이는 적었으며 R2 값을 기준으로 가장 높은 값을 보인 XGBoost 기반의 예측 모델을 최종 모델로 선정하였다.
(표 3) 좋아요수 예측모델 간 성능비교
(Table 3) Performance Comparison among Like Count Prediction Models
4.2 SHAP 분석
본 연구에서 선정한 최종 모델에서 각 변수들의 중요도를 비교하기 위하여 SHAP(SHapley Additive exPlanation) 분석을 수행하였다. SHAP은 모델의 예측값에 대한 변수들의 영향력을 Shapley Value를 통하여 나타내는 방법으로 머신러닝 예측 모델의 해석에 활용되는 방법론이다[15]. SHAP 분석에서 X축은 해당 변수의 Shapley Value 값으로서 분포 범위가 넒을수록 목표변수에 대한 영향력이 큰 것으로 해석할 수 있다. 그리고 색상이 빨간 색이면 해당 변수 값이 큰 경우, 파란 색이면 작은 경우를 의미하는데 색상 구분이 선명할수록 모델의 예측에 유용한 변수라 볼 수 있다.
먼저 조회수 예측에서 최종 선정한 LGBM 모델의 SHAP 분석 결과는 (그림 3)에서 보는 바와 같다. 결과에 따르면 구독자수의 Shapley 값의 분포가 가장 넓고 색상이 선명하게 구분되는 것으로 나타나 다른 변수들에 비해 절대적으로 높은 중요도를 가진 것으로 확인되었다. 그 외 “mukbang”이라는 해시태그, 해시태그수, 영상의 길이, 매력도 등은 Shapley 값의 분포가 상대적으로 좁거나 혼재된 색상으로 나타나 영향도가 크다고 보기는 어려웠지만 그 중 영상의 길이가 짧을 때 조회수에 부정적인 영향이 있고 매력도가 높을 때 조회수에 긍정적인 영향이 있음을 확인할 수 있었다. 그 외 변수들은 조회수에 대한 영향이 미미한 것으로 나타났다.
(그림 3) 조회수 예측모델 SHAP 분석 결과
(Figure 3) SHAP Analysis Results for View Count Prediction Model
좋아요수 예측모델로 선정한 XGBoost 모델에서의 SHAP 분석 결과는 (그림 4)에서 보는 바와 같다. 우선 전반적으로 변수들의 Shapley 값 분포 범위가 넓고 색상 구분이 비교적 선명하게 나타났다. 이는 좋아요수 예측 모델에서 변수들의 예측 기여도가 조회수 예측모델보다 우수함을 보여준다. 가장 영향력이 큰 변수는 매력도로 나타났으며 이러한 결과는 크리에이터의 외모가 조회수보다는 좋아요수에 더 의미있게 기여함을 보여준다. 그 외 구독자수, 자동자막 생성(yt:cc=on) 해시태그, 영상의 길이, 해시태그 수 순으로 좋아요수 예측에 영향력이 큰 것을 확인할 수 있었다.
(그림 4) 좋아요수 예측모델 SHAP 분석 결과
(Figure 4) SHAP Analysis Results for Like Count Prediction Model
5. 시사점 및 결론
본 연구에서는 유튜브 API와 프리티스케일을 활용하여 수집한 데이터를 기반으로 먹방 콘텐츠의 조회수와 좋아요수에 대한 머신러닝 예측 모델을 제시하였다. 본 연구에서 제시한 모델을 활용하면 콘텐츠 제작시 해당 콘텐츠의 인기 정도를 사전 예측하는 것이 가능하다. 또한 모델에 대한 사후 분석을 통하여 조회수와 좋아요수에 대한 중요 변수를 도출하였다. 분석 결과 조회수 예측에 가장 큰 영향을 미치는 것은 구독자 수로 나타났는데, 이러한 결과는 유튜브 먹방 마케팅 전략에서 구독자 수 확보의 중요성을 새롭게 강조하며, 채널의 성장 전략을 수립할 때 이를 핵심 요소로 고려해야 함을 확인시켜준다. 또한, 프리티스케일 매력도 값이 콘텐츠의 좋아요수 예측에서 가장 중요한 변수로 나타났는데 이는 먹방 크리에이터의 외모에 주목하는 시청자들의 행동 패턴을 확인할 수 있으며 이러한 결과는 유튜브 마케팅 전략과 먹방 채널 운영에서 외모나 이미지 관리의 중요성을 강조한다. 특히 조회수와 좋아요수에 대한 변수들의 영향이 상이한 것으로 나타났는데 이는 조회수 증대와 좋아요수 증대를 위한 전략을 별도로 수립할 필요성을 시사한다.
본 연구의 결과가 다른 장르의 유튜브 콘텐츠나 다양한 문화와 국가에서 동일하게 적용될 수 있는지에 대해서는 추가적인 검증이 필요하다. 또한 본 연구에서 활용한 변수 외에 새로운 변수들을 발굴하거나, 보다 진보된 머신러닝 기법의 적용 혹은 변수들 간의 상호작용 식별 등을 통해 향상된 예측 성능을 기대할 수 있을 것이다.
본 연구는 유튜브 먹방 콘텐츠의 조회수와 좋아요수를 예측하는 초기 단계의 연구로서, 콘텐츠 제작자, 마케터, 광고주들에게 효과적인 전략 수립을 위한 인사이트를 제공한다. 이러한 발견들은 유튜브 콘텐츠 전반의 인기도 예측에 새로운 접근법을 제시하며, 앞으로 이 연구의 방법론과 결과가 다양한 유튜브 콘텐츠 분야에서도 큰 잠재력을 가질 것으로 기대된다.
참고문헌
- IGAWorks, "YouTube App Analysis Report," 2022.10. https://www.mobileindex.com/insight-report
- D. Lee, and C. Wan, "The impact of mukbang live streaming commerce on consumers' overconsumption behavior," Journal of Interactive Marketing, Vol. 58, No. 2-3, pp. 198-221, 2023. https://doi.org/10.1177/10949968231156104
- S. U. Seo, and S. Kim, "Dining market segmentation based on YouTube viewer's perceived Mukbang value," Korean Journal of Hospitality and Tourism, Vol. 32, No. 1, pp. 87-108, 2023. https://doi.org/10.24992/KJHT.2023.2.32.01.87
- K. Kircaburun, A. Harris, F. Calado, and M. D. Griffiths, "The psychology of mukbang watching: A scoping review of the academic and non-academic literature," International Journal of Mental Health and Addiction, Vol. 19, pp. 1190-1213. 2021. https://doi.org/10.1007/s11469-019-00211-0
- L. Anjani, T. Mok, A. Tang, L. Oehlberg, and W. B. Goh, "Why do people watch others eat food? An Empirical Study on the Motivations and Practices of Mukbang Viewers," In Proceedings of the 2020 CHI conference on human factors in computing systems, pp. 1-13, 2020, April. https://doi.org/10.1145/3313831.3376567
- W.C. Kang, "The effect of Youtube contents characteristics of Mukbang on flow and food product purchase intention," Culinary Science & Hospitality Research, Vol. 27, No. 8, pp. 87-96, 2021. https://doi.org/10.20878/cshr.2021.27.8.009
- Z. Halim, S. Hussain, and R. H. Ali, "Identifying content unaware features influencing popularity of videos on youtube: A study based on seven regions," Expert Systems with Applications, Vol. 206, 117836, 2022. https://doi.org/10.1016/j.eswa.2022.117836
- J. Kim, J. Won, and K. Kim, "Analyzing determinants of YouTube fitness content view counts: Focusing on message and source factors," The Korea Contetns association, Vol. 23, No. 2, pp. 249-266, 2023. https://doi.org/10.5392/JKCA.2023.23.02.249
- Y. Hyun, "Trends of YouTube contents and impact factors on contents'hits related with human resource development," The Korean Journal of Human Resource Development Quarterly, Vol. 24, No. 3, pp. 319-354. 2022. https://10.18211/kjhrdq.2022.24.3.010
- T. Trzcinski, and P. Rokita, "Predicting popularity of online videos using support vector regression," IEEE Transactions on Multimedia, Vol. 19, No. 11, pp. 2561-2570, 2017. https://doi.org/10.1109/TMM.2017.2695439
- Y. L. Chen, and C. L. Chang, "Early prediction of the future popularity of uploaded videos," Expert Systems with Applications, Vol. 133, pp. 59-74. 2019. https://doi.org/10.1016/j.eswa.2019.05.015
- J. Burgess, and J. Green, "YouTube: Online video and participatory culture," Cambridge: John Wiley & Sons, 2018. https://doi.org/10.1177/026732312093531
- H. Dietl, A. Ozdemir, and A. Rendall, "The role of facial attractiveness in tennis TV-viewership," Sport Management Review, Vol. 23, No. 3, pp. 521-535, 2020. https://doi.org/10.1016/j.smr.2019.04.004
- A. Kalra, and B. Peterson, "Photofeeler-D3: A neural network with voter modeling for dating photo impression prediction," In Proceedings of the Future Technologies Conference (FTC) 2019, Vol. 2, pp. 188-203, 2019. https://doi.org/10.48550/arXiv.1904.07435
- S. M. Lundberg, and S. I. Lee, "A unified approach to interpreting model predictions," Advances in Neural Information Processing Systems, Vol. 30, pp. 4766-4775, Dec, 2017. https://doi.org/10.48550/arXiv.1705.07874