• 제목/요약/키워드: Predicting Popularity

검색결과 28건 처리시간 0.021초

Movie Popularity Classification Based on Support Vector Machine Combined with Social Network Analysis

  • Dorjmaa, Tserendulam;Shin, Taeksoo
    • 한국IT서비스학회지
    • /
    • 제16권3호
    • /
    • pp.167-183
    • /
    • 2017
  • The rapid growth of information technology and mobile service platforms, i.e., internet, google, and facebook, etc. has led the abundance of data. Due to this environment, the world is now facing a revolution in the process that data is searched, collected, stored, and shared. Abundance of data gives us several opportunities to knowledge discovery and data mining techniques. In recent years, data mining methods as a solution to discovery and extraction of available knowledge in database has been more popular in e-commerce service fields such as, in particular, movie recommendation. However, most of the classification approaches for predicting the movie popularity have used only several types of information of the movie such as actor, director, rating score, language and countries etc. In this study, we propose a classification-based support vector machine (SVM) model for predicting the movie popularity based on movie's genre data and social network data. Social network analysis (SNA) is used for improving the classification accuracy. This study builds the movies' network (one mode network) based on initial data which is a two mode network as user-to-movie network. For the proposed method we computed degree centrality, betweenness centrality, closeness centrality, and eigenvector centrality as centrality measures in movie's network. Those four centrality values and movies' genre data were used to classify the movie popularity in this study. The logistic regression, neural network, $na{\ddot{i}}ve$ Bayes classifier, and decision tree as benchmarking models for movie popularity classification were also used for comparison with the performance of our proposed model. To assess the classifier's performance accuracy this study used MovieLens data as an open database. Our empirical results indicate that our proposed model with movie's genre and centrality data has by approximately 0% higher accuracy than other classification models with only movie's genre data. The implications of our results show that our proposed model can be used for improving movie popularity classification accuracy.

머신러닝 기반의 유튜브 먹방 콘텐츠 인기 예측 모델 (A Machine Learning-based Popularity Prediction Model for YouTube Mukbang Content)

  • 서범근;이한준
    • 인터넷정보학회논문지
    • /
    • 제24권6호
    • /
    • pp.49-55
    • /
    • 2023
  • 본 연구에서는 유튜브 먹방 콘텐츠의 인기를 예측하는 모형을 제안하고 사후 분석을 통하여 먹방 콘텐츠의 인기에 영향을 주는 요인들을 식별하였다. 이를 위해 API와 Pretty Scale을 활용하여 구독자수 상위 먹방 채널들로부터 22,223개 콘텐츠의 정보를 수집하고 Random Forest, XGBoost 및 LGBM 등의 머신러닝 알고리즘을 기반으로 조회수와 좋아요수 예측모델을 구축하였다. SHAP 분석 결과 조회수 예측 모형에서는 구독자수가 예측에 가장 큰 영향을 미치는 반면, 좋아요수 예측 모형에서는 크리에이터의 매력도가 중요변수로 도출되는 등 콘텐츠 조회와 좋아요 반응에 대한 선행요인이 다름을 확인할 수 있었다. 본 연구는 대량의 온라인 콘텐츠를 분석하여 실증 분석을 진행하였다는 점에서 학술적 의의가 있으며 먹방 크리에이터들에게 시청자들의 콘텐츠 소비 경향을 알려주고 상품성 높은 콘텐츠 제작의 가이드를 제공한다는 점에서 실무적인 의의를 지닌다.

Predicting the Lifespan and Retweet Times of Tweets Based on Multiple Feature Analysis

  • Bae, Yongjin;Ryu, Pum-Mo;Kim, Hyunki
    • ETRI Journal
    • /
    • 제36권3호
    • /
    • pp.418-428
    • /
    • 2014
  • In social network services, such as Facebook, Google+, Twitter, and certain postings attract more people than others. In this paper, we propose a novel method for predicting the lifespan and retweet times of tweets, the latter being a proxy for measuring the popularity of a tweet. We extract information from retweet graphs, such as posting times; and social, local, and content features, so as to construct prediction knowledge bases. Tweets with a similar topic, retweet pattern, and properties are sequentially extracted from the knowledge base and then used to make a prediction. To evaluate the performance of our model, we collected tweets on Twitter from June 2012 to October 2012. We compared our model with conventional models according to the prediction goal. For the lifespan prediction of a tweet, our model can reduce the time tolerance of a tweet lifespan by about four hours, compared with conventional models. In terms of prediction of the retweet times, our model achieved a significantly outstanding precision of about 50%, which is much higher than two of the conventional models showing a precision of around 30% and 20%, respectively.

인터넷 토론 게시판의 게시물 인기도 예측 모델 (A Model to Predict Popularity of Internet Posts on Internet Forum Sites)

  • 이윤정;정인준;우균
    • 정보처리학회논문지D
    • /
    • 제19D권1호
    • /
    • pp.113-120
    • /
    • 2012
  • 오늘날 인터넷 사용자들은 유튜브(YouTube)와 같은 온라인 콘텐츠 공유 사이트를 통해 손쉽게 자신의 콘텐츠를 만들고 다른 사람들과 공유하고 있다. 그로 인해 하루에도 엄청난 양의 온라인 콘텐츠들이 쏟아지고 있다. 온라인 콘텐츠들의 홍수 속에서 어떤 콘텐츠가 향후에 인기가 있을 것인지를 예측하는 문제는 일반 이용자들이나 콘텐츠 공유 사이트 운영자들 모두가 관심을 가지는 문제이다. 본 논문에서는 인터넷 토론 게시판에 등록된 게시물들의 인기도를 예측하는 방법을 제안한다. 본 논문에서는 인터넷 토론 게시판에 등록된 게시물들의 인기도를 예측하기 위해 게시물의 조회수를 인기 척도로 간주하고 각 게시물의 조회수 변화량을 분석하였다. 게시물의 최종 조회수를 예측하기 위하여 관찰된 조회수 시계열 데이터를 이용하여 지수 함수를 기반으로 하는 조회수 증가 모델을 제안한다. 다음 아고라 게시판의 게시물을 대상으로 한 실험에서 전체 실험 게시물 중 약 90.7%인 20,532개의 게시물이 예측 오차가 10개 이하로 나타났다.

TV드라마 참여 인물의 계량 능력지표에 기반한 첫 회 시청률 상대적 우위 예측 (Predicting Relative Superiority of TV Drama First Episodes based on the Quantitative Competency Index of the Cast and Crew)

  • 주상필;홍준석;김우주
    • 한국콘텐츠학회논문지
    • /
    • 제19권6호
    • /
    • pp.179-191
    • /
    • 2019
  • TV 드라마 한 시즌 제작에 최소 수십 억 원이 투입되지만 투자 대비 효과 예측은 쉽지 않으며 참여 인력의 중요성에도 불구하고 그들에 대한 적절한 평가지표는 아직 존재하지 않는다. 그 동안 콘텐츠 평가지표로 널리 사용되어온 시청률 절대 수치는 지속 감소하고 있지만 대체할만한 지표는 아직 없는 상태다. 본 연구에서는 시청률 절대 수치가 아니라 개별 드라마 시청률 간 상대적 우위를 반응변수로 하고, 드라마 참여 인력이 과거에 획득하여 축적한 상대적 우위를 계량 능력지표화 하여 설명변수로 설계함으로써 드라마의 상대적 흥행성을 예측하는 모형을 개발하였다. 예측 모형으로는 다양한 머신러닝 알고리즘을 활용하였고 예측 성능을 높이기 위해 기존 연구에서 유용한 것으로 판명된 설명변수를 추가하여 조합하였다. 결과적으로 본 연구에서 설계한 설명변수와 기존 연구의 설명변수로부터 최적의 조합을 탐색하여 구축한 예측 모형은 84%의 높은 정분류율로 우수한 예측 성능을 보여주었다. 이렇게 본 연구에서는 TV 드라마 참여 인력 능력지표와 시청률을 활용하여 콘텐츠의 상대적 흥행성을 예측함으로써 콘텐츠 산업 전반 투자 효율화와 활성화를 촉진하려 한다.

Text Mining and Sentiment Analysis for Predicting Box Office Success

  • Kim, Yoosin;Kang, Mingon;Jeong, Seung Ryul
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권8호
    • /
    • pp.4090-4102
    • /
    • 2018
  • After emerging online communications, text mining and sentiment analysis has been frequently applied into analyzing electronic word-of-mouth. This study aims to develop a domain-specific lexicon of sentiment analysis to predict box office success in Korea film market and validate the feasibility of the lexicon. Natural language processing, a machine learning algorithm, and a lexicon-based sentiment classification method are employed. To create a movie domain sentiment lexicon, 233,631 reviews of 147 movies with popularity ratings is collected by a XML crawling package in R program. We accomplished 81.69% accuracy in sentiment classification by the Korean sentiment dictionary including 706 negative words and 617 positive words. The result showed a stronger positive relationship with box office success and consumers' sentiment as well as a significant positive effect in the linear regression for the predicting model. In addition, it reveals emotion in the user-generated content can be a more accurate clue to predict business success.

얼굴 감정을 이용한 시청자 감정 패턴 분석 및 흥미도 예측 연구 (A Study on Sentiment Pattern Analysis of Video Viewers and Predicting Interest in Video using Facial Emotion Recognition)

  • 조인구;공연우;전소이;조서영;이도훈
    • 한국멀티미디어학회논문지
    • /
    • 제25권2호
    • /
    • pp.215-220
    • /
    • 2022
  • Emotion recognition is one of the most important and challenging areas of computer vision. Nowadays, many studies on emotion recognition were conducted and the performance of models is also improving. but, more research is needed on emotion recognition and sentiment analysis of video viewers. In this paper, we propose an emotion analysis system the includes a sentiment analysis model and an interest prediction model. We analyzed the emotional patterns of people watching popular and unpopular videos and predicted the level of interest using the emotion analysis system. Experimental results showed that certain emotions were strongly related to the popularity of videos and the interest prediction model had high accuracy in predicting the level of interest.

Korean and English Sentiment Analysis Using the Deep Learning

  • 마렌드라;최형림;임성배
    • 한국산업정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.59-71
    • /
    • 2018
  • Social media has immense popularity among all services today. Data from social network services (SNSs) can be used for various objectives, such as text prediction or sentiment analysis. There is a great deal of Korean and English data on social media that can be used for sentiment analysis, but handling such huge amounts of unstructured data presents a difficult task. Machine learning is needed to handle such huge amounts of data. This research focuses on predicting Korean and English sentiment using deep forward neural network with a deep learning architecture and compares it with other methods, such as LDA MLP and GENSIM, using logistic regression. The research findings indicate an approximately 75% accuracy rate when predicting sentiments using DNN, with a latent Dirichelet allocation (LDA) prediction accuracy rate of approximately 81%, with the corpus being approximately 64% accurate between English and Korean.

A Strategy of Assessing Climate Factors' Influence for Agriculture Output

  • Kuan, Chin-Hung;Leu, Yungho;Lee, Chien-Pang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권5호
    • /
    • pp.1414-1430
    • /
    • 2022
  • Due to the Internet of Things popularity, many agricultural data are collected by sensors automatically. The abundance of agricultural data makes precise prediction of rice yield possible. Because the climate factors have an essential effect on the rice yield, we considered the climate factors in the prediction model. Accordingly, this paper proposes a machine learning model for rice yield prediction in Taiwan, including the genetic algorithm and support vector regression model. The dataset of this study includes the meteorological data from the Central Weather Bureau and rice yield of Taiwan from 2003 to 2019. The experimental results show the performance of the proposed model is nearly 30% better than MARS, RF, ANN, and SVR models. The most important climate factors affecting the rice yield are the total sunshine hours, the number of rainfall days, and the temperature.The proposed model also offers three advantages: (a) the proposed model can be used in different geographical regions with high prediction accuracies; (b) the proposed model has a high explanatory ability because it could select the important climate factors which affect rice yield; (c) the proposed model is more suitable for predicting rice yield because it provides higher reliability and stability for predicting. The proposed model can assist the government in making sustainable agricultural policies.

웹게시판에서 가상온도를 이용한 게시글의 인기 예측 (Predicting the Popularity of Post Articles with Virtual Temperature in Web Bulletin)

  • 김수도;김소라;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제11권10호
    • /
    • pp.19-29
    • /
    • 2011
  • 블로그는 사용자에게 자신의 의견을 표현하고 다른 사람들의 의견을 수렴할 수 있는 자유로운 의사표현 네트워크를 제공한다. 어떤 글은 사회적, 정치적 이슈를 몰고 다니기도 하며 또 어떤 글은 사용자의 관심을 끌지 못하고 지나가기도 한다. 글이 작성된 초기에 향후 얼마나 인기를 얻을지 예측한다는 것은 글의 저자, 블로거, 광고회사 그리고 웹호스팅 모두에게 흥미로울 것이다. 인기를 예측하기 위한 다양한 연구들이 진행되어 왔지만 대부분의 연구들이 사용자간의 상호연관성에 기반하고 있고 정확한 값으로 표현하는데 높은 에러율을 발생하고 있다. 본 논문에서는 블로그에 글이 작성된 초기에 향후 글의 인기를 예측하기 위해 조회수를 사용하여 글의 인기를 4타입(explosion, hot, warm, cold)의 가상 온도로 예측하는 방법을 제안한다. 먼저 글의 포화시점을 정의하고, 초기 조회수와 포화시점 조회수의 관계를 통해 포화시점 조회수를 예측하는 모델링 공식을 유도하였다. 예측된 포화시점 조회수를 이용하여 글의 인기를 4타입의 가상 온도로 표현하였다. 초기 관찰기간에 따라 예측 정확률이 결정되고 있다. 실험결과 30분 이후부터 MAPE(Mean Absolute Percentage Error)가 30%이하로 낮아졌지만, explosive 타입의 경우 초기 조회수로 예측하기 힘들었다. explosive를 제외한 hot, warm, cold 타입에서는 30분후부터 86%이상의 평균 예측 정확률을 보여주며, 70분후부터는 90%이상의 평균 예측 정확률을 보여주고 있었다.