• 제목/요약/키워드: 인기 예측

검색결과 76건 처리시간 0.028초

인터넷 토론 게시판의 게시물 인기도 예측 모델 (A Model to Predict Popularity of Internet Posts on Internet Forum Sites)

  • 이윤정;정인준;우균
    • 정보처리학회논문지D
    • /
    • 제19D권1호
    • /
    • pp.113-120
    • /
    • 2012
  • 오늘날 인터넷 사용자들은 유튜브(YouTube)와 같은 온라인 콘텐츠 공유 사이트를 통해 손쉽게 자신의 콘텐츠를 만들고 다른 사람들과 공유하고 있다. 그로 인해 하루에도 엄청난 양의 온라인 콘텐츠들이 쏟아지고 있다. 온라인 콘텐츠들의 홍수 속에서 어떤 콘텐츠가 향후에 인기가 있을 것인지를 예측하는 문제는 일반 이용자들이나 콘텐츠 공유 사이트 운영자들 모두가 관심을 가지는 문제이다. 본 논문에서는 인터넷 토론 게시판에 등록된 게시물들의 인기도를 예측하는 방법을 제안한다. 본 논문에서는 인터넷 토론 게시판에 등록된 게시물들의 인기도를 예측하기 위해 게시물의 조회수를 인기 척도로 간주하고 각 게시물의 조회수 변화량을 분석하였다. 게시물의 최종 조회수를 예측하기 위하여 관찰된 조회수 시계열 데이터를 이용하여 지수 함수를 기반으로 하는 조회수 증가 모델을 제안한다. 다음 아고라 게시판의 게시물을 대상으로 한 실험에서 전체 실험 게시물 중 약 90.7%인 20,532개의 게시물이 예측 오차가 10개 이하로 나타났다.

웹게시판에서 가상온도를 이용한 게시글의 인기 예측 (Predicting the Popularity of Post Articles with Virtual Temperature in Web Bulletin)

  • 김수도;김소라;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제11권10호
    • /
    • pp.19-29
    • /
    • 2011
  • 블로그는 사용자에게 자신의 의견을 표현하고 다른 사람들의 의견을 수렴할 수 있는 자유로운 의사표현 네트워크를 제공한다. 어떤 글은 사회적, 정치적 이슈를 몰고 다니기도 하며 또 어떤 글은 사용자의 관심을 끌지 못하고 지나가기도 한다. 글이 작성된 초기에 향후 얼마나 인기를 얻을지 예측한다는 것은 글의 저자, 블로거, 광고회사 그리고 웹호스팅 모두에게 흥미로울 것이다. 인기를 예측하기 위한 다양한 연구들이 진행되어 왔지만 대부분의 연구들이 사용자간의 상호연관성에 기반하고 있고 정확한 값으로 표현하는데 높은 에러율을 발생하고 있다. 본 논문에서는 블로그에 글이 작성된 초기에 향후 글의 인기를 예측하기 위해 조회수를 사용하여 글의 인기를 4타입(explosion, hot, warm, cold)의 가상 온도로 예측하는 방법을 제안한다. 먼저 글의 포화시점을 정의하고, 초기 조회수와 포화시점 조회수의 관계를 통해 포화시점 조회수를 예측하는 모델링 공식을 유도하였다. 예측된 포화시점 조회수를 이용하여 글의 인기를 4타입의 가상 온도로 표현하였다. 초기 관찰기간에 따라 예측 정확률이 결정되고 있다. 실험결과 30분 이후부터 MAPE(Mean Absolute Percentage Error)가 30%이하로 낮아졌지만, explosive 타입의 경우 초기 조회수로 예측하기 힘들었다. explosive를 제외한 hot, warm, cold 타입에서는 30분후부터 86%이상의 평균 예측 정확률을 보여주며, 70분후부터는 90%이상의 평균 예측 정확률을 보여주고 있었다.

온라인 게시글의 조회수 분석을 통한 인기도 예측 (Prediction Model for Popularity of Online Articles based on Analysis of Hit Count)

  • 김수도;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제12권4호
    • /
    • pp.40-51
    • /
    • 2012
  • 한국의 온라인 토론게시판은 의견 공유뿐 아니라 여론 형성과 참여를 위한 공간으로 활발히 사용되고 있다. 토론게시판에서 어떤 글은 사회적 정치적 이슈를 몰고 다니기도 하고 어떤 글은 사용자의 관심을 끌지 못하기도 한다. 본 논문에서는 한국의 유명 토론게시판인 다음 아고라와 서프라이즈에서 수집한 글의 통계적 정보를 이용하여 글의 인기를 분석하고 인기글을 예측하기 위한 예측모델을 제안한다. 분석결과 아고라는 87.52%의 글이 게시판에 제출된 후 하루가 지나기 전에 글의 인기가 끝나고 있었지만 서프라이즈는 39%의 글이 4일 이상 인기가 지속되고 있었다. 그렇지만 글의 인기기간과 조회수의 상관관계는 낮았다. 조회수 증가가 오랫동안 지속된다고 해서 최종 조회수가 높다는 것을 의미하지는 않는다. 본 논문에서는 분류와 예측 분야에서 잘 알려진 SVM 모델과 유사매칭 모델, 그리고 새롭게 제안한 예측 모델 '베이스 라인'을 이용하여 인기글을 예측하고 평가하였다. SVM 모델이 F-measure와 정밀도에서 유사매칭과 베이스라인보다 우수하였으며, 베이스라인이 실행시간에서 가장 우수한 성능을 보였다.

인기 검색어의 순위 변화 예측 ('Hot Search Keyword' Rank-Change Prediction)

  • 김도형;강병호;이승룡
    • 정보과학회 논문지
    • /
    • 제44권8호
    • /
    • pp.782-790
    • /
    • 2017
  • 인기 검색어 리스트는 현재 가장 인기 있는 검색어의 순위를 보여주는 서비스로서 네이버와 같은 포털사이트가 제공한다. 이 리스트에서의 순위 변화는 특정 검색어에 대한 사람들의 관심의 변화를 반영한다. 본 논문은 인기 검색어의 순위 변화를 예측하기 위해 시계열 모델링 프레임워크를 제안한다. 제안한 프레임워크는 과거 순위와 기계학습 모델이 적용되었고, 여기서 해결해야 할 두 가지 문제점이 있다. 첫째, 과거 순위 데이터를 분석한 결과, 70% 이상의 검색어가 리스트에서 소멸 후 재출현하는 현상을 보였다. 소멸 후의 순위는 손실 값으로 볼 수 있으며, 이를 해결하기 위해서 다양한 처리 방법을 적용하였다. 둘째, 과거 순위 데이터는 시계열 데이터이므로 최적 윈도우 크기를 계산하는 것이 중요하다. 본 논문에서는 최적 윈도우 크기는 동일한 검색어들이 서로 다른 두 시점에서 내용상 의미가 달라지는 최단 소멸기간으로 볼 수 있음을 밝혔다. 성능 평가를 위해서 4가지의 기계학습 기법과 2년 동안 수집한 네이버, 다음, 네이트의 인기 검색어 리스트 데이터를 사용하였다.

머신러닝 기반의 유튜브 먹방 콘텐츠 인기 예측 모델 (A Machine Learning-based Popularity Prediction Model for YouTube Mukbang Content)

  • 서범근;이한준
    • 인터넷정보학회논문지
    • /
    • 제24권6호
    • /
    • pp.49-55
    • /
    • 2023
  • 본 연구에서는 유튜브 먹방 콘텐츠의 인기를 예측하는 모형을 제안하고 사후 분석을 통하여 먹방 콘텐츠의 인기에 영향을 주는 요인들을 식별하였다. 이를 위해 API와 Pretty Scale을 활용하여 구독자수 상위 먹방 채널들로부터 22,223개 콘텐츠의 정보를 수집하고 Random Forest, XGBoost 및 LGBM 등의 머신러닝 알고리즘을 기반으로 조회수와 좋아요수 예측모델을 구축하였다. SHAP 분석 결과 조회수 예측 모형에서는 구독자수가 예측에 가장 큰 영향을 미치는 반면, 좋아요수 예측 모형에서는 크리에이터의 매력도가 중요변수로 도출되는 등 콘텐츠 조회와 좋아요 반응에 대한 선행요인이 다름을 확인할 수 있었다. 본 연구는 대량의 온라인 콘텐츠를 분석하여 실증 분석을 진행하였다는 점에서 학술적 의의가 있으며 먹방 크리에이터들에게 시청자들의 콘텐츠 소비 경향을 알려주고 상품성 높은 콘텐츠 제작의 가이드를 제공한다는 점에서 실무적인 의의를 지닌다.

오피니언 마이닝과 머신러닝을 이용한 페이스북 인기 게시물 예측 시스템 (Prediction System of Facebook's popular post using Opinion Mining and Machine Learning)

  • 안현우;문남미
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2017년도 추계학술대회
    • /
    • pp.70-73
    • /
    • 2017
  • 페이스북 SNS 플랫폼에서 제공하는 데이터 수집 프로토콜을 이용해 콘텐츠들의 인기 점수와 사용자 의견들을 수집하고 수집된 정보를 가공하여 기계학습을 진행한다. 오피니언 데이터를 학습함으로 인해 인간의 관점을 모방하게 되며 결과적으로 콘텐츠의 질을 판단하는 요소로써 작용하도록 한다. 데이터의 수집은 페이스북 측에서 제공하는 Graph API 와 Python 을 이용하여 진행한다. Graph API 는 HTTP GET 방식의 프로토콜을 이용하여 요청 하고 JSON 형식으로 결과를 반환한다. 학습은 Multiple Linear Regression 과 Gradient Descent Algorithm(GDA)을 사용하여 진행한다. 이후 학습이 진행된 프로그램에 사용자 의견 데이터를 건네주면 최종인기 점수를 예측하는 시스템을 설명한다.

  • PDF

구간별 사용자 요구 패턴을 이용한 NOD에서의 캐싱 방법 (NOD Caching Strategy using User-Preference Pattern for Time-Window)

  • 최태욱;박용운;김영주;정기동
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 1998년도 춘계학술발표논문집
    • /
    • pp.71.1-75
    • /
    • 1998
  • NOD 데이터는 VOD 데이터에 비해서 life cycle이 짧다. 그리고 사용자의 접근성이 높으며, 접근패턴도 시간에 따라 달라질 수 있다. VOD 데이터와 같이 NOD 뉴스기사의 경우 특정 기사들에 집중적으로 접근된다. 그리고 이러한 인기 있는 기사들은 시간대에 따라 변할 수 있다. 본 논문에서는 이러한 인기도의 변화를 예측하기 위해서 시계열분석방법중의 하나인 지수평활법(exponenital smoothing method)을 사용한다. 시간대별 타임윈도우로 나누고 이전의 윈도우들의 접근패턴을 분석하여 다음 접근을 예측한다. 그리고 이 예측값을 이용해서 캐시정책을 새운다. 즉 예측값이 높은 기사순으로 캐시에 배치하는 것이다. 실시간 멀티미디어데이터의 경우 데이터의 방대함으로 연산의 오버헤드가 크다. 따라서 정적인 캐싱전략을 사용하는데, 하나의 윈도우동안 재배치하는 한번으로 한다는 것이다. 전통적인 block 단위 캐싱은 멀티미디어데이터에 적합하지 않다. 따라서 기사단위의 캐시구조를 제안한다. 사용자는 기사단위로 요청을 하기 때문에 재사용을 위해서는 기사단위로 캐시되야 한다.

  • PDF

모바일 사용자의 성별 예측을 위한 식별 및 인기 단어 집합 기반 2단계 기기 내 분석 (A Two-Phase On-Device Analysis for Gender Prediction of Mobile Users Using Discriminative and Popular Wordsets)

  • 최예림;박규연;김소이;박종헌
    • 한국전자거래학회지
    • /
    • 제21권1호
    • /
    • pp.65-77
    • /
    • 2016
  • 모바일 기기 데이터를 활용한 분석에서 사용자의 프라이버시를 보호하는 것이 주요한 이슈로 대두됨에 따라 데이터를 외부로 전송하지 않고 모바일 기기 안에서 분석을 수행하는 기기내 분석이 주목 받고 있다. 기기 내 분석을 활용하면 문자 메시지, 검색 단어, 북마크, 연락처등 매우 개인적이지만 성별 구분에 효과적이라고 알려진 모바일 텍스트를 이용한 성별 예측이 가능하며, 사전에 선정된 단어들의 집합을 모바일 기기로 전송하여 이 단어들과 모바일 텍스트를 비교를 통해 성별을 예측하는 단어 비교 방식을 이용하면 모바일 기기의 제한된 자원 문제를 극복할 수 있다. 특히, 확실한 근거를 이용하여 필터링 한 후 예측을 수행하면 정확도를 극대화하고 복잡도를 낮출 수 있다. 따라서 본 논문에서는 단어의 식별력과 인기도를 순차적으로 고려하는 2단계의 기기 내 성별 예측 방법을 제안한다. 구체적으로, 제안하는 방법론은 소수의 높은 식별력을 가지는 단어를 이용하여 전체 사용자의 성별을 예측하고 이어서 인기도가 높은 단어를 활용하여 앞서 예측이 되지 않은 사용자의 성별을 예측한다. 실제 데이터를 이용한 실험에서 제안하는 방법론은 비교 방법론보다 우수한 성능을 나타내었다.

유사한 인기도 추세를 갖는 웹 객체들의 클러스터링 (Clustering of Web Objects with Similar Popularity Trends)

  • 노웅기
    • 정보처리학회논문지D
    • /
    • 제15D권4호
    • /
    • pp.485-494
    • /
    • 2008
  • 인터넷이 광범위하게 활용됨에 따라 검색 키워드, 멀티미디어 객체, 웹 페이지, 블로그 등의 다양한 웹 객체들이 크게 증가하고 있다. 이러한 웹 객체들의 인기도는 시간에 따라 변화하며, 그러한 웹 객체 인기도의 시간적 패턴에 대한 마이닝이 여러 가지 웹 응용에 필요한 중요한 연구 과제가 되고 있다. 예를 들어, 검색 키워드에 대한 인기도 패턴의 분석은 앞으로 인기가 높아질 키워드를 미리 예측할 수 있게 하여 광고주들에게 키워드를 판매하기 위한 가격을 결정하는 데에 중요한 자료가 될 수 있다. 하지만, 웹 객체 인기도가 시간에 따라 변화하고 웹 객체의 개수가 매우 방대하다는 특성으로 인하여 웹 객체 인기도에 대한 분석은 매우 어려운 문제이다. 본 논문에서는 웹 객체 인기도의 시간적 패턴을 마이닝하기 위한 효율적인 알고리즘을 제안한다. 본 논문은 웹 객체 인기도를 시계열로 표현하고, 두 웹 객체 인기도 간의 유사성을 측정하기 위하여 gap 척도를 제안한다. gap 척도의 효율적인 계산을 위하여 FFT를 활용한 알고리즘을 제안하고, 밀도기반 클러스터링 알고리즘을 이용하여 유사한 인기도 추세를 갖는 웹 객체들의 클러스터를 생성한다. 본 논문에서는 웹 객체 인기도가 특정 분포를 따르거나 주기적이라고 가정하지 않는다. Google Trends 웹 사이트로부터 구한 검색 키워드 인기도를 이용한 실험을 통하여, 제안된 알고리즘이 실세계 응용에서 유용함을 보인다.