Abstract
Online discussion bulletin in Korea is not only a specific place where user exchange opinions but also a public sphere through which users discuss and form public opinion. Sometimes, there is a heated debate on a topic and any article becomes a political or sociological issue. In this paper, we propose how to analyze the popularity of articles by collecting the information of articles obtained from two well-known discussion forums such as AGORA and SEOPRISE. And we propose a prediction model for the article popularity by applying the characteristics of subject articles. Our experiment shown that the popularity of 87.52% articles have been saturated within a day after the submission in AGORA, but the popularity of 39% articles is growing after 4 days passed in SEOPRISE. And we observed that there is a low correlation between the period of popularity and the hit count. The steady increase of the hit count of an article does not necessarily imply the final hit count of the article at the saturation point is so high. In this paper, we newly propose a new prediction model called 'baseline'. We evaluated the predictability for popular articles using three models (SVM, similar matching and baseline). Through the results of performance evaluation, we observed that SVM model is the best in F-measure and precision, but baseline is the best in running time.
한국의 온라인 토론게시판은 의견 공유뿐 아니라 여론 형성과 참여를 위한 공간으로 활발히 사용되고 있다. 토론게시판에서 어떤 글은 사회적 정치적 이슈를 몰고 다니기도 하고 어떤 글은 사용자의 관심을 끌지 못하기도 한다. 본 논문에서는 한국의 유명 토론게시판인 다음 아고라와 서프라이즈에서 수집한 글의 통계적 정보를 이용하여 글의 인기를 분석하고 인기글을 예측하기 위한 예측모델을 제안한다. 분석결과 아고라는 87.52%의 글이 게시판에 제출된 후 하루가 지나기 전에 글의 인기가 끝나고 있었지만 서프라이즈는 39%의 글이 4일 이상 인기가 지속되고 있었다. 그렇지만 글의 인기기간과 조회수의 상관관계는 낮았다. 조회수 증가가 오랫동안 지속된다고 해서 최종 조회수가 높다는 것을 의미하지는 않는다. 본 논문에서는 분류와 예측 분야에서 잘 알려진 SVM 모델과 유사매칭 모델, 그리고 새롭게 제안한 예측 모델 '베이스 라인'을 이용하여 인기글을 예측하고 평가하였다. SVM 모델이 F-measure와 정밀도에서 유사매칭과 베이스라인보다 우수하였으며, 베이스라인이 실행시간에서 가장 우수한 성능을 보였다.