트위터 문서에서 시간 및 리트윗 분석을 통한 핵심 사건 추출

Extracting Core Events Based on Timeline and Retweet Analysis in Twitter Corpus

  • ;
  • 이경순 (전북대학교 컴퓨터공학부/영상정보신기술연구센터)
  • 투고 : 2012.01.18
  • 심사 : 2012.06.03
  • 발행 : 2012.10.30


인터넷 사용자들은 어떠한 이슈에 대해 소셜 네트워크 서비스를 통해 빠르고 간결하게 다른 사람들과 지속적인 커뮤니케이션을 원한다. 사회적 이슈에 대해 어떠한 사건이 일어나게 되면 그날의 트윗 글과 리트윗 개수에 영향을 미치게 된다. 본 논문에서는 트위터 자료에서 사회적인 핵심 사건을 추출하기 위해 시간 분석과 감성 자질 및 리트윗 정보를 이용하는 방법을 제안한다. 제안 방법의 유효성을 검증하기 위해 비교실험으로 어휘 빈도수를 이용하여 핵심 사건을 추출하는 방법, 어휘 빈도수와 감성 자질을 함께 이용한 방법, 시간 분석을 반영하기 위해 카이제곱만을 이용한 방법과 제안 방법인 어휘 빈도수, 감성 자질, 리트윗 및 카이제곱을 함께 이용한 방법으로 성능을 비교하였다. 성능 평가를 위해서는 추출된 사건리스트에서 상위 10개 결과에서 정확도를 계산하였는데, 제안 방법이 94.9%의 성능을 보였다. 실험을 통해 제안한 방법이 핵심 사건 추출에 효과적인 방법임을 알 수 있다.

Many internet users attempt to focus on the issues which have posted on social network services in a very short time. When some social big issue or event occurred, it will affect the number of comments and retweet on that day in twitter. In this paper, we propose the method of extracting core events based on timeline analysis, sentiment feature and retweet information in twitter data. To validate our method, we have compared the methods using only the frequency of words, word frequency with sentiment analysis, using only chi-square method and using sentiment analysis with chi-square method. For justification of the proposed approach, we have evaluated accuracy of correct answers in top 10 results. The proposed method achieved 94.9% performance. The experimental results show that the proposed method is effective for extracting core events in twitter corpus.


  1. Naver Knowledge Dictionary, "Twitter",
  2. Duhwan Lee reporter, "Revolution of 140 characters is shaking the Korea, 'the power to change the world, Twitter"
  3. A.-M. Popescu and M. Pennacchiotti, "Detecting Controversial Events from Twitter", In Proceedings of CIKM, 2010.
  4. H.Sayyadi, M. Hurst, and A. Maykov. "Event Detection and Tracking in Social Streams", In Proceedings of ICWSM, 2009.
  5. E.Benson, A.Haghighi, and R.Barzilay, "Event Discovery in Social Media Feeds" In Proceedings of ACL, 2011
  6. A.Pak, P. Paroubek, "Twitter as a Corpus for Sentiment Analysis and Opinion Mining." In Proceedings of LREC, 2010.
  7. A.-M. Popescu, M.Pennacchiotti, Deepa Arun Paranjpe. "Extracting events and event descriptions from Twitter", In Proceedings of WWW, 2011.
  8. Q.Zhao, P.Mitra, and B.Chen, "Temporal and information flow based event detection from social text streams", In Proceedings of WWW, 2007.
  9. J.Lanagan and Alan F. Smeaton, "Using Twitter to Detect and Tag Important Events in Live Sports", In Proceedings of AAAI , 2011.
  10. Z.Yang, J.Guo, K.Cai, J.Tang, J.Li, L.Zhang, and Z. Su, "Understanding retweeting behaviors in social networks" In Proceedings of CIKM, 2010.
  11. D.Boyd, S.Golder and G.Lotan. "Tweet, Tweet, Retweet: Conversational Aspects of Retweeting on Twitter", In Proceedings of HICSS-43 IEEE, 2010.
  12. T. Wilson, J. Wiebe, and P. Hoffmann. "Recognizing contextual polarity in phrase-level sentiment analysis", In Proceedings of HLT/EMNLP , 2005.
  13. J. H. Park, B. H. Kim, M. J. Lee and Y. K. Kwon, "TwitNet : Cytoscape Plugin for Visualizing Relation betweens Twitter Users", In proceedings of Korean Institute of Information Scientists and Engineers (KIISE-2010), Vol.37, No.1(D), pp.316-321, June, 2010.
  14. B. K. Sung, J. Y. Oh and J. W. Cha, "LiveTwitter: Hot Issue Search system Based on Twitter", In proceedings of HCLT2010, 2010, pp.179-182.

피인용 문헌

  1. Geographical Name Denoising by Machine Learning of Event Detection Based on Twitter vol.4, pp.10, 2015,