DOI QR코드

DOI QR Code

인터넷 게시물의 댓글 분석 및 시각화

Analysis and Visualization for Comment Messages of Internet Posts

  • 이윤정 (부산대학교 컴퓨터공학과) ;
  • 지정훈 (부산대학교 컴퓨터공학과) ;
  • 우균 (부산대학교 컴퓨터공학과) ;
  • 조환규 (부산대학교 컴퓨터공학과)
  • 발행 : 2009.07.28

초록

오늘날 인터넷 사용자들은 블로그나 뉴스, 인터넷 게시판 등의 매체에서 댓글을 통해 다른 사람의 의견을 살피고 자신의 의견을 나타내고 있다. 그러나 현재 대부분의 블로그나 인터넷 포털 사이트의 경우 기사나 댓글들을 순차적인 목록 형태로 제공하므로 사용자가 원하는 내용의 댓글을 검색하거나 살펴보는 것은 힘든 일이다. 또한 댓글 사용자가 증가함에 따라 스팸 댓글이나 악플 등이 사회 문제가 되기도 한다. 본 논문에서는 다음 아고라(Daum AGORA) 웹 블로그의 게시글과 댓글을 통계적으로 분석하고 유사도를 기반으로 클러스터링하는 시스템을 제안한다. 본 시스템은 클러스터링 결과를 시각화하여 간단한 스크린 뷰(screen view)로 보여준다. 또한, 본 시스템은 생물정보학에서 잘 알려진 정렬 기법인 Needleman-Wunsch 알고리즘을 이용해 스팸 댓글을 필터링한다.

There are many internet users who collect the public opinions and express their opinions for internet news or blog articles through the replying comment on online community. But, it is hard to search and explore useful messages on web blogs since most of web blog systems show articles and their comments to the form of sequential list. Also, spam and malicious comments have become social problems as the internet users increase. In this paper, we propose a clustering and visualizing system for responding comments on large-scale weblogs, namely 'Daum AGORA,' using similarity analysis. Our system shows the comment clustering result as a simple screen view. Our system also detects spam comments using Needleman-Wunsch algorithm that is a well-known algorithm in bioinformatics.

키워드

참고문헌

  1. C. Marlow, "Audience, structure and authority in the weblog community," In The 54th Annual Conference of the International Communication Association, pp.1-9, 2004.
  2. 김은미, 선유화, "댓글에 대한 노출이 뉴스 수용에 미치는 효과", 한국언론학보, 제50권, 제4호,pp.33-64, 2006.
  3. 심재민, 조찬형, 양효진, 안인회, 나은아, "웹2.0시대의 네티즌 인터넷 이용 현황", 2006년 인터넷이슈심층조사 보고서, 한국인터넷진흥원, 2006.
  4. 배민영, 차정원, "Topic Signature를 이용한 댓글 분류 시스템", 정보과학회논문지: 소프트웨어 및 응용, 제35권, 제12호, pp.774-779, 2008.
  5. http://en.wikipedia.org/wiki/Spam_in_blogs.
  6. G. Mishne and D. Carmel, "Blocking Blog Spam with Language Model Disagreement," 1st International Workshop on Adversarial Information Retrieval on the Web. pp.1-6, 2005.
  7. S. C. Herring, L. A. Scheidt, S. Bonus, and E. Wright, "Bridging the gap: A genre analysis of weblogs," In The 37th Annual Hawaii International Conference on System Sciences(HICSS'04), 2004.
  8. M. Gumbrecht, "Blogs as protected space," In WWW 2004 Workshop on the Weblogging Ecosystem: Aggregation, Analysis and Dynamics, 2004 at WWW'04: the 13th international conference on World Wide Web, 2004.
  9. E. M. Trevino, "Blogger motivations: Power, pull, and positive feedback," In Internet Research 6.0, 2005.
  10. S. Krishnamurthy, "The multidimensionality of blog conversations," The virtual enactment of september 11. In Internet Research 3.0, 2002.
  11. G. Mishne and N. Glance, "Leave a reply: An analysis of weblog comments," In Third annual workshop on the weblogging ecosystem, 2006.
  12. G. Mishne, D. Carmel, and R. Lempel, "Blocking Blog Spam with Language Model Disagreement," In Proceedings of the First International Workshop on Adversarial Information Retrieval on the Web(AIRWeb), pp.1-6, 2005.
  13. http://www.wefeelfine.org.
  14. http://www.bbc.co.uk/white/spectrum.shtml.
  15. J. Indratmo and C. Gutwin, "Exploring blog archives with interactive visualization," In Proceedings of the Working Conference on Advanced Visual Interfaces, pp.:39-46, 2008.
  16. 배민정, 이윤정, 지정훈, 우균, 조환규, "TRIB: 웹블로그 댓글분류 시각화 시스템", 제31회 한국정보처리학회 춘계학술발표대회 논문집, 제16권, 제1호, pp.226-229, 2009.
  17. L. Xiao-bing and N. Zhang, "Incremental Immune-Inspired Clustering Approach to Behavior-Based Anti-Spam Technology," International Journal of Information Technology, Vol.12, No.3, pp.111-120, 2006.
  18. W.-F. Hsiao, T.-M. Chang, and G.-H. Hu, "A cluster-based approach to filtering spam under skewed class distributions," In HICSS, pp.53-59, 2007.
  19. S. Needleman and C. Wunsch, "A general method applicable to the search for similarities in the amino acid sequence of two proteins," J. Mol. Biol, Vol.48, No.3, pp.443-453, 1970. https://doi.org/10.1016/0022-2836(70)90057-4

피인용 문헌

  1. Skin Color Based Hand and Finger Detection for Gesture Recognition in CCTV Surveillance vol.11, pp.10, 2011, https://doi.org/10.5392/JKCA.2011.11.10.001
  2. Extracting and Visualizing Dispute comments and Relations on Internet Forum Site vol.12, pp.2, 2012, https://doi.org/10.5392/JKCA.2012.12.02.040
  3. Prediction Model for Popularity of Online Articles based on Analysis of Hit Count vol.12, pp.4, 2012, https://doi.org/10.5392/JKCA.2012.12.04.040
  4. The Effects of Contents and Parody Traits on UCC User Attitude and e-Worth of Mouth vol.21, pp.3, 2012, https://doi.org/10.5859/KAIS.2012.21.3.1