The Design of Blog Network Analysis System using Map/Reduce Programming Model

Map/Reduce를 이용한 블로그 연결망 분석 시스템 설계

  • 조인휘 (한양대학교 컴퓨터공학부 이동네트워크 연구실) ;
  • 박재균 (한양대학교 컴퓨터공학부 이동네트워크 연구실)
  • Received : 2010.02.03
  • Accepted : 2010.08.31
  • Published : 2010.09.30

Abstract

Recently, on-line social network has been increasing according to development of internet. The most representative service is blog. A Blog is a type of personal web site, usually maintained by an individual with regular entries of commentary. These blogs are related to each other, and it is called Blog Network in this paper. In a blog network, posts in a blog can be diffused to other blogs. Analyzing information diffusion in a blog world is a very useful research issue, which can be used for predicting information diffusion, abnormally detection, marketing, and revitalizing the blog world. Existing studies on network analysis have no consideration for the passage of time and these approaches can only measure network activity for a node by the number of direct connections that a given node has. As one solution, this paper suggests the new method of measuring the blog network activity using logistic curve model and Cosine-similarity in key words by the Map/Reduce programming model.

최근, 인터넷의 발달로 인해 온라인 사회연결망이 증가하고 있으며 이 중 블로그 서비스가 대표적이다. 본 논문에서는 블로그 연결망을 분석하기 위한 방법론을 제시하며, 대용량의 연결망 데이터를 안정적으로 분산 처리할 수 있는 방안을 제시한다. 우선, 각 연결망 데이터의 시간 경과에 따른 행위 가중치의 값을 보정하여, 최근의 행위가 과거의 행위보다 높은 연결강도를 가질 수 있도록 한다. 둘째로, 명시적으로 연결행위를 가지지 않은 블로그의 경우 블로그의 성격을 대표할 수 있는 키워드간의 유사도를 추출하여, 묵시적으로 연결망 내에 흡수하도록한다. 따라서 이전의 방법론과는 달리 더 많은 블로그 노드 간의 연결을 분석할 수 있다. 본 논문이 제시한 블로그 연결망 분석 시스템의 설계로 기존에 제시되었던 방법론보다 약 40% 더 많은 블로그 간 연결망을 추출 할 수 있음을 보였으며, 시간의 흐름에 따른 연결강도의 변화에 대한 타당성을 입증하였다.

Keywords

References

  1. S. Wasserman and K. Faust, "Social Network Analysis: Methods and Applications", Cambridge University Press, 1994
  2. L. Adamic, O. Buyukkokten, and E. Adar, "A Social Network Caught in the Web" Frist Monday, Vol.8, No.6, pp. 1-22, 2003
  3. X. Song et al., "Mining in Social Networks Information Flow Modeling based on Diffusion Rate for Prediction and Ranking", Proc. Int'l. Conf. on World Wide Web, pp. 191-200, 2007
  4. J. Iribarren and E. Moro, "Information Diffusion Epidemics in Social Networks", Arxiv, 2007
  5. (주) 다음 커뮤니케이션, http://www.tistory.com
  6. (주) SK Communications, http://www.egloos.com
  7. A. Chin and M. Chignell, "A Social Hypertext Model for Finding Community in Blogs", Proc. Int'l. Conf. on Hypertext and Hypermedia, pp. 11-22, 2006
  8. J. Dean and S. Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters", 6th Symposium on Operating System Design and Implementation, Google Inc., 2004
  9. 김경희, 배진아, "30대 블로거들의 블로그 매개 커뮤니케이션 연구", 한국언론학보, 제50권 제5호, 2006