Abstract
In recent years, the number of users who are actively express their opinions about Internet articles is more and more growing up, as the use of cyber community such as weblog or Internet discussion board increases. In fact, it is not difficult to find an article with hundreds of comments in famous Internet discussion boards. Most of the weblogs or Internet discussion boards present comments in the form of list and do not yet support even the basic operation such as searching comments. In this paper, we analysed large sets of comments in Internet discussion board named AGORA. It was found that from the result that the distribution of comment writers follows power-law. So we suppose a new search structure of comments using skip lists. The main idea of our approach is to reflect the probabilistic distribution properties of the commenters following the power-law to the data structure. Our empirical results show that the proposed method performs more efficient in searching the nodes with fewer number of comparison operations than logN, which is the theoretical time complexity of general indexed structure such as B-trees or typical skip lists.
최근 웹 블로그나 인터넷 게시판과 같은 가상 커뮤니티가 활발히 사용됨에 따라 댓글을 통해 자신의 의견을 적극적으로 나타내고자 하는 이용자들이 점점 증가하고 있는 추세다. 실제로 댓글 활동이 활발한 인터넷 토론 게시판에서 수천 개의 댓글이 달린 게시물도 어렵지 않게 찾아볼 수 있다. 대부분의 웹 블로그나 인터넷 게시판에서는 댓글이 작성된 시간에 따라 목록 형태로만 제공되고 있을 뿐 기본적인 검색 기능조차도 지원되지 않고 있다. 본 논문에서는 인터넷 토론 게시판의 댓글 분석을 통해 댓글 작성자의 분포가 거듭제곱 법칙을 따르는 것을 밝혔다. 그리고 이러한 댓글의 통계적 특성을 반영하는 스킵리스트 기반의 댓글 검색 구조를 제안한다. 제안 방법의 주안점 댓글 작성자들의 확률적 특성을 데이터 구조에 반영하는 것이다. 실험을 통해 제안 방법이 B-트리나 일반적인 스킵리스트의 이론적인 계산 복잡도인 logN에 비해 더 빠른 검색을 수행할 수 있음을 보인다.