Abstract
Most Web search engines use ranking methods that take both the relevancy and the importance of documents into consideration. The importance of a document denotes the degree of usefulness of the document to general users. One of the most successful methods for estimating the importance of a document has been Page-Rank algorithm which uses the hyperlink structure of the Web for the estimation. In this paper, we propose a new importance estimation algorithm for the blog environment. The proposed method, first, calculates the importance of each document using user's bookmark and click count. Then, the Guru point of a blogger is computed as the sum of all importance points of documents which he/she wrote. Finally, the guru points are reflected in document ranking again. Our experiments show that the proposed method has higher correlation coefficient than the traditional methods with respect to correct answers.
대부분의 웹 검색엔진은 문서의 적합도와 중요도를 함께 고려하는 순위화 방법을 사용한다. 문서의 적합도는 문서가 사용자의 검색의도를 만족시키는 정도이고, 중요도는 인기 있거나 양질의 내용을 포함하는 등 문서의 품질을 표시하는 정도라고 할 수 있다. 지금까지 웹 문서의 중요도를 평가하는 방법으로 가장 성공적인 것은 하이퍼링크 구조를 사용한 방법이다. 하지만 블로그의 경우, 해당 블로그를 작성한 블로거와 그 블로거가 소유하는 다른 문서들을 알 수 있기 때문에 문서의 중요도를 평가하는 다른 방법을 생각할 수 있다. 본 논문에서 제안하는 방법은 사용자의 북마크와 클릭를 이용하여 문서의 중요도를 계산하고, 그러한 문서 점수를 바탕으로 블로거의 구루점수를 계산한다. 마지막으로 문서를 순위화할 때 해당 문서를 작성한 구루의 구루 점수를 반영한다. 이렇게 되면 구루점수가 높은 구루 블로거의 문서들이 상위에 검색됨에 따라서 전반적으로 검색 품질이 개선될 수 있다. 블로그 문서를 대상으로 한 실험결과 제안하는 방법이 기존의 전통적인 웹 검색 성능과 비교하여 정답집합과의 연관성이 높음을 알 수 있었다.