DOI QR코드

DOI QR Code

Blog Search Method using User Relevance Feedback and Guru Estimation

사용자 적합성 피드백과 구루 평가 점수를 고려한 블로그 검색 방법

  • 정경석 (SK communication 검색플랫폼팀) ;
  • 박혁로 (전남대학교 전자컴퓨터공학부)
  • Published : 2008.10.31

Abstract

Most Web search engines use ranking methods that take both the relevancy and the importance of documents into consideration. The importance of a document denotes the degree of usefulness of the document to general users. One of the most successful methods for estimating the importance of a document has been Page-Rank algorithm which uses the hyperlink structure of the Web for the estimation. In this paper, we propose a new importance estimation algorithm for the blog environment. The proposed method, first, calculates the importance of each document using user's bookmark and click count. Then, the Guru point of a blogger is computed as the sum of all importance points of documents which he/she wrote. Finally, the guru points are reflected in document ranking again. Our experiments show that the proposed method has higher correlation coefficient than the traditional methods with respect to correct answers.

대부분의 웹 검색엔진은 문서의 적합도와 중요도를 함께 고려하는 순위화 방법을 사용한다. 문서의 적합도는 문서가 사용자의 검색의도를 만족시키는 정도이고, 중요도는 인기 있거나 양질의 내용을 포함하는 등 문서의 품질을 표시하는 정도라고 할 수 있다. 지금까지 웹 문서의 중요도를 평가하는 방법으로 가장 성공적인 것은 하이퍼링크 구조를 사용한 방법이다. 하지만 블로그의 경우, 해당 블로그를 작성한 블로거와 그 블로거가 소유하는 다른 문서들을 알 수 있기 때문에 문서의 중요도를 평가하는 다른 방법을 생각할 수 있다. 본 논문에서 제안하는 방법은 사용자의 북마크와 클릭를 이용하여 문서의 중요도를 계산하고, 그러한 문서 점수를 바탕으로 블로거의 구루점수를 계산한다. 마지막으로 문서를 순위화할 때 해당 문서를 작성한 구루의 구루 점수를 반영한다. 이렇게 되면 구루점수가 높은 구루 블로거의 문서들이 상위에 검색됨에 따라서 전반적으로 검색 품질이 개선될 수 있다. 블로그 문서를 대상으로 한 실험결과 제안하는 방법이 기존의 전통적인 웹 검색 성능과 비교하여 정답집합과의 연관성이 높음을 알 수 있었다.

Keywords

References

  1. R. Baeza-Yates and B. Ribiro-Neto, Modern Information Retrieval, Addison-Wesley, 1999
  2. W. Frakes and R.Baeza-Yates, Information Retrieval: Data Structures & Algorithm (Prentice-Hall, 1992)
  3. G. Salton and M. McGill. Intorduction to modern information retrieval. McGraw-Hill, 1983
  4. S. Brin and L. Page, The anatomy of a large-scale hypertextual web search engine, Proceedings of the 7th International World Wide Web Conference, 1998 https://doi.org/10.1016/S0169-7552(98)00110-X
  5. J. M. Kleinberg, Authoritative sources in a hyperlinked environment, The Journal of the ACM, Vol.46(5), 1999 https://doi.org/10.1145/324133.324140
  6. B. Krishna and R. Monika, Improved algorithms for topic distillation in a hyperlinked environment, Proceedings of the 21st ACM SIGIR conference, 1998 https://doi.org/10.1145/290941.290972
  7. D. Kelly and J. Teevan, Implicit feedback for inferring user preference: A bibliography. In SIGIR Forum, 2003 https://doi.org/10.1145/959258.959260
  8. E. Agichtein, E. Brill and S. Dumais, Improving web search ranking by incorporating user behavior, Proceedings of the ACM Conference on research and development, on information retrieval (SIGIR), 2006 https://doi.org/10.1145/1148170.1148177
  9. S. Fox, K. Karnawat, M. Mydland, S. T. Dumais and T. White, Evaluating implicit measures to improve the search experience, In ACM Transactions on Information Systems, 2005
  10. Google, www.google.com
  11. Teoma, www.ask.com
  12. Digg, www.digg.com
  13. G. Pringle, L. Allison, and D. L. Dowe. What is a tall poppy among web pages?, Computer Net-works and ISDN Systems, 30:369-377, 1988 https://doi.org/10.1016/S0169-7552(98)00061-0
  14. A. K. Sedigh and M. Roudaki. Identification of the dynamics of the google's ranking algorithm. In 13th IFAC Symposium On System Identification, 2003
  15. A. Bifet and C. Castillo, An analysis of factors used in search engine ranking, First International Workshop on Adversarial Information Retrieval on the Web, 2005
  16. Bloglines, www.bloglines.com
  17. Rollyo, www.rollyo.com
  18. GoogleBlog, blogsearch.google.com
  19. Technorati, www.technorati.com
  20. Cyworld, www.cyworld.com
  21. Delicious, del.icio.us
  22. Seomoz, www.seomoz.org/article/search-ranking-factors