Web Crawling and PageRank Calculation for Community-Limited Search

커뮤니티 제한 검색을 위한 웹 크롤링 및 PageRank 계산

  • Kim Gye-Jeong (Department of Computer Science & Advanced Information Technology Research Center Korea Advanced Institute of Science and Technology) ;
  • Kim Min-Soo (Department of Computer Science & Advanced Information Technology Research Center Korea Advanced Institute of Science and Technology) ;
  • Kim Yi-Reun (Department of Computer Science & Advanced Information Technology Research Center Korea Advanced Institute of Science and Technology) ;
  • Whang Kyu-Young (Department of Computer Science & Advanced Information Technology Research Center Korea Advanced Institute of Science and Technology)
  • 김계정 (한국과학기술원 전산학과/첨단정보기술연구센터) ;
  • 김민수 (한국과학기술원 전산학과/첨단정보기술연구센터) ;
  • 김이른 (한국과학기술원 전산학과/첨단정보기술연구센터) ;
  • 황규영 (한국과학기술원 전산학과/첨단정보기술연구센터)
  • Published : 2005.07.01

Abstract

최근 웹 검색 분야에서는 검색 질을 높이기 위한 기법들이 많이 연구되어 왔으며, 대표적인 연구로는 제한 검색, focused crawling, 웹 클러스터링 등이 있다. 그러나 제한 검색은 검색 범위를 의미적으로 관련된 사이트들로 제한할 수 없으며, focused crawling은 질의 시점에 클러스터링하기 때문에 질의 처리 시간이 오래 걸리고, 웹 클러스터링은 많은 웹 페이지들을 대상으로 클러스터링하기 위한 오버헤드가 크다. 본 논문에서는 검색 범위를 특정 커뮤니티로 제한하여 검색 하는 커뮤니티 제한 검색과 커뮤니티를 구하는 방법으로 cluster crawler를 제안하여 이러한 문제점을 해결한다. 또한, 커뮤니티를 이용하여 PageRank를 2단계로 계산하는 방법을 제안한다. 제안된 방법은 첫 번째 과정에서 커뮤니티 단위로 지역적으로 PageRank를 계산한 후, 두 번째 과정에서 이를 바탕으로 전역적으로 PageRank론 계산한다. 제안된 방법은 Wang에 의해 제안된 방법에 비해 PageRank 근사치의 오차를 $59\%$ 정도로 줄일 수 있다.

Keywords