Estimation of Web Page Change Behavior

웹 문서 변경 예측

  • Published : 2007.08.30

Abstract

This paper presents the estimation methods computing the probabilities of how many times web pages are downloaded and modified, respectively, in the future crawls. The methods can make web database administrators avoid unnecessarily requesting undownloadable and unmodified web pages in a page group. We postulated that the change behavior of web pages is strongly related to the past change behavior. We gather the change histories of approximately three million web pages at two-day intervals for 100 days, and estimated the future change behavior of those pages. Our estimation, which was evaluated by actual change behavior of the pages, worked well.

본 논문은 웹 문서의 다운로드 가능 여부와 내용 변경 여부를 예측하는 도구를 기술한다. 웹 데이터베이스 관리자는 자신이 관리하는 웹 문서 집합을 최신 상태로 유지하려고 할 때, 예측 도구를 통하여 다운로드되지 않거나 변경되지 않았을 웹 문서에 대한 불필요한 요청을 감소시킬 수 있다. 본 논문에서는 웹 문서들의 과거 변경이 미래 변경과 매우 밀접한 관련이 있음을 가정한다. 본 논문에서는 약 300만개의 웹 문서들을 2일 주기로 100일 동안 관찰하여 변경 경향을 분석하고, 관찰된 문서들의 다운로드 가능 여부와 내용 변경 여부를 예측한다. 예측 결과는 실제의 변경 사실과 비교 평가되었다.

Keywords