웹 어플리케이션을 위한 URL 정규화

URL Normalization for Web Applications

  • 홍석후 (숭실대학교 컴퓨터학부) ;
  • 김성진 (서울대학교 전기컴퓨터공학부) ;
  • 이상호 (숭실대학교 컴퓨터학부)
  • 발행 : 2005.12.01

초록

웹에서는 문법적으로 서로 다른 문자열의 URL들이 동일 자원을 나타낼 수 있다. URL 정규화는 동일 자원을 나타내는 서로 다른 URL들을 통일된 형태로 변환하는 과정이다. 현재 URL 정규화에 대한 표준화가 진행 중에 있다. 표준 URL 정규화는 "잘못된 긍정"을 허용하지 않으며 "잘못된 부정"을 최소화하는 것을 목적으로 한다. 본 논문에서는 표준 URL 정규화에서 고려되지 않은 네 가지 정규화 요소를 고려한다. 본 논문은 "잘못된 긍정"을 부분적으로 허용하여 표준 URL 정규화에서 빈번히 발생하는 "잘못된 부정"을 제거하는 것을 목적으로 한다. 또한, 제안된 정규화 고려 요소의 효과를 평가하기 위하여 두 개의 척도가 정의되었다. 마지막으로, 본 논문은 실제 웹 문서 중에 발견된 약 1억 7천만 개의 URL에 대하여 실험을 수행하고 결과를 기술한다.

In the m, syntactically different URLs could represent the same resource. The URL normalization is a process that transform a URL, syntactically different and represent the same resource, into canonical form. There are on-going efforts to define standard URL normalization. The standard URL normalization designed to minimize false negative while strictly avoiding false positive. This paper considers the four URL normalization issues beyond ones specified in the standard URL normalization. The idea behind our work is that in the URL normalization we want to minimize false negatives further while allowing false positives in a limited level. Two metrics are defined to analyze the effect of each step in the URL normalization. Over 170 million URLs that were collected in the real web pages, we did an experiment, and interesting statistical results are reported in this paper.

키워드

참고문헌

  1. T. Berners-Lee, R. Fielding and L. Masinter, 'Uniform Resource Identifiers (URI): Generic Syntax,' http://www.ietf.org/rfc/rfc3986.txt? number=3986, 2005
  2. M. Burner, 'Crawling Towards Eternity: Building an Archive of the World Wide Web,' Web Techniques Magazine, Vol. 2, No.5, pp. 37-40, 1997
  3. A. Heydon and M. Najork, 'Mercator: A Scalable, Extensible Web Crawler,' International Journal of WWW. VoI.2.No. 4, pp. 219-229, 1999 https://doi.org/10.1023/A:1019213109274
  4. S.J. Kim and S.H. Lee, 'How Web Pages Change: An Empirical Study,' submitted for publication
  5. S.J. Kim and S.H. Lee, 'Implementation of a Web Robot and Statistics on the Korean Web,' Proc. Journal of KIPS, Vol. 10-c, No.4, pp. 509-518, 2003 https://doi.org/10.3745/KIPSTC.2003.10C.4.509
  6. Netcraft. http://news.netcraft.com/archives/web_servec_survey.html
  7. V. Shkapenyuk and T. Suel, 'Design and Implementation of a High-performance Distributed Web Crawler,' Proc. 18th Data Engineering Conf., pp. 357-368, 2002