• 제목/요약/키워드: URL 정규화 평가

검색결과 3건 처리시간 0.02초

사이트 기반의 URL 정규화 평가 (Evaluating Site-based URL Normalization)

  • 정효숙;김성진;이상호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.28-30
    • /
    • 2005
  • URL 정규화는 다양하게 표현된 동일 URL들을 하나의 통일된(cannonical) 형태의 URL로 변환하는 과정이다. 동일문서에 대한 중복된 URL 표현은 URL 정규화를 통하여 제거된다. 표준 정규화는 잘못된 긍정(동일하지 않는 URL들을 동일 문자열로 변환)이 없도록 개발되었다. 그러나 표준 정규화는 많은 잘못된 부정이 발생하게 되므로, 잘못된 긍정을 일부 허용하면서 잘못된 부정을 현격히 줄일 수 있는 확장 정규화가 제기되고 연구되어 왔다. 본 논문에서는 동일 사이트 내의 URL들에 대한 확장 정규화의 적용 결과가 유사한 정도를 보임으로써, 한 사이트 내의 URL에 대한 임의의 확장 정규화 결과 정보가 동일 사이트 내의 다른 URL들의 정규화에 효과적으로 사용될 수 있음을 보인다. 이를 위하여, 한 사이트의 확장 정규화 결과 동일성 척도와 사이트 기반의 확장 정규화 평가 척도를 제안한다. 20,000만개의 실제 국내 웹 사이트에서 추출된 25만개의 URL에 대해 6가지 확장 정규화가 평가된다.

  • PDF

URL정규화의 적용 효과 및 평가 (Effects and Evaluations of URL Normalization)

  • 정효숙;김성진;이상호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.486-494
    • /
    • 2006
  • 하나의 웹 문서는 문법적으로 서로 다른 두개 이상의 URL들로 표현 가능하다. URL 정규화는 URL을 정형화된 형태로 변환하는 과정이다. 정규화 과정을 통하여, 동일 웹 문서를 나타내는 URL들은 문법적으로 동일 URL들로 변환된다. 현재까지 정규화 방법의 개발 및 적용은 개발자의 경험적 지식에 기반을 두고 있으며, 체계적인 분석에 대한 연구가 부재하다. 본 논문에서는 웹 어플리케이션의 효율성과 효과성 측면에서 정규화 방법들을 평가하여 적절한 정규화 방법의 선택에 대한 지침 제공을 목적으로 한다. 또한, 웹 어플리케이션에서 정규화 적용으로 발생하는 효과를 분석하고, URL 정규화 평가를 위한 7가지 척도를 기술한다. 끝으로, 실제 웹 문서에서 추출된 약 2천 5백만개의 URL들을 대상으로 12개의 정규화 방법 이 평가된다.

웹 어플리케이션을 위한 URL 정규화 (URL Normalization for Web Applications)

  • 홍석후;김성진;이상호
    • 한국정보과학회논문지:정보통신
    • /
    • 제32권6호
    • /
    • pp.716-722
    • /
    • 2005
  • 웹에서는 문법적으로 서로 다른 문자열의 URL들이 동일 자원을 나타낼 수 있다. URL 정규화는 동일 자원을 나타내는 서로 다른 URL들을 통일된 형태로 변환하는 과정이다. 현재 URL 정규화에 대한 표준화가 진행 중에 있다. 표준 URL 정규화는 "잘못된 긍정"을 허용하지 않으며 "잘못된 부정"을 최소화하는 것을 목적으로 한다. 본 논문에서는 표준 URL 정규화에서 고려되지 않은 네 가지 정규화 요소를 고려한다. 본 논문은 "잘못된 긍정"을 부분적으로 허용하여 표준 URL 정규화에서 빈번히 발생하는 "잘못된 부정"을 제거하는 것을 목적으로 한다. 또한, 제안된 정규화 고려 요소의 효과를 평가하기 위하여 두 개의 척도가 정의되었다. 마지막으로, 본 논문은 실제 웹 문서 중에 발견된 약 1억 7천만 개의 URL에 대하여 실험을 수행하고 결과를 기술한다.