A Method of Selective Crawling for Web Document Using URL Pattern

Jeong, Jun-Yeong;Jang, Mun-Su;

Proceedings of the Korean Institute of Intelligent Systems Conference (한국지능시스템학회:학술대회논문집)

2007.11a
/
Pages.41-44
/
2007

Korean Institute of Intelligent Systems (한국지능시스템학회)

A Method of Selective Crawling for Web Document Using URL Pattern

URL 패턴을 이용한 웹문서의 선택적 자동수집 방안

정준영 (서경대학교 소프트웨어학과) ;
장문수 (서경대학교 소프트웨어학과)

Published : 2007.11.02

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

특정 분야별로 구축되는 온톨로지에 관하여 그 언스턴스를 쉽고 빠르게 구축하기 위해서는 구조화된 문서를 이용하는 것이 효율적이다. 그러나, 일반적인 웹 문서는 모든 분야에 대하여 다양한 형식으로 표현되어 존재하기 때문에, 대상이 되는 구조 문서를 자동으로 수집하기는 쉽지 않다. 본 논문에서는 웹사이트의 URL 패턴을 XML 기반의 스크립트로 정의하여, 필요한 웹 문서만을 지능적으로 수집하는 방안을 제안한다. 제안하는 수집 방안은 구조화된 형태로 정보를 제공하는 사이트에 대해서 매우 빠르고 효율적으로 적용될 수 있다. 본 논문에서는 제안하는 방법을 적용하여 5만개 이상의 웹 문서를 수집하였다.

Proceedings of the Korean Institute of Intelligent Systems Conference (한국지능시스템학회:학술대회논문집)

A Method of Selective Crawling for Web Document Using URL Pattern

URL 패턴을 이용한 웹문서의 선택적 자동수집 방안

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)