• Title/Summary/Keyword: web directory crawling

Search Result 2, Processing Time 0.021 seconds

Analyzing Coverage and Coverage Overlap of Korean Web Directories (국내 웹 디렉토리들의 커버리지 및 커버리지 중복성 분석)

  • 배희진;이진숙;이준호;박소연
    • Journal of the Korean Society for information Management
    • /
    • v.21 no.1
    • /
    • pp.173-186
    • /
    • 2004
  • This study examines coverage and coverage overlap of the three major Korean web directories, Naver, Yahoo Korea, and Empas. This study also suggests a methodology for collecting and processing web sites provided by these web directories. A method for napping main categories was developed. Each directory provided registered web pages in a slightly different way. Reference links had a significant influence on the coverage of each web directory. The overlap of pages among three directories was quite low, It is expected that this study could contribute to the field of web research by providing insights to how directories provide web pages and suggesting a methodology for the analysis of directory coverage.

Design of a Multiagent-based Comparative Shopping System (멀티 에이전트 기반 비교 쇼핑 시스템 설계)

  • 신주리;한상훈;이건명
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.122-124
    • /
    • 2000
  • 이 논문에서는 보다 효과적이고 편리한 서비스를 제공할 수 잇는 전자상거래를 위한 다중 에이전트 기반의 확장된 비교 쇼핑 시스템을 제안한다. 이 시스템은 웹 크로울링(web crawling)을 통해 비교 쇼핑 시스템의 대상이 되는 웹사이트들의 페이지 추출 정보를 입수한다. 각 쇼핑 사이트에서는 정보 추출을 위한 중심이 되는 랩퍼(wraper) 기술은 먼저 정보가 있는 페이지를 가려내고, 정보가 있다고 판명되는 페이지들에서 상품 정보의 위치 즉, 반복되는 패턴(pattern)을 추출하여 필요한 상품 기술 단위 정보를 뽑아내는 학습 알고리즘이며, 각 사이트에 맞게 만들어진 랩퍼 에이전트(wrapper agent)에 대해 유효성을 검사하는 방법론을 제시한다. 또한, 학습 시 필요한 지식(knowledge)으로서의 디렉토리(directory) 구성은 미리 만들어진 표준 카테고리(category)와 용어(terminology) 존재하에 제한적이나마 새로운 디렉토리 요소에 대해 자동으로 확장할 수 있는 방법론을 제안한다.

  • PDF