• 제목/요약/키워드: 웹 로봇

검색결과 157건 처리시간 0.023초

자바스크립트 함수 처리가 가능한 분산처리 방식의 웹 수집 로봇의 설계 (Design of Web Searching Robot Engine Using Distributed Processing Method Application to Javascript Function Processing)

  • 김대유;남기효;김정태
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 춘계종합학술대회 A
    • /
    • pp.289-292
    • /
    • 2008
  • 기존의 웹 수집 로봇에서 처리하지 못하는 자바스크립트 함수 링크를 처리하기 위하여 인터넷 익스플로러의 "Active Script Engine"을 사용하였다. 또한 자바스크립트 함수 링크를 처리 하였을 경우 웹 수집 로봇의 수집량을 측정하기 위하여 웹 수집 로봇을 개발하였다. 웹 수집 로봇을 개발하기 위해서 구글봇과 네이봇 등 웹 수집 로봇의 구조를 파악하여, 수집 로봇에 활용되는 구성요소를 구현하고 분산처리형태의 웹 수집 로봇을 설계하여 개발했다. 또한 개발된 웹 로봇에 제안된 자바스크립트 처리 모델을 추가하여 성능 평가를 하였다. 성능평가 방법은 자바스크립트를 사용하는 웹사이트의 게시판을 대상으로 하여 웹 수집량을 비교 분석하는 것이다. 웹사이트 게시물 1000개인 경우, 일반 웹 로봇의 경우에는 1페이지밖에 수집하지 못하였고, 제안된 웹 로봇의 경우 1000개 이상의 웹 페이지를 수집하는 결과를 얻었다.

  • PDF

자바스크립트 함수처리 기능을 포함한 분산처리 방식의 웹 수집 로봇의 설계 (Efficient Design of Web Searching Robot Engine Using Distributed Processing Method with Javascript Function)

  • 김대유;김정태
    • 한국정보통신학회논문지
    • /
    • 제13권12호
    • /
    • pp.2595-2602
    • /
    • 2009
  • 본 논문에서는 기존의 웹 수집 로봇에서 처리 하지 못하는 자바스크립트 함수 링크를 처리하기 위하여 인터넷 익스플로러의 "Active Script Engine"을 사용하여 웹 로봇을 구현하였으며, 또한 자바스크립트 함수 링크를 처리하였을 경우 웹 수집 로봇의 수집량을 측정하기 위한 웹 수집 로봇을 개발하였다. 웹 수집 로봇을 개발하기 위해서 구글봇과 네이봇 등 웹 수집 로봇의 구조를 파악하여, 수집 로봇에 활용되는 구성요소를 구현하고 분산처리 형태의 웹 수집 로봇을 설계하였다. 또한 제안된 웹 로봇에 제안된 자바스크립트 처리 모델을 추가하여 성능평가를 하였으며, 성능평가방법은 자바스크립트를 사용하는 웹 사이트의 게시판을 대상으로 하여 웹 수집량을 비교 분석하였다. 웹 사이트 게시물 1000개인 경우, 일반 웹 로봇의 경우에는 1페이지밖에 수집하지 못하였고, 제안된 웹 로봇의 경우 1000개 이상의 웹 페이지를 수집하는 결과를 얻었다.

정확도 높은 검색 엔진을 위한 문서 수집 방법 (A Document Collection Method for More Accurate Search Engine)

  • 하은용;최선완
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.471-473
    • /
    • 1999
  • 인터넷상의 정보 검색 엔진들은 웹 로봇을 실행해서 인터넷에 연결되어 있는 수많은 웹 서버들을 방문해서 웹 문서를 획득하고, 인덱싱 기법을 써서 자료를 추출하고 분류해서 검색 엔진의 기초가 되는 데이터 베이스를 구축한다. 정보 추출을 위해 웹 로봇을 운영할 때 웹 서버에 대한 사전 지식 없이 진행된다면 수많은 불필요한 요구가 전송돼서 인터넷 트래픽을 증가시키는 요인이 된다. 하지만 웹 서버가 사전에 자신이 공개할 문서에 대한 요약 정보를 웹 로봇에게 통보하고, 웹 로봇은 이 정보를 이용해서 웹 서버의 해당 문서에 대한 정보 수집 작업을 처리한다면 불필요한 인터넷 트래픽을 줄일 수 있을 뿐만 아니라 검색 엔진의 정보의 정확도를 높이고, 웹 서버상의 웹 문서 파일의 변동 사항을 자동으로 검사하고 변동된 사항들을 종합 정리해서 등록된 각 웹 로봇에게 전송하는 문서 감시 통보 시스템과 통보된 요약 정보를 토대로 웹 서버로부터 해당 문서를 전송받아 필요한 인덱스 정보를 추출하는 효율적인 웹 로봇을 제안한다.

  • PDF

다중 프로세스 기반 웹 로봇의 수행동작 분석 (Analysis of Execution Behavior for Multprocess-based Web Robots)

  • 김희철;이용두
    • 디지털콘텐츠학회 논문지
    • /
    • 제2권1호
    • /
    • pp.9-19
    • /
    • 2001
  • 웹 로봇은 인터넷 검색엔진을 포함한 다양한 웹 응용프로그램에 활용되는 중요한 인터넷 소프트웨어 기술이다. 인터넷의 급격한 성장에 따라 고성능 웹 로봇의 구현이 시급히 요구되고 있다. 이를 위해서는 웹 로봇에 대한 성능확장성에 초점을 둔 연구가 수행되어야 한다. 하지만 기존의 웹 로봇에 대한 연구개발은 주로 구현에 초점을 두고 수행되어 왔으며 따라서 성능확장성에 대한 체계적인 연구 결과는 발표되고 있지 않다. 본 연구에서는 이러한 성능확장성에 관한 선행연구로서 기존 웹 로봇 모델의 수행동작(Execution Behavior)을 성능 측면에서 이해하고자 웹 로봇의 수행동작에 대한 분석 결과를 제공한다. 본 연구에서는 Fork-join을 기반으로 하는 다중프로세스 기반의 웹 로봇 모델에서 웹 로봇이 웹 서버에게로 전송하는 접속요청, 문서헤드요청, 문서본문요청 시에 설정하는 타임아웃(Timeout) 값이 성능에 미치는 영향을 분석하였다. 또한 전체 컴퓨팅 소요시간에서 URL추출 및 유일성 검사 등이 점유하는 비율을 산출하여 웹 로봇의 동작을 분석하였다. 이러한 분석 결과를 기반으로 하여 향후 웹 로봇의 성능향상을 위한 설계 방향을 제시한다.

  • PDF

웹 로봇 구현 및 한국 웹 통계보고 (Implementation of a Web Robot and Statistics on the Korean Web)

  • 김성진;이상호
    • 정보처리학회논문지C
    • /
    • 제10C권4호
    • /
    • pp.509-518
    • /
    • 2003
  • 웹 로봇은 웹 문서를 다운로드하고 저장하는 프로그램이다. 현재 웹 로봇 구현에 대한 여러 연구들이 진행되고, 웹에 대한 다양한 통계들이 보고되고 있다. 첫째, 본 논문에서는 새로운 웹 로봇을 개발하고, 개발된 웹 로봇의 전체적인 구조와 구현 결정들을 기술한다. 둘째, 약 7천 4백만 한국 웹 문서들에 대한 여러 통계치를 보고한다. 셋째, 1,424 개의 한국 웹 사이트를 지속적으로 관찰하여 웹 문서들의 변경 경향을 조사한다. 본 논문에서는 웹 문서의 변경에 영향을 미치는 요소들이 식별된다. 식별된 요소는 갱신할 웹 문서를 선택하기 위한 정보로서 유용하게 활용될 수 있다.

웹 수집 로봇 엔진의 설계 및 구현 (Implementation and Design of Robot Engine for Web Collection)

  • 김대유;김정태
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 추계종합학술대회
    • /
    • pp.313-317
    • /
    • 2007
  • 인터넷의 이용이 활발해짐에 따라 수많은 정보들이 웹을 통하여 공개되고 있으며, 이용자는 웹 검색 서비스를 이용하여 이러한 정보들에 효과적으로 접근할 수 있다. 웹 검색 서비스의 구축을 위해서는 웹 로봇을 사용한 웹 문서 수집이 선행되어야 하며, 웹 문서들의 수가 급격히 증가하면서 양질의 웹 문서들을 효과적으로 수집할 수 있는 웹 로봇에 대한 필요성이 증가되고 있으며, 그에 따른 많은 웹 수집 로봇이 탄생되고 있다. 본 논문에서는 효과적인 웹 수집 로봇의 설계와 동적인 웹페이지에서 사용하는 자바스크립트의 링크 추출방안에 대하여 제시하고자 한다.

  • PDF

웹 로봇의 성능 평가를 위한 방법론 (A Methodology for Performance Evaluation of Web Robots)

  • 김광현;이준호
    • 정보처리학회논문지D
    • /
    • 제11D권3호
    • /
    • pp.563-570
    • /
    • 2004
  • 인터넷의 이용이 활발해짐에 따라 수많은 정보들이 점을 통하여 공개되고 있으며, 이용자는 점 검색 서비스를 이용하여 이러한 정보들에 과적으로 접근할 수 있다. 웹 검색 서비스의 구축을 위해서는 웹 로봇을 사용한 웹 문서 수집이 선행되어야 하며, 웹 문서들의 수가 급격히 증가하면서 양질의 웹 문서들을 효과적으로 수집할 수 있는 웹 로봇에 대한 필요성이 증가하고 있다. 본 연구에서는 웹 로봇들을 체계적으로 평가하기 위한 기준으로서 효율성, 지속성, 신선성, 포괄성, 정숙성, 유일성, 안전성을 제시하고, 이러한 평가 기준의 향상에 도움이 되는 기능들을 기술하였다. 또한, 본 연구에서는 네이버, 구글, 알타비스타 등에서 사용되고 있는 기존의 점 로봇들에 구현된 기능들을 조사하였다. 본 연구의 결과는 보다 효과적인 램 로봇의 개발에 기여할 것으로 기대된다.

URC를 위한 시맨틱 검색 및 서비스 프로세스 실행 기술 (Semantic Service Discovery and Service Process Execution Technology for Ubiquitous Robotics Companion)

  • 손병열;김경일;정승우;정문영;김록원;문진영;이대하;김연준;조현성
    • 전자통신동향분석
    • /
    • 제20권2호통권92호
    • /
    • pp.55-66
    • /
    • 2005
  • 하드웨어 중심의 기존 로봇에 웹서비스 및 기술을 적용하여 로봇의 응용 서비스 영역을 확장함으로써 로봇의 정보 서비스 고도화를 이루기 위해 웹 기반 IT 로봇 서비스enabling 기술을 개발하고 있다. 시맨틱 검색 기술은 사용자가 원하는 서비스 또는 콘텐츠를 비교적 정확히 찾기 위해 시맨틱 웹을 사용하고 있으며 서비스 프로세스 실행 기술은 인터넷 상의 웹서비스와 로봇의 구동 서비스를 하나의 프로세스로 동적으로 구성하여 수행할 수 있도록 해준다. 로봇은 방대한 양의 시맨틱 정보를 내장하고 않고 원격지 서버상에서의 시맨틱 검색을 통해 충분히 시맨틱한 결과를 획득할 수 있으며 또한 고정되지 않은 그리고 웹이 컨텍스트와 콘텐츠를 활용할 수 있는 서비스 프로세스 형태의 로봇이 제공할 수 있는 서비스의 질을 개선하고 그 종류 또한 다양하게 변화시킬 수 있다

장르기반 분류와 주제기반 분류를 이용한 웹 로봇의 설계 및 구현 (A Design and Implementation of Web Robot by Using Genre-based Categorization and Subject-based Categorization)

  • 이용배
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.499-506
    • /
    • 2005
  • 특수 전문화된 정보를 자동으로 수집하기 위해서는 인터넷 상을 순회하면서 대규모 자료를 모아오는 현재의 웹 로봇의 기능만으로는 그 역할을 수행하기에 부족함이 있다 따라서 본 논문에서는 현재의 웹 로봇의 기능과 활용도를 분석하여 보고 전문정보를 수집하는데 있어서 한계점을 알아보았다 또한 특수화된 분야의 전문정보를 수집하기 위하여 웹 로봇인 갖추어야 할 기능들을 도출해 내고 이를 설계한 내용을 기술하였다. 웹 로봇에 접목된 주요기능은 문서를 유형기반으로 분류할 수 있는 장르기반 분류와 주제기반으로 분류하는 내용기반 분류이다. 특히 장르기반 분류는 웹 로봇이 목적 문서를 효과적으로 수집할 수 있도록 하는 주요 기능으로 작용하였다.

분산수집 모델을 이용한 웹 로봇의 설계 및 구현 (Design of Web Robot Engine Using Distributed Collection Model Processing)

  • 김대유;김정태
    • 한국정보통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.115-121
    • /
    • 2010
  • 인터넷의 이용이 활발해짐에 따라 수많은 정보들이 웹을 통하여 공개되고 있으며, 이용자는 웹 검색 서비스를 이용하여 이러한 정보들에 효과적으로 접근할 수 있다. 웹 검색 서비스의 구축을 위해서는 웹 로봇을 사용한 웹 문서 수집이 선행되어야 하며, 웹 문서들의 수가 급격히 증가하면서 양질의 웹 문서들을 효과적으로 수집할 수 있는 웹 로봇에 대한 필요성이 증가되고 있으며, 그에 따른 많은 웹 수집 로봇이 탄생되고 있다. 본 논문에서는 효과적인 웹 수집 로봇의 설계와 동적인 웹페이지에서 사용하는 자바스크립트의 링크추출 방안을 제안하였다. 본 논문에서는 성능 분석을 위하여 제안된 모델을 사용하여 수집 모델을 1개로 설정해 놓고 299개의 웹 페이지를 점검 하였을 경우, 2분 12.67초가 소요되었고, 수집 모델을 10개로 생성하여 점검 하였을 경우 12.33초가 소요됨을 알 수 있었다.