• 제목/요약/키워드: Web searching robot

검색결과 8건 처리시간 0.021초

자바스크립트 함수처리 기능을 포함한 분산처리 방식의 웹 수집 로봇의 설계 (Efficient Design of Web Searching Robot Engine Using Distributed Processing Method with Javascript Function)

  • 김대유;김정태
    • 한국정보통신학회논문지
    • /
    • 제13권12호
    • /
    • pp.2595-2602
    • /
    • 2009
  • 본 논문에서는 기존의 웹 수집 로봇에서 처리 하지 못하는 자바스크립트 함수 링크를 처리하기 위하여 인터넷 익스플로러의 "Active Script Engine"을 사용하여 웹 로봇을 구현하였으며, 또한 자바스크립트 함수 링크를 처리하였을 경우 웹 수집 로봇의 수집량을 측정하기 위한 웹 수집 로봇을 개발하였다. 웹 수집 로봇을 개발하기 위해서 구글봇과 네이봇 등 웹 수집 로봇의 구조를 파악하여, 수집 로봇에 활용되는 구성요소를 구현하고 분산처리 형태의 웹 수집 로봇을 설계하였다. 또한 제안된 웹 로봇에 제안된 자바스크립트 처리 모델을 추가하여 성능평가를 하였으며, 성능평가방법은 자바스크립트를 사용하는 웹 사이트의 게시판을 대상으로 하여 웹 수집량을 비교 분석하였다. 웹 사이트 게시물 1000개인 경우, 일반 웹 로봇의 경우에는 1페이지밖에 수집하지 못하였고, 제안된 웹 로봇의 경우 1000개 이상의 웹 페이지를 수집하는 결과를 얻었다.

분산수집 모델을 이용한 웹 로봇의 설계 및 구현 (Design of Web Robot Engine Using Distributed Collection Model Processing)

  • 김대유;김정태
    • 한국정보통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.115-121
    • /
    • 2010
  • 인터넷의 이용이 활발해짐에 따라 수많은 정보들이 웹을 통하여 공개되고 있으며, 이용자는 웹 검색 서비스를 이용하여 이러한 정보들에 효과적으로 접근할 수 있다. 웹 검색 서비스의 구축을 위해서는 웹 로봇을 사용한 웹 문서 수집이 선행되어야 하며, 웹 문서들의 수가 급격히 증가하면서 양질의 웹 문서들을 효과적으로 수집할 수 있는 웹 로봇에 대한 필요성이 증가되고 있으며, 그에 따른 많은 웹 수집 로봇이 탄생되고 있다. 본 논문에서는 효과적인 웹 수집 로봇의 설계와 동적인 웹페이지에서 사용하는 자바스크립트의 링크추출 방안을 제안하였다. 본 논문에서는 성능 분석을 위하여 제안된 모델을 사용하여 수집 모델을 1개로 설정해 놓고 299개의 웹 페이지를 점검 하였을 경우, 2분 12.67초가 소요되었고, 수집 모델을 10개로 생성하여 점검 하였을 경우 12.33초가 소요됨을 알 수 있었다.

웹 페이지 비교통합 기반의 정보 수집 시스템 설계 및 개발에 대한 연구 (A Study on Design and Development of Web Information Collection System Based Compare and Merge Method)

  • 장진욱
    • 한국IT서비스학회지
    • /
    • 제13권1호
    • /
    • pp.147-159
    • /
    • 2014
  • Recently, the quantity of information that is accessible from the Internet is being dramatically increased. Searching the Web for useful information has therefore become increasingly difficult. Thus, much research has been done on web robots which perform internet information filtering based on user interest. If a web site which users want to visit is found, its content is searched by following the searching list or Web sites links in order. This search process takes a long time according as the number of page or site increases so that its performance need to be improved. In order to minimize unnecessary search with web robots, this paper proposes an efficient information collection system based on compare and merge method. In the proposed system, a web robot initially collects information from web sites which users register. From the next visit to the web sites, the web robot compares what it collected with what the web sites have currently. If they are different, the web robot updates what it collected. Only updated web page information is classified according to subject and provided to users so that users can access the updated information quickly.

홈페이지에 삽입된 악성코드 및 피싱과 파밍 탐지를 위한 웹 로봇의 설계 및 구현 (Implementation of Web Searching Robot for Detecting of Phishing and Pharming in Homepage)

  • 김대유;김정태
    • 한국정보통신학회논문지
    • /
    • 제12권11호
    • /
    • pp.1993-1998
    • /
    • 2008
  • 본 논문에서 제안하는 웹 서버 취약점 및 악성코드를 탐지하는 웹 로봇의 기술은 인터넷에서 개인정보보호사고의 원인분석 을 통해 도출된 요구기 능을 통합 구현하는 기술로 인터넷 이용자의 개인정보 피해 원인을 종합적으로 처리한다는 측면에서 효과가 크다. 인터넷에서 개인정보를 유출하는 홈페이지의 악성 코드 및 피싱과 파밍을 종합적으로 탐지기술을 구현함으로써 개인정보를 유출하기 위하여 사용되는 홈페이지의 악성 코드 및 피싱과 파밍 사이트로 유도되는 웹 사이트를 탐지 할 수 있는 시스템을 구현하였다.

Numerical Formula and Verification of Web Robot for Collection Speedup of Web Documents

  • 김원;김영기;진용욕
    • 인터넷정보학회논문지
    • /
    • 제5권6호
    • /
    • pp.1-10
    • /
    • 2004
  • A web robot is a software that has abilities of tracking and collecting web documents on the Internet(l), The performance scalability of recent web robots reached the limit CIS the number of web documents on the internet has increased sharply as the rapid growth of the Internet continues, Accordingly, it is strongly demanded to study on the performance scalability in searching and collecting documents on the web. 'Design of web robot based on Multi-Agent to speed up documents collection ' rather than 'Sequentially executing Web Robot based on the existing Fork-Join method' and the results of analysis on its performance scalability is presented in the thesis, For collection speedup, a Multi-Agent based web robot performs the independent process for inactive URL ('Dead-links' URL), which is caused by overloaded web documents, temporary network or web-server disturbance, after dividing them into each agent. The agents consist of four component; Loader, Extractor, Active URL Scanner and inactive URL Scanner. The thesis models a Multi-Agent based web robot based on 'Amdahl's Law' to speed up documents collection, introduces a numerical formula for collection speedup, and verifies its performance improvement by comparing data from the formula with data from experiments based on the formula. Moreover, 'Dynamic URL Partition algorithm' is introduced and realized to minimize the workload of the web server by maximizing a interval of the web server which can be a collection target.

  • PDF

웹2.0 기반 온라인 로봇교육 커뮤니티의 개발 (Development of an online robot education community based on Web 2.0)

  • 성영훈;하석운
    • 정보교육학회논문지
    • /
    • 제13권3호
    • /
    • pp.273-280
    • /
    • 2009
  • 인터넷은 지식정보화 사회의 새로운 커뮤니케이션 도구가 되면서 사람들 간의 정보 교류와 의사소통의 장으로 확장되고 있다. 최근 로봇교육기관들도 인터넷을 이용한 각자의 홈페이지들을 구축, 운영하면서 다양한 로봇관련 자료들을 제공하고 있다. 그러나 로봇교육기관 홈페이지들은 대부분 제한적인 검색기능과 일반적인 자료만 제공하고 있어 사용자들을 위한 유용한 로봇교육정보들과 교육활동들을 공유할 수 있는 기능은 미흡한 실정이다. 이에 로봇교육교사들과 사용자들을 위한 로봇교육소식제공, 로봇학습기능, 다양한 로봇교육경험의 공유, 실시간 정보교류를 할 수 있는 온라인 로봇교육 커뮤니티 시스템을 연구하였다.

  • PDF

다양한 형태의 웹 탐색도구의 이용자집단간 비교효용성 및 평가에 관한 연구 (The comparative effectiveness and evaluation study of user groups of the various web search tools)

  • 박일종;윤명순
    • 한국도서관정보학회지
    • /
    • 제31권1호
    • /
    • pp.87-114
    • /
    • 2000
  • The purpose of this study is offering appropriate system and training program to helf the system designer and the trainer in addition to analyze information use behavior about the web search tools and evaluate the estimated system by user groups. The results of the study are as follows $\circledS1$ It is desirable to consider age than other demographic variables in the case of web search tool. $\circledS2$ It is desirable to design Directory Search Tool in the case of web search tool which serves the student user group. $\circledS3$ An Intelligent Search Tool is more appropriate for the students who are using keyword search tool than any other tools. $\circledS4$ A discussion about standard classification of the web information should be accomplished soon because users feel confused in using web search tools due t o absence of standard mode of classification about classified item. $\circledS5$ Librarians need the cognition about data on internet s a source of information and need positive service and user training program about these information because student users hardly get help from librarians or library orientation for learning method to use web search tool. $\circledS6$ Internet use experience and years of computer use had effect on their use ability when using web search tool, whereas computer use experience, library use experience and Online Public Access Catalogs (OPAC) use experience had no effect on it. Especially, OPAC use experience had no effect on use ability of web search tool of student user group because student user groups had no information about internet and web search tool and they did not recognized the difference about search method between web search tool and OPAC. $\circledS7$In the case of web search tool, it si important to index the increasing web resource automatically by a searching robot. But in the case of student users, web search tool is much more needed to index by index expert due to the absence of ability about selecting and combining keyword.

  • PDF

자바스크립트 함수 처리가 가능한 분산처리 방식의 웹 수집 로봇의 설계 (Design of Web Searching Robot Engine Using Distributed Processing Method Application to Javascript Function Processing)

  • 김대유;남기효;김정태
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 춘계종합학술대회 A
    • /
    • pp.289-292
    • /
    • 2008
  • 기존의 웹 수집 로봇에서 처리하지 못하는 자바스크립트 함수 링크를 처리하기 위하여 인터넷 익스플로러의 "Active Script Engine"을 사용하였다. 또한 자바스크립트 함수 링크를 처리 하였을 경우 웹 수집 로봇의 수집량을 측정하기 위하여 웹 수집 로봇을 개발하였다. 웹 수집 로봇을 개발하기 위해서 구글봇과 네이봇 등 웹 수집 로봇의 구조를 파악하여, 수집 로봇에 활용되는 구성요소를 구현하고 분산처리형태의 웹 수집 로봇을 설계하여 개발했다. 또한 개발된 웹 로봇에 제안된 자바스크립트 처리 모델을 추가하여 성능 평가를 하였다. 성능평가 방법은 자바스크립트를 사용하는 웹사이트의 게시판을 대상으로 하여 웹 수집량을 비교 분석하는 것이다. 웹사이트 게시물 1000개인 경우, 일반 웹 로봇의 경우에는 1페이지밖에 수집하지 못하였고, 제안된 웹 로봇의 경우 1000개 이상의 웹 페이지를 수집하는 결과를 얻었다.

  • PDF