DOI QR코드

DOI QR Code

Design and Implemention of Real-time web Crawling distributed monitoring system

실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현

  • Kim, Yeong-A (Department of Computer Science & Engineering, GNTECH) ;
  • Kim, Gea-Hee (Department of Computer Science & Engineering, GNTECH) ;
  • Kim, Hyun-Ju (Department of Computer Science & Engineering, GNTECH) ;
  • Kim, Chang-Geun (Department of Computer Science & Engineering, GNTECH)
  • 김영아 (경남과학기술대학교 컴퓨터공학과) ;
  • 김계희 (경남과학기술대학교 컴퓨터공학과) ;
  • 김현주 (경남과학기술대학교 컴퓨터공학과) ;
  • 김창근 (경남과학기술대학교 컴퓨터공학과)
  • Received : 2018.11.05
  • Accepted : 2019.01.20
  • Published : 2019.01.28

Abstract

We face problems from excessive information served with websites in this rapidly changing information era. We find little information useful and much useless and spend a lot of time to select information needed. Many websites including search engines use web crawling in order to make data updated. Web crawling is usually used to generate copies of all the pages of visited sites. Search engines index the pages for faster searching. With regard to data collection for wholesale and order information changing in realtime, the keyword-oriented web data collection is not adequate. The alternative for selective collection of web information in realtime has not been suggested. In this paper, we propose a method of collecting information of restricted web sites by using Web crawling distributed monitoring system (R-WCMS) and estimating collection time through detailed analysis of data and storing them in parallel system. Experimental results show that web site information retrieval is applied to the proposed model, reducing the time of 15-17%.

급변하는 정보화 시대에서 웹사이트에 서비스되는 정보 과잉에 대한 문제들을 접하곤 한다. 정보가 많아도 쓸모 있는 정보는 없고, 필요한 정보를 선택하는데 불필요한 시간이 많이 소비 된다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링을 한다. 웹 크롤링은 대부분 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며 검색 엔진은 이렇게 생성된 페이지를 더욱 빠른 검색을 위해 인덱싱 한다. 많은 데이터 중에 정보가 실시간으로 변경되는 도매정보, 주문정보 등의 제한된 웹 데이터 수집은 일반적인 주제 중심의 웹 데이터 수집으로 무리가 있다. 현재 제한적 웹 정보를 실시간으로 수집하고 저장하는 방법에 대한 대안이 제시되고 있지 않다. 본 논문에서는 제한된 웹 사이트의 정보를 수집하고, 데이터의 상세분석을 통한 수집 시간 예측과 분류 작업을 통해 병렬 시스템에 저장하는 웹 크롤링 분산 모니터링 시스템(R-WCMS)을 제안한다. 실험 결과 웹 사이트 정보 검색을 제안모델에 적용하여 15-17% 시간이 감소됨을 입증했다.

Keywords

JKOHBZ_2019_v9n1_45_f0001.png 이미지

Fig. 1. Domestic data solution market share

JKOHBZ_2019_v9n1_45_f0002.png 이미지

Fig. 2. Architecture of web crawler

JKOHBZ_2019_v9n1_45_f0003.png 이미지

Fig. 3. Typical Web Crawl algorithm

JKOHBZ_2019_v9n1_45_f0004.png 이미지

Fig. 4. Architecture of Apache Kafka

JKOHBZ_2019_v9n1_45_f0005.png 이미지

Fig. 5. Architecture of R-WCMS Agent

JKOHBZ_2019_v9n1_45_f0006.png 이미지

Fig. 6. Product Listing Page URL Pattern

JKOHBZ_2019_v9n1_45_f0007.png 이미지

Fig. 7. Product detail page URL pattern

JKOHBZ_2019_v9n1_45_f0008.png 이미지

Fig. 8. Messages to the R-WCMS Manager

JKOHBZ_2019_v9n1_45_f0009.png 이미지

Fig. 9. Architecture of R-WCMS Manager

JKOHBZ_2019_v9n1_45_f0010.png 이미지

Fig. 10. Find messages in the R-WCMS

JKOHBZ_2019_v9n1_45_f0011.png 이미지

Fig.11. Real-time behavioral model

JKOHBZ_2019_v9n1_45_f0012.png 이미지

Fig. 12. Code List Web Crawling

JKOHBZ_2019_v9n1_45_f0013.png 이미지

Fig. 13. Estimate update time of R-WCMS

JKOHBZ_2019_v9n1_45_f0014.png 이미지

Fig. 14. The accuracy of seached data within the same time frame

JKOHBZ_2019_v9n1_45_f0015.png 이미지

Fig. 15. The time it took to process the updated search data

Table 1. The Performance data

JKOHBZ_2019_v9n1_45_t0001.png 이미지

Table. 2 Equation parameter

JKOHBZ_2019_v9n1_45_t0002.png 이미지

Table 3. The OSS Ver. and OSS List

JKOHBZ_2019_v9n1_45_t0003.png 이미지

References

  1. K. Y. Kim, W. Lee, M. H. Lee, H.M.Yoon & S. H. Shin(2011). Development of Web Crawler for Archiving Web Resources, International J ournal of contents, 11(9), 9-16. DOI : 10.5392/JKDA
  2. J. h. Cho & H. Garcia-Molina. (2009), Parallel crawlers , Proceedings of the 11th international conference on World Wide Web. Honolulu, Hawaii, USA:ACM. pp.(124-135). DOI :10.1145/511446.511464.ISBN
  3. H. J. Kim, J. Y Lee & S. S Shin. (2017), Multi-threaded Web Crawling Design using Queues. Journal of Convergence for Information Technology, 7(2) , 43-51. https://doi.org/10.14801/jaitc.2017.7.2.43
  4. H. J. Mun. (2015). Polling Method based on Weight Table for Efficient Monitoring. Journal of Convergence for Information Technology, 5(4), 5-10. https://doi.org/10.22156/CS4SMB.2015.5.4.005
  5. Olston, Christopher. et al. (2010). Foundations and Trends(R) in Information Retrieval, 4(3), 17. DOI : 10.1561/1500000017
  6. Y. S. Jeong. (2015). Business Process Model for Efficient SMB using Big Data. Journal of Convergence for Information Technology, 5(4) , 11-16. https://doi.org/10.22156/CS4SMB.2015.5.4.011
  7. J. H. Ku. (2018). A Study on Adaptive Learning Model for Performance Improvement of Stream Analytics. Journal of Convergence for Information Technology, 8(1), 201-206. https://doi.org/10.22156/CS4SMB.2018.8.1.201
  8. G. Pant & F. Menczer. (2002). MySpiders: Evolve your own intelligent Web crawlers. Autonomous Agents and Multi-Agent Systems 5(2), 221-229. https://doi.org/10.1023/A:1014853428272
  9. E. J. Shin, Y. R. Kim, H. S. Heo & K. Y. Whang. (2008). Implementation of a Parallel Web Crawler for the Odysseus Large-Scale Search Engine. Journal of Computing Science and Engineering, 14(6) , 567-581.
  10. M. Zaharia, M. Chowdhury, M. J. Franklin. (2010). Scott Shenker, and Ion Stoica, Spark: Cluster Computing with Working Set. Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing, 10(10-10), 95.
  11. Kafka. https://kafka.apache.org/intro