DOI QR코드

DOI QR Code

For creating a Dataset Image URI and Metadata Collection Web Crawler

데이터셋 생성을 위한 이미지 URI 및 메타데이터 수집 크롤러

  • Park, June-Hong (School of Information Technology Engineering, Daegu Catholic University) ;
  • Kim, Seok-Jin (School of Information Technology Engineering, Daegu Catholic University) ;
  • Jung, Yeon-Uk (School of Information Technology Engineering, Daegu Catholic University) ;
  • Lee, Dong-Uk (School of Information Technology Engineering, Daegu Catholic University) ;
  • Jeong, YoungJu (School of Information Technology Engineering, Daegu Catholic University) ;
  • Seo, Dong-Mahn (School of Information Technology Engineering, Daegu Catholic University)
  • 박준홍 (대구가톨릭대학교 IT 공학부) ;
  • 김석진 (대구가톨릭대학교 IT 공학부) ;
  • 정연욱 (대구가톨릭대학교 IT 공학부) ;
  • 이동욱 (대구가톨릭대학교 IT 공학부) ;
  • 정영주 (대구가톨릭대학교 IT 공학부) ;
  • 서동만 (대구가톨릭대학교 IT 공학부)
  • Published : 2019.10.30

Abstract

인공지능 학습에 대한 관심이 증가하면서 학습에 필요한 데이터셋 구축에 필요한 많은 양의 데이터가 필요하다. 데이터셋 구축에 필요한 데이터들을 효과적으로 수집하기 위한 키워드 기반 웹크롤러를 제안한다. 구글 검색 API 를 기반으로 웹 크롤러를 설계하였으며 사용자가 입력한 키워드를 바탕으로 이미지의 URI 와 메타데이터를 지속적으로 수집하는 크롤러이다. 수집한 URI 와 메타데이터는 데이터베이스를 통해 관리한다. 향후 다른 검색 API 에서도 동작하고 다중 쓰레드를 활용하여 크롤링하는 속도를 높일 예정이다.

Keywords