• Title/Summary/Keyword: 크롤링 시스템

검색결과 73건 처리시간 0.033초

악성코드 탐지 시스템 Web-Anti-Malware (Web-Anti-MalWare Malware Detection System)

  • 정승일;김현우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.365-367
    • /
    • 2014
  • 최근 웹 서비스의 증가와 악성코드는 그 수를 판단 할 수 없을 정도로 빠르게 늘어나고 있다. 매년 늘어나는 악성코드는 금전적 이윤 추구가 악성코드의 주된 동기가 되고 있으며 이는 공공기관 및 보안 업체에서도 악성코드를 탐지하기 위한 연구가 활발히 진행되고 있다. 본 논문에서는 실시간으로 패킷을 분석할수 있는 필터링과 웹 크롤링을 통해 도메인 및 하위 URL까지 자동적으로 탐지할 수 있는 악성코드 탐지 시스템을 제안한다.

  • PDF

크롤링을 이용한 채용정보 SNS 시스템 (Recruitment information SNS system using crawling)

  • 허태성;박재현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.467-468
    • /
    • 2021
  • 본 논문에서는 자료수집(데이터 크롤링)을 이용해 많은 채용정보를 쉽게 접근할 수 있도록 하는 시스템이다. 현재는 StackOverflow의 자료를 수집하고 데이터베이스에 자동으로 저장하도록 하였다. 수집해야 할 자료가 많아 Celery와 RabbitMQ를 사용하여 비동기 작업을 요청하여 즉시 응답을 받지 않아도 다른 일을 수행할 수 있다. 이렇게 수집한 자료들을 해당 사이트에 나열해줌으로 사용자들이 시간과 비용을 절감하여 효율적인 취업 준비를 할 수 있도록 하는 시스템을 설계 구현하였다.

  • PDF

그래프 탐색 기법을 이용한 효율적인 웹 크롤링 방법들 (Effective Web Crawling Orderings from Graph Search Techniques)

  • 김진일;권유진;김진욱;김성렬;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권1호
    • /
    • pp.27-34
    • /
    • 2010
  • 웹 크롤러는 웹에서 링크를 따라다니며 웹 페이지들을 자동으로 다운로드하는 프로그램으로 주로 웹 환경을 연구하거나 검색 엔진을 만들기 위해 사용된다. 기존의 연구들에서는 웹 크롤러가 인기 있는 웹 페이지들을 먼저 크롤링 할 수 있도록 몇 가지 방법들이 제안되었으나 그래프 이론 분야에서 연구되어 온 몇몇 그래프 탐색 기법들은 아직 웹 크롤링 방법으로 고려되지 않았다. 이 논문에서는 잘 알려진 너비 우선 탐색, 깊이 우선 탐색 뿐 아니라 사전식 너비 우선 탐색, 사전식 깊이 우선 탐색 및 최대 크기 탐색을 웹 크롤링 방법으로 고려하여 이 중에서 선형적인 시간복잡도를 가지면서도 인기 있는 웹 페이지를 효율적으로 수집할 수 있는 웹 크롤링 방법을 찾는다. 특히 선형 구현이 단순하지 않은 최대 크기 탐색과 사전식 너비 우선 탐색에 대해서는 분할 정제 방법을 이용한 선형 시간 웹 크롤링 방법을 제시한다. 실험 결과는 최대 크기 탐색이 다른 그래프 탐색 방법에 비해 시간 복잡도 및 크롤링 된 페이지들의 질에 있어서 바람직한 성질을 가짐을 보여준다.

신뢰성 유지를 위한 이벤트 기반 실시간 웹크롤러의 설계 및 구현 (Design and Implementation of Event-driven Real-time Web Crawler to Maintain Reliability)

  • 안용학
    • 한국융합학회논문지
    • /
    • 제13권4호
    • /
    • pp.1-6
    • /
    • 2022
  • 웹 크롤링 데이터를 이용한 실시간 시스템은 원격지의 데이터와 동일한 데이터베이스의 데이터를 사용자에게 제공해야 하며, 이를 위해서 웹 크롤러는 원격지 데이터의 변경 여부를 확인하기 위해 원격 서버에 반복적인 HTTP(HyperText Transfer Protocol) 요청을 수행해야 한다. 이 과정은 크롤링 서버와 원격 서버의 네트워크 부하를 일으키며 과도한 트래픽 발생 등의 문제의 원인이 된다. 이러한 문제점을 해결하기 위해 본 논문에서는 사용자 이벤트를 기반으로 크롤링 서버의 데이터와 다중 원격지 데이터와의 동일성을 유지하는 신뢰성을 확보함과 동시에 네트워크의 과부하를 줄일 수 있는 실시간 웹 크롤링 기법을 제안한다. 제안된 방법은 단위 데이터와 목록 데이터를 요청하는 이벤트를 기반으로 크롤링 프로세스를 수행한다. 실험 결과, 제안된 방법은 기존 웹 크롤러에서의 네크워크 트래픽 과부하를 줄이면서 데이터의 신뢰성을 확보할 수 있음을 확인하였다. 향후에는 이벤트 기반 크롤링과 시간 기반 크롤링에 대한 융합에 대한 연구가 필요하다.

크롤링을 통한 반응형웹 기반의 바이러스 정보 시스템 (Responsive web based Virus Information Sytem using Crawling)

  • 허태성;백재원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.269-270
    • /
    • 2020
  • 코로나 사태 이후에도 세상은 수많은 바이러스가 유행하게 될 것이다. 수많은 질병에서 필요한 것은 정보이고 이러한 정보를 얻기 위해서 사람들은 많은 사이트를 찾아다니며 정보를 검색하는 데 시간을 소비하고 원하는 정보를 빠르게 찾을 수 없다. 이러한 문제를 해결하고자 현재 유행하고 있는 질병 현황 정보, 시도별 현황 정보, 마스크 판매처 위치 및 재고, 바이러스 감염자 방문 기록을 확인할 수 있는 등 바이러스 정보를 짧은 시간에 사용자가 원하는 정보를 한 눈에 확인할 수 있도록 각종 사이트에서 데이터를 크롤링하여 가공하여 필요한 정보를 제공하는 반응형웹 시스템을 개발하였다.

  • PDF

실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현 (Design and Implemention of Real-time web Crawling distributed monitoring system)

  • 김영아;김계희;김현주;김창근
    • 융합정보논문지
    • /
    • 제9권1호
    • /
    • pp.45-53
    • /
    • 2019
  • 급변하는 정보화 시대에서 웹사이트에 서비스되는 정보 과잉에 대한 문제들을 접하곤 한다. 정보가 많아도 쓸모 있는 정보는 없고, 필요한 정보를 선택하는데 불필요한 시간이 많이 소비 된다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링을 한다. 웹 크롤링은 대부분 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며 검색 엔진은 이렇게 생성된 페이지를 더욱 빠른 검색을 위해 인덱싱 한다. 많은 데이터 중에 정보가 실시간으로 변경되는 도매정보, 주문정보 등의 제한된 웹 데이터 수집은 일반적인 주제 중심의 웹 데이터 수집으로 무리가 있다. 현재 제한적 웹 정보를 실시간으로 수집하고 저장하는 방법에 대한 대안이 제시되고 있지 않다. 본 논문에서는 제한된 웹 사이트의 정보를 수집하고, 데이터의 상세분석을 통한 수집 시간 예측과 분류 작업을 통해 병렬 시스템에 저장하는 웹 크롤링 분산 모니터링 시스템(R-WCMS)을 제안한다. 실험 결과 웹 사이트 정보 검색을 제안모델에 적용하여 15-17% 시간이 감소됨을 입증했다.

기계학습을 이용한 동작인식 동영상 검색시스템 제안 (A Proposal of Motion Recognition-based Video Search System using Machine Learning)

  • 서원성;이강희
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.463-464
    • /
    • 2019
  • 본 논문은 기계학습을 기반으로 아두이노와 시리얼통신을 통한 사용자의 동작인식을 이용해 보다 간단하게 인터넷상의 원하는 동영상을 찾을 수 있는 검색시스템을 제작하고자 하였다. 이 검색시스템은 Python을 기반으로 SVM(Support Vector Machine)을 이용한 패턴 분류를 사용하였으며 이를 통해 사용자의 동작을 입력받아 문자를 예측 할 수 있다. 사용자는 이 검색시스템을 사용하기 위하여 우선 문자에 대한 사용자의 동작입력을 통해 학습 데이터 셋을 만들어야 하며 그것을 SVM을 이용하여 학습 모델과 식별자를 만들고, 만들어진 분류기를 통하여 동작인식을 바탕으로 문자의 결과를 예측 할 수 있다. 최종적으로 사용자의 동작인식을 거쳐 만들어진 문자열을 이용해 인터넷 동영상 사이트인 Youtube를 통해 웹 크롤링하여 문자열과 관련 있는 동영상을 찾아준다.

  • PDF

환자 증상정보 기반 희귀질환 조기 발견 보조시스템 (Early Detection Assistance System for Rare Diseases based on Patient's Symptom Information)

  • 최재민;김선용
    • 한국전자통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.373-378
    • /
    • 2023
  • 희귀질환은 증상이 전형적이지 않고 진단정보가 부족하여 전문의들조차 증상을 기반으로 질환을 의심하거나 질환명을 떠올리는 데에 어려움을 겪는다. 따라서 증상이 시작한 시점에서부터 정확한 진단을 받기까지 많은 시간 및 비용이 발생하며, 이는 환자의 신체적, 정신적, 경제적 부담을 심각하게 초래한다. 환자의 증상정보를 통해 의심되는 희귀질환을 제시하여 의사의 진단에 활용할 수 있도록, 본 논문에서는 웹 크롤링 및 텍스트마이닝을 활용한 희귀질환 조기 발견 보조시스템을 제안하고 이를 구현한다.

SW 코딩교육에서의 학습분석기반 플립러닝의 학습효과 (Learning Effects of Flipped Learning based on Learning Analytics in SW Coding Education)

  • 피수영
    • 디지털융복합연구
    • /
    • 제18권11호
    • /
    • pp.19-29
    • /
    • 2020
  • 본 연구는 비전공자 학생들 대상으로 효과적인 프로그래밍 학습이 가능하도록 학습 분석을 활용한 플립러닝 교수법의 효과성을 살펴보고자 한다. ADDIE모형을 적용한 플립러닝 프로그래밍 수업모형을 설계한 후 본교에서 운영하고 있는 강의지원시스템의 학습관련 자료를 크롤링하였다. 크롤링 자료를 교수자가 쉽게 이해할 수 있도록 대시보드로 제공하여 교수자는 이를 바탕으로 수업을 보다 효율적으로 설계하여 개별 맞춤 학습이 가능하도록 하였다. 한 학기 수업을 통해 수집된 학습관련 데이터를 바탕으로 분석한 결과 학과, 학년, 출결여부, 과제제출 여부, 예/복습 수강여부가 학업성취도에 영향을 미치는 것으로 나타났으며, 설문 분석결과 학습 분석을 통한 교수자의 개별화된 피드백이 자기주도적 학습에 많은 도움이 되었다고 응답하였다. 본 연구는 학습자의 학습을 촉진시키고 교수자는 교수활동을 개선할 수 있는 기틀을 마련해 주는 계기가 될 것으로 기대한다. 향후 학습자들의 학습과 관련된 소셜네트워크서비스의 내용도 크롤링하여 학습자들의 학습상황을 분석하고자 한다.

소셜 빅데이터 마이닝 기반 실시간 랜섬웨어 전파 감지 시스템 (Real-Time Ransomware Infection Detection System Based on Social Big Data Mining)

  • 김미희;윤준혁
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권10호
    • /
    • pp.251-258
    • /
    • 2018
  • 파일을 암호화시켜 몸값을 요구하는 악성 소프트웨어인 랜섬웨어는 빠른 전파력과 지능화로 더욱 위협적이 되고 있다. 이에 빠른 탐지 및 위험 분석이 요구되고 있지만, 실시간 분석 및 보고가 미비한 상태이다. 본 논문에서는 실시간 분석이 가능하도록 소셜 빅데이터 마이닝 기술을 활용하여 랜섬웨어 전파 감지 시스템을 제안한다. 본 시스템에서는 트위터 스트림을 실시간 분석하여 랜섬웨어와 관련된 키워드를 가진 트윗을 크롤링한다. 또한 뉴스피드 분석기를 통해 뉴스서버를 크롤링하여 랜섬웨어 관련 키워드를 추출하고, 보안업체의 서버나 탐색 엔진을 통해 뉴스나 통계데이터를 추출한다. 수집된 데이터는 데이터 마이닝 알고리즘으로 랜섬웨어 감염 정도를 분석한다. 2017년 전파가 많이 되었던 워너크라이와 록키 랜섬웨어 감염전파 시 관련 트윗의 수와 구글 트렌드(통계 정보) 정보, 관련 기사를 비교하여 트윗을 이용한 본 시스템의 랜섬웨어 감염 탐지 가능성을 보이고, 엔트로피와 카이-스퀘어 분석을 통해 제안 시스템 성능을 보인다.