• 제목/요약/키워드: 크롤링 시스템

검색결과 73건 처리시간 0.028초

텍스트 마이닝 기반의 데이터 분석 웹 애플리케이션 (Data Analysis Web Application Based on Text Mining)

  • 길완제;김재웅;박구락;이윤열
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.103-104
    • /
    • 2021
  • 본 논문에서는 텍스트 마이닝 기반의 토픽 모델링 웹 애플리케이션 모델을 제안한다. 웹크롤링 기법을 활용하여 키워드를 입력하면 요약된 논문 정보를 파일로 저장할 수 있고 또한 키워드 빈도 분석과 토픽 모델링 등을 통해 연구 동향을 손쉽게 확인해볼 수 있는 웹 애플리케이션을 설계하고 구현하는 것을 목표로 한다. 제안 모델인 웹 애플리케이션을 통해 프로그래밍 언어와 데이터 분석 기법에 대한 지식이 부족하더라도 논문 수집과 저장, 텍스트 분석을 경험해볼 수 있다. 또한, 이러한 웹 시스템 개발은 기존의 html, css, java script와 같은 언어에 의존하지 않고 파이썬 라이브러리를 활용하였기 때문에 파이썬을 기반으로 데이터 분석과 머신러닝 교육을 수행할 경우 프로젝트 기반 수업 교육 과정으로 채택이 가능할 것으로 기대된다.

  • PDF

오픈소스 보안 취약점 및 패치 현황 실시간 알림 시스템 (OpenSource Security Vulnerability Real-Time Notification System)

  • 최지은;구예림;전선진;박우인;이병희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.135-137
    • /
    • 2020
  • 기업 내에서는 다양한 오픈소스를 활용하고 있다. 이런 환경에서 해당 오픈소스의 취약점 및 패치 현황을 실시간으로 제공하여 빠르게 대처하는 것이 중요하다. 먼저 기업 내에서 많이 사용하는 오픈소스를 조사한 후 Top 70 오픈소스를 선정하여 보안 취약점 및 패치 현황을 파악한다. 실제 크롤링을 통해 취약점을 수집한 후, 필요한 정보를 가공하여 웹 서비스로 시각화 하여 제공한다. 또한 취약점이 발생했을 때 기업에서는 실시간 메일 알람 서비스를 받아볼 수 있는 과정을 제시한다.

악성 URL 탐지 및 필터링 시스템 구현 (An Implementation of System for Detecting and Filtering Malicious URLs)

  • 장혜영;김민재;김동진;이진영;김홍근;조성제
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권4호
    • /
    • pp.405-414
    • /
    • 2010
  • 2008년도 SecruityFocus 자료에 따르면 마이크로소프트사의 인터넷 익스플로러를 통한 클라이언트 측 공격(client-side attack)이 50%이상 증가하였다. 본 논문에서는 가상머신 환경에서 능동적으로 웹 페이지를 방문하여 행위 기반(즉, 상태변경 기반)으로 악성 URL을 분석하여 탐지하고, 블랙리스트 기반으로 악성 URL을 필터링하는 시스템을 구현하였다. 이를 위해, 우선 크롤링 시스템을 구축하여 대상 URL을 효율적으로 수집하였다. 특정 서버에서 구동되는 악성 URL 탐지 시스템은, 수집한 웹페이지를 직접 방문하여 머신의 상태 변경을 관찰 분석하고 악성 여부를 판단한 후, 악성 URL에 대한 블랙리스트를 생성 관리한다. 웹 클라이언트 머신에서 구동되는 악성 URL 필터링 시스템은 블랙리스트 기반으로 악성 URL을 필터링한다. 또한, URL의 분석 시에 메시지 박스를 자동으로 처리함으로써, 성능을 향상시켰다. 실험 결과, 게임 사이트가 다른 사이트에 비해 악성비율이 약 3배 많았으며, 파일생성 및 레지스트리 키 변경 공격이 많음을 확인할 수 있었다.

Kingomanager: 추천시스템을 활용한 대학생 맞춤형 정보 제공 어플리케이션 개발 (Kingomanager: A Personalized Information-providing Application with a Recommendation System for University Students)

  • 강신규;김준우;박충현;구형준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.532-533
    • /
    • 2023
  • 대학 생활을 하면서 자신이 필요한 정보를 모두 챙기기는 쉽지 않다. 매번 학교 홈페이지나 관련 사이트에 접속하여 확인하는 것은 번거롭기도 하고 신입생의 경우에는 그런 정보의 존재조차 잘 모르는 경우가 많다. 때문에 이 논문에서는 웹 크롤링 방식을 통해 다양한 사이트에서 필요한 정보를 수집하고, 기계학습 모델 중 N-GCN을 기반으로 한 추천시스템을 이용하여 본인에게 맞는 추천과목, 동아리 모집공고, 학술대회, 채용공고 등의 정보를 제공해주는 Kingomanager를 소개한다. Kingomanager는 학생들의 학년, 관심분야를 고려해서 개개인별 맞춤 정보를 추천해준다. 추천 받은 정보들은 메신저 형태의 어플리케이션을 통해서 확인할 수 있고, 해당 정보들은 언제든지 다시 검색하여 다시 찾아볼 수 있다. 어플리케이션 구현에서 Front-end는 React-Native를 사용하였고, Back-end는 Flask와 AWS 서비스를 사용하였다. 본 논문에서는 성균관대학교 소프트웨어학과 학생을 대상으로 하는 프로토타입 어플리케이션을 개발했다.

컨볼루션 신경망과 전이 학습을 이용한 버섯 영상 인식 (Mushroom Image Recognition using Convolutional Neural Network and Transfer Learning)

  • 강은철;한영태;오일석
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권1호
    • /
    • pp.53-57
    • /
    • 2018
  • 독버섯 중독 사건이 종종 발생한다. 본 논문은 딥러닝 기술을 활용한 버섯 인식 시스템을 제안한다. 딥러닝 기법 중 하나인 컨볼루션 신경망을 사용하였다. 컨볼루션 신경망을 학습하기 위해 이미지 크롤링을 이용하여 38종의 버섯에 대해 1478장의 영상을 수집하였다. 수집한 데이터셋을 가지고 AlexNet, VGGNet, GoogLeNet을 비교 실험하였으며, 클래스 수 확장에 따른 비교 실험, 전이 학습을 사용한 비교실험을 하였다. 실험 결과 1순위 정확도는 82.63%, 5순위 정확도는 96.84%라는 성능을 얻었다.

반려동물 질병예측서비스 및 통합관리 어플리케이션 (Pet Disease Prediction Service and Integrated Management Application)

  • 표기두;이동영;정원세;권오준;한경숙
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.133-137
    • /
    • 2023
  • 본 논문에서는 반려동물 AI 진단, 동물병원 찾기, 스마트 가계부, 커뮤니티 기능을 하나로 모은 '반려동물 종합관리 어플리케이션'을 개발하였다. 해당 어플리케이션은 여러 기능을 각각의 다른 어플리케이션으로 사용해야 하는 사용자의 불편함을 해소할 수 있으며, 사진을 통해 쉽게 반려동물 AI 진단 서비스를 이용할 수 있고, 크롤링을 이용한 동물병원 정보 제공과 주변의 동물병원 찾기, OCR 텍스트 추출 기법으로 영수증을 스캔할 수 있는 스마트 가계부, 어플리케이션 사용자 간의 커뮤니티 기능을 지원한다. 본 어플리케이션을 사용함으로써 반려동물의 건강, 소비내역 등 양육에 필요한 정보를 하나의 시스템으로 관리할 수 있게 된다.

위성영상 상황판연계·표출시스템 적용 SNS 기반 주민참여 콘텐츠 개발 (Development of SNS-based resident participation contents using satellite image situation board linkage and display system)

  • 이상민;김은정;김미래
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.456-456
    • /
    • 2023
  • 본 연구에서는 위성영상 상황판연계·표출시스템 적용을 위한 SNS 주민참여 콘텐츠를 개발하고, 재난대응 표준위기관리절차 기반의 주민참여정보 활용방안을 제시하고자 하였다. 재난상황관리에 있어 SNS의 활용을 통한 주민참여 확대적용 방안을 모색하고자 재난 대비·대응 관련 공공 및 정부부처에서 활용 중인 SNS 채널을 조사하였으며, 상황관리에 SNS를 적용한 선행사례를 분석하였다. 이를 기반으로 SNS를 적용한 예방안전 및 피해복원 확대 적용 방안을 제시하였으며, 신속한 위기대응을 위한 보조적인 의사결정 지원도구로서의 콘텐츠를 제안하였다. 먼저, 예방안전 및 피해복원 확대 적용을 위해 SNS에 주민들이 작성한 게시글을 웹 크롤링과 데이터 마이닝을 통해 분석하여 재난 상황인지와 상황판단 및 피해범위 추정에 활용하는 방안을 제시하였고, 이를 상황판연계·표출시스템에서 표출하기 위한 예시화면을 설계하였다. 또한, 연구 1차년에 수행했었던 위성영상을 활용한 재난상황대응 표준위기관리절차 중 위성영상정보에 주민참여정보를 연계·중첩하여 재난의 전조감지 단계부터 확산양상 및 피해범위를 확인하고, 재난기록을 분석하여 추후 발생된 재난에 선제적으로 대비할 수 있는 방안을 제시하였다. 그러나, 주민참여 기반 SNS 콘텐츠 적용을 위한 우선 해결사항으로는 재난상황판단 시, 정보의 정확성과 신뢰성 측면에서 의사결정을 위한 보조도구로서 활용을 할 것인지에 대한 중앙재난안전상황실과의 충분한 협의가 필요하며, 상황실에서 해당 콘텐츠를 활용하게 될 경우, SNS 정보의 행정망 방화벽 허용가능여부에 대한 추가 분석설계가 필요한 상황이다. 이를 위해 금년 연구수행에서 상황실 실무자 수요조사를 통해 SNS 정보 활용에 대한 반영여부를 결정할 예정이다.

  • PDF

감염병 위기 대응을 위한 소셜 데이터 수집 및 적재 엔진 기반 신뢰도 분석 시스템 개발 (Development of Social Data Collection and Loading Engine-based Reliability analysis System Against Infectious Disease Pandemic)

  • 정두영;이상준;민경일;정석송;한현욱
    • 한국빅데이터학회지
    • /
    • 제7권2호
    • /
    • pp.103-111
    • /
    • 2022
  • 감염병 대응과 관련된 기관, 조직, 사이트 등의 다수 운영되고 있으나 코로나-19와 같은 팬더믹 상황이 수년간 지속됨에 따라 초기양상과 현재 양상의 수많은 변화가 있으며 이에 따른 정책과 대응체계도 진화하고 있다. 이에 따른 지역별 격차가 발생하고 정책에 대한 신뢰와 불신, 이행도에 따른 여러 가지 문제들이 산재해 있다. 따라서 본 연구에서는 정보전염이 포함된 소셜 데이터를 분석하는 과정에서 루머가 포함된 데이터를 수집하는 과정에서 팩트 체크가 되는 언론 매체와 다르게 정확한 출처를 알 수 없는 부정확한 정보들이 포함되는 주요 소셜 미디어 플랫폼 중의 하나인 트위터 데이터를 수집하여 사실과 무관한 내용을 사전 차단하는 시스템을 개발했다. 비정형데이터인 소셜데이터를 기반으로 감염병 위협을 자동 감지할 수 있는 알고리즘을 개발하여 감염병 위기 대응과 관련된 객관적인 근거를 창출함으로써 관련 분야 국제경쟁력을 공고히 하고자 한다.

영화 흥행과 관련된 영화별 특성에 대한 군집분석 : 웹 크롤링 활용 (Clustering Analysis of Films on Box Office Performance : Based on Web Crawling)

  • 이재일;전영호;하정훈
    • 산업경영시스템학회지
    • /
    • 제39권3호
    • /
    • pp.90-99
    • /
    • 2016
  • Forecasting of box office performance after a film release is very important, from the viewpoint of increase profitability by reducing the production cost and the marketing cost. Analysis of psychological factors such as word-of-mouth and expert assessment is essential, but hard to perform due to the difficulties of data collection. Information technology such as web crawling and text mining can help to overcome this situation. For effective text mining, categorization of objects is required. In this perspective, the objective of this study is to provide a framework for classifying films according to their characteristics. Data including psychological factors are collected from Web sites using the web crawling. A clustering analysis is conducted to classify films and a series of one-way ANOVA analysis are conducted to statistically verify the differences of characteristics among groups. The result of the cluster analysis based on the review and revenues shows that the films can be categorized into four distinct groups and the differences of characteristics are statistically significant. The first group is high sales of the box office and the number of clicks on reviews is higher than other groups. The characteristic of the second group is similar with the 1st group, while the length of review is longer and the box office sales are not good. The third group's audiences prefer to documentaries and animations and the number of comments and interests are significantly lower than other groups. The last group prefer to criminal, thriller and suspense genre. Correspondence analysis is also conducted to match the groups and intrinsic characteristics of films such as genre, movie rating and nation.

자연어처리와 기계학습을 통한 우울 감정 분석과 인식 (Analysis and Recognition of Depressive Emotion through NLP and Machine Learning)

  • 김규리;문지현;오유란
    • 문화기술의 융합
    • /
    • 제6권2호
    • /
    • pp.449-454
    • /
    • 2020
  • 본 논문에서는 SNS에 게시된 글의 내용을 통해 사용자의 우울함을 검출하는 기계학습 기반 감성 분석 시스템을 제안한다. 게시한 글의 작성자가 기분을 파악하는 시스템을 구현하기 위해 먼저 감정 사전에서 우울한 감정의 단어와 그렇지 않은 감정과 관련된 단어를 목록화하였다. 그 후, SNS를 대표하는 서비스 중 하나인 트위터의 텍스트 자료에서 검색 키워드를 선정하고 크롤링을 시행하여 우울한 감정을 띤 문장 1297개와 그렇지 않은 문장 1032개로 이뤄진 학습 데이터셋을 구축하였다. 마지막으로 텍스트 기반 우울감 검출 목적에 가정 적합한 기계학습 모델을 찾기 위해 수집한 데이터셋을 바탕으로 순환신경망, 장단기메모리, 그리고 게이트 순환 유닛을 비교 평가하였고, 그 결과 GRU 모델이 다른 모델들보다 2~4%가량의 높은 92.2%의 정확도를 보임을 확인하였다. 이 연구 결과는 SNS상의 게시글을 토대로 사용자의 우울증을 예방하거나 치료를 유도하는 데 활용될 수 있을 것이다.