• 제목/요약/키워드: RSS Crawling

검색결과 4건 처리시간 0.016초

RSS를 이용한 실시간 상품정보 수집시스템의 설계 (System Design for Collecting Real-Time Product Information Using RSS)

  • 뭉크자야;고선우
    • 산업경영시스템학회지
    • /
    • 제35권1호
    • /
    • pp.1-9
    • /
    • 2012
  • It is well known that internet shoppers are very sensitive to sale prices. They visit the various shopping malls and collect the product information including purchase conditions for goods purchase decision-making. Recently the necessity of information support is increasing because of increase of information amount which is necessary and complexity of goods purchase decision-making process. The comparison shopping agent systems have provided price comparison information which is collected from various shopping malls to satisfy internet shoppers information craving. But the frequent price change caused by keen price competition is becoming the primary reason of information quality decline among price comparison sites. RSS which is a family of web feed formats used to publish frequently updated is applied even in on-line shopping malls. This paper develops a RSS product information collection system to get real-time product information. The proposed product information system consists of (1) web crawler module for searching RSS feed shopping malls automatically, (2) RSS reader module for parsing product information from RSS feed file, (3) product DB and (4) product searching module. Performance of the proposed system is higher than the comparison shopping agent systems when it is defined with the volume of collecting product information per unit time.

R2SS 기반의 정보검색 시스템 (Information Retrieval System for R2SS)

  • 홍석주;박영배
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.39-51
    • /
    • 2009
  • 본 논문은 $R^2SS$((Reverse Really Simple Syndication) 기반의 지능형 검색엔진의 설계 및 구현에 관한 것으로, 기존의 방식과 같이 사용자가 RSS 주소를 입력하여 제한된 RSS 정보를 받아보는 방식이 아니라, 사용자는 단순히 자신이 원하는 정보를 입력만 하면, 자동화된 RSS 주소수집서버가 수집한 수많은 RSS 주소들로부터 실시간으로 수집하는 RSS 규격 문서들 중 사용자가 원하는 규격 문서에 대한 RSS 정보만을 제공해줌으로써, 수많은 정보를 찾아 그 중 원하는 정보만 추려서 제공해주는 $R^2SS$ 구독(Reverse RSS Subscribe) 방식을 설계하는데 있다. 제안된 $R^2SS$ 기반 지능형 검색엔진을 통하여 양질의 정보를 찾아서 헤매는 시간을 획기적으로 줄일 수 있고 개인 비서를 두게 되는 효과를 얻을 수 있다.

상태 정보를 활용하여 악의적 사용자의 영향력을 최소화 하는 추천 알고리즘 (State Information Based Recommendation Algorithm for Minimizing the Malicious User's Influence)

  • 노태완;오하영;노기섭;김종권
    • 정보보호학회논문지
    • /
    • 제25권6호
    • /
    • pp.1353-1360
    • /
    • 2015
  • 최근 인터넷의 급성장과 함께 사용자들은 물건이나 영화, 음악 등을 구매 할 때 여러 가지 추천 사이트를 참고한다. 하지만 이러한 추천 사이트에는 악의적으로 아이템의 평점을 높이거나 낮추려는 악의적인 사용자 (Sybil)들이 존재하며, 결과적으로 추천시스템은 불완전하거나 부정확한 결과를 일반 사용자들에게 추천할 수 있다. 본 논문에서는 사용자 들이 생성하는 평점들을 안정상태 (stable state) 및 불안정상태 (unstable state)로 구분하고, 상태 정보를 활용하여 악의적 사용자의 영향력을 최소화 하는 추천 알고리즘을 제안한다. 제안하는 기법의 성능을 입증하기 위해 유명한 영화사이트에서 실제 데이터를 직접 수집 (crawling)하여 성능분석을 진행하였다. 성능분석결과 제안하는 기법의 성능이 기존 알고리즘 보다 향상됨을 확인하였다.

빅데이터 분석 서비스 지원을 위한 지능형 웹 크롤러 (Intelligent Web Crawler for Supporting Big Data Analysis Services)

  • 서동민;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제13권12호
    • /
    • pp.575-584
    • /
    • 2013
  • 빅데이터 분석을 위해 활용되는 데이터로는 뉴스, 블로그, SNS, 논문, 특허 그리고 센서로부터 수집된 데이터 등 매우 다양한 유형의 데이터가 있다. 특히, 신뢰성 있는 데이터를 실시간 제공하는 웹 문서의 활용이 점차 확산되고 있다. 그리고 빅데이터의 활용이 다양한 분야로 점차 확산되고 웹 데이터가 매년 기하급수적으로 증가하면서 웹 문서를 자동으로 수집하는 웹 크롤러의 중요성이 더욱 커지고 있다. 하지만, 기존 크롤러들은 일부 사이트에서 수집된 웹 문서에 포함된 URL만을 기반으로 웹 문서를 수집하기 때문에 사이트 전체 웹 문서를 수집할 수 없는 문제를 가진다. 또한, 수집된 웹 문서에 대한 정보를 효율적으로 관리하지 못하기 때문에 중복된 웹 문서를 수집하는 문제를 가진다. 그래서 본 논문에서는 웹 사이트의 RSS와 Google Search API를 통해 기존 웹 크롤러의 문제를 해결하고 RMI와 NIO을 활용해 서버와 클라이언트간 네트워크 연결을 최소화해 빠른 크롤링 기능을 제공하는 분산형 웹 크롤러를 제안한다. 또한, 제안하는 웹 크롤러는 웹 문서를 구성하는 태그들에 대한 키워드 유사도 비교를 통해, 분석에 활용되는 중요 콘텐츠만을 자동 추출하는 기능을 제공한다. 마지막으로, 기존 웹 크롤러와 제안하는 크롤러의 성능 평가 결과를 통해 제안하는 웹 크롤러의 우수성을 입증한다.