• 제목/요약/키워드: web crawler

검색결과 102건 처리시간 0.025초

RSS를 이용한 실시간 상품정보 수집시스템의 설계 (System Design for Collecting Real-Time Product Information Using RSS)

  • 뭉크자야;고선우
    • 산업경영시스템학회지
    • /
    • 제35권1호
    • /
    • pp.1-9
    • /
    • 2012
  • It is well known that internet shoppers are very sensitive to sale prices. They visit the various shopping malls and collect the product information including purchase conditions for goods purchase decision-making. Recently the necessity of information support is increasing because of increase of information amount which is necessary and complexity of goods purchase decision-making process. The comparison shopping agent systems have provided price comparison information which is collected from various shopping malls to satisfy internet shoppers information craving. But the frequent price change caused by keen price competition is becoming the primary reason of information quality decline among price comparison sites. RSS which is a family of web feed formats used to publish frequently updated is applied even in on-line shopping malls. This paper develops a RSS product information collection system to get real-time product information. The proposed product information system consists of (1) web crawler module for searching RSS feed shopping malls automatically, (2) RSS reader module for parsing product information from RSS feed file, (3) product DB and (4) product searching module. Performance of the proposed system is higher than the comparison shopping agent systems when it is defined with the volume of collecting product information per unit time.

간호사 괴롭힘 관련 인터넷 포털 기사에 대한 댓글의 의미연결망 분석 (Semantic Network Analysis about Comments on Internet Articles about Nurse Workplace Bullying)

  • 김창희;문성미
    • 임상간호연구
    • /
    • 제25권3호
    • /
    • pp.209-220
    • /
    • 2019
  • Purpose: A significant amount of public opinion about nurse bullying is expressed on the internet. The purpose of this study was to analyze the linkage structures among words extracted from comments on internet articles related to nurse workplace bullying using semantic network analysis. Methods: From February 2018 to April 2019, comments made on news articles posted to the Daum and Naver web portal containing keywords such as "nurse", "Taeum", and "bullying" were collected using a web crawler written in Python. A morphological analysis performed with Open Korean Text in KoNLPy generated 54 major nodes. The frequencies, eigenvector centralities, and betweenness centralities of the 54 nodes were calculated and semantic networks were visualized using the UCINET and NetDraw programs. Convergence of iterated correlations (CONCOR) analysis was performed to identify structural equivalence. Results: This paper presents results about March 2018 and January 2019 because these months had highest number of articles. Of the 54 major nodes, "nurse", "hospital", "patient", and "physician" were the most frequent and had the highest eigenvector and betweenness centralities. The CONCOR analysis identified work environment, nurse, gender, and military clusters. Conclusion: This study structurally explored public opinion about nurse bullying through semantic network analysis. It is suggested that various studies on nursing phenomena will be conducted using social network analysis.

도서관 웹사이트의 하이퍼링크 네트워크 분석 (A Study on the Hyperlink Network Analysis of Library Web Sites)

  • 노윤주;김성희
    • 한국비블리아학회지
    • /
    • 제28권2호
    • /
    • pp.99-117
    • /
    • 2017
  • 본 연구는 국내 도서관 유형별 웹사이트의 하이퍼링크 네트워크 구조분석을 위하여 총 32개 웹사이트의 하이퍼링크를 실증적으로 분석하였다. 크롤러를 이용하여 하이퍼링크 데이터를 수집한 후, 도서관 유형별 웹사이트를 대상으로 네트워크 내에서 나타나는 전체적인 특성과 도서관이 특히 집중하고 있는 웹사이트가 무엇인지, 중심성 값이 높은 도서관 웹사이트는 어디인지를 다양한 측면에서 분석을 시도하였다. 그 결과 첫째, 분석 대상 전체 도서관 중 연세대학교 학술정보원 웹사이트가 연결정도중심성, 매개중심성, 근접중심성, 아이겐벡터중심성 값이 가장 높게 나타났다. 둘째, 도서관 유형별로 살펴보면, 국가도서관은 국립세종도서관, 공공도서관은 서울도서관, 대학도서관은 연세대학교 학술정보원 웹사이트가 네트워크 내에서 상대적으로 영향력 있는 것으로 나타났다. 이러한 분석 결과를 토대로 앞으로 도서관 웹사이트의 효율성과 효과성을 제고시키기 위한 운영 전략 수립에 기초 자료로 활용할 수 있을 것이다.

웹 사전 크롤링을 이용한 데이터베이스 메타데이터 표준화 처리 모델 (Database metadata standardization processing model using web dictionary crawling)

  • 정하나;박구락;정영석
    • 디지털융복합연구
    • /
    • 제19권9호
    • /
    • pp.209-215
    • /
    • 2021
  • 데이터 품질 관리는 최근 중요한 이슈로 자리잡았다. 데이터베이스의 메타데이터 표준화는 데이터 품질관리 방안 중 하나이다. 본 연구에서는 일관된 메타데이터 관리를 위하여 표준단어사전 관리를 지원하는 알고리즘을 제시한다. 해당 알고리즘은 웹 사전 크롤링을 통해 데이터베이스 메타데이터의 동의어 관리 자동화를 지원한다. 또한 웹 사전 크롤링 과정에서 생길 수 있는 동음이의어 판별 이슈를 해결하여 데이터의 정확도를 향상시킨다. 본 연구에서 제안하는 알고리즘은 기존의 수동적 관리에 비해 메타데이터 데이터 품질의 신뢰도를 높인다. 또한 이음동의어 데이터 등록 및 관리에 소비되는 시간을 단축시킬 수 있다. 새로운 데이터 표준화 부분 자동화 모델에 대한 추가 연구는 향후 데이터 표준화 프로세스에서 자동화 가능한 작업을 파악하여 진행되어야 한다.

웹 크롤러를 이용한 개인정보보호의 기술적 관리 체계 설계와 해석 (Design and Analysis of Technical Management System of Personal Information Security using Web Crawer)

  • 박인표;전상준;김정호
    • Journal of Platform Technology
    • /
    • 제6권4호
    • /
    • pp.69-77
    • /
    • 2018
  • 개인정보가 포함되어있는 개인정보파일의 경우 개인용 PC 및 스마트 단말기, 개인 저장 장치 등 End-Point 영역에서의 개인정보보호에 대한 의식은 미흡한 실정이다. 본 연구는 웹 크롤러를 통해 생성된 개인정보파일을 안전하게 검색하기 위해 Diffie-Hellman 기법을 이용하여 사용자 키 레벨을 부여하였다. 개인정보파일에 대한 공격을 대비는 SEED와 ARIA를 하이브리드(hybrid)한 슬라이싱(slicing)을 이용하여 설계하였다. 웹 크롤링 방법에 수집된 개인정보파일에 대한 암호화 성능은 키 생성에 따른 암복호화 속도, 사용자 키 레벨에 따른 암복호화 공유를 비교 하였다. 이에 대한 시뮬레이션은 대외기관 전송 프로세스를 대상으로 전달된 개인정보파일에 수행하였다. 그 결과 기존 방법의 성능을 비교하여 기존보다 검출은 4.64배의 향상됨과 동시에 정보보호율은 18.3%가 개선됨을 확인할 수 있었다.

웹 말뭉치에 대한 문장 필터링 데이터 셋 구축 방법 (Sentence Filtering Dataset Construction Method about Web Corpus)

  • 남충현;장경식
    • 한국정보통신학회논문지
    • /
    • 제25권11호
    • /
    • pp.1505-1511
    • /
    • 2021
  • 자연어 처리 분야 내 다양한 작업들에서 높은 성능을 보인 사전 학습된 모델은 대량의 말뭉치를 이용하여 문장들의 언어학적 패턴을 스스로 학습함으로써 입력 문장 내 각 토큰들을 적절한 특징 벡터로 표현할 수 있다는 장점을 갖고 있다. 이러한 사전 학습된 모델의 학습에 필요한 말뭉치를 구축하는 방법 중 웹 크롤러를 이용하여 수집한 경우 웹사이트에 존재하는 문장은 다양한 패턴을 갖고 있기 때문에 문장의 일부 또는 전체에 불필요한 단어가 포함되어 있을 수 있다. 본 논문에서는 웹으로부터 수집한 말뭉치에 대해 신경망 모델을 이용하여 불필요한 단어가 포함된 문장을 필터링하기 위한 데이터 셋 구축 방법에 대해 제안한다. 그 결과, 총 2,330개의 문장을 포함한 데이터 셋을 구축하였다. 또한 신경망 모델을 이용하여 구축한 데이터 셋을 학습시켜 성능을 평가하였으며, BERT 모델이 평가 데이터에 대해 93.75%의 정확도로 가장 높은 성능을 보였다.

모바일 웹 크롤링과 GPS를 이용한 지역 뉴스레이터 설계 및 구현 (Design and Implementation for Local Newsletter Using Mobile Web crawler and GPS)

  • 정동유;김용태;박근용;신재식;박은주;임한규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.152-155
    • /
    • 2017
  • 본 논문은 지역에 관심이 많은 사용자들이 실시간으로 모바일 웹페이지 형태의 뉴스를 제공 받을 수 있는 시스템을 설계하고 이를 제작하였다. 사용자는 실시간으로 본인이 위치한 지역을 대상으로 종합되어지는 뉴스를 모바일 웹페이지 형태의 오브젝트로 제공받는다. 본 연구를 통해 지역 관심도 향상 및 지역 개발 촉진 및 관광시설 피드백 활성화 효과의 기대가 가능하다.

문화에 따른 개방형 협업 지식공유 활동 비교 연구: 집단주의 문화와 개인주의 문화를 중심으로 (Cross-cultural Study on Knowledge Sharing in Open Collaboration: Collectivism vs. Individualism)

  • 백현미;이새롬
    • 지식경영연구
    • /
    • 제19권2호
    • /
    • pp.133-150
    • /
    • 2018
  • To cope with the rapid changes in the corporate environment, the creation of innovative output through various forms of collaboration have been discussed. For open collaborations, contributors who distribute to various countries and cultures are able to share knowledge via the internet without physical rewards or responsibilities. In this study, we focused on the open source software project, which is a representative open collaboration. We investigated the factors that affect the knowledge contribution of developers of various countries within the open collaboration platform. Specifically, we investigated the open collaborative nature of multi-culture developers by dividing cultures according to collectivism and individualism. We collected data on 26,604 developers using a python based web crawler for GitHub which is an open source software development platform, and conducted cross-cultural study. This paper contributes to the field of knowledge management by suggesting various impacts of antecedents such as hireability, and information exposure on knowledge sharing according to culture.

글로버스 기반 그리드 환경에서의 분산 웹 크롤러 매니저 설계 및 구현 (Design and Implementation of a Globus-based Distributed Web Crawler Manager on Grid Environment)

  • 김혁호;이승하;박찬호;김양우;이필우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.945-948
    • /
    • 2005
  • 그리드 정보검색 시스템은 일반적인 정보검색 시스템의 문제점과 한계점을 인식하고, 그리드라는 분산처리 환경을 기반으로 정보검색 시스템을 구축함으로써 보다 효율적이고 유연한 확장성을 갖는 정보검색 서비스를 제공한다. 본 논문에서는 그리드 시스템 환경에 맞게 그리드 미들웨어 중에 하나인 글로버스 툴킷(Globus Toolkit)을 이용하여 정보검색을 위한 가상 조직(VO: Virtual Organization)을 구성했다. 그리고 그리드 정보검색을 위한 전단계로 웹상에서 각종 정보를 수집하는 P2P 기반 분산 크롤러들을 관리하는 크롤러 매니저를 그리드 서비스로 설계 및 구현하여 그리드 정보검색 시스템에 존재하는 다른 서비스들과 함께 활용할 수 있도록 하였다.

  • PDF

글로버스를 이용한 분산 웹 크롤러의 설계 및 구현 (Design and Implementation of Distributed Web Crawler Using Globus Environment)

  • 이지선;김양우;이필우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.712-714
    • /
    • 2004
  • 대부분의 웹 검색 엔진들과 많은 특화된 검색 도구들은 웹 페이지의 색인화와 분석을 위한 전처리 단계로 대규모 웹 페이지들을 수집하기 위해 웹 크롤러에 의존한다. 일반적인 웹 크롤러는 몇 주 또는 몇 달의 주기에 걸쳐 수백만 개의 호스트들과 상호작용을 통해 웹 페이지 정보를 수집한다. 본 논문에서는 이러한 크롤러의 성능향상과 효율적인 실행을 위해 그리드 미들웨어인 글로버스 툴킷을 이용하여 분산된 크롤러를 제안한다. 본 웹 크롤러의 실행은 그 기능의 분산처리를 위한 각 호스트 서버들을 글로버스로 연결하고, 인증하여, 작업을 할당하는 단계와, 크롤러 프로그램이 실행되어 자료를 수집하는 단계. 마지막으로 이렇게 수집된 웹 페이지 정보들을 처음 명령한 시스템으로 반환하는 단계로 나누어진다. 결과 수집 작업을 보다 분산화 할 수 있게 하였으며 여러 대의 저 비용의 시스템에서 고 비용, 고 사양의 서버의 성능을 얻을 수 있었으며, 확장이 용이하고, 견고한 크롤러 프로그램 및 시스템 환경을 구축할 수 있었다.

  • PDF