• 제목/요약/키워드: 웹 크롤링

검색결과 114건 처리시간 0.032초

링크 분석을 통한 비동기 웹 페이지 크롤링 알고리즘 (Asynchronous Web Crawling Algorithm)

  • 원동현;박혁규;강윤정;이민혜
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.364-366
    • /
    • 2022
  • 웹은 처리 속도가 다른 다양한 정보들을 함께 제공하기 위해 비동기식 웹 기술을 이용한다. 비동기 방식에서는 작업 완료 전에도 다른 이벤트에 응답할 수 있다는 장점이 있으나 일반적인 크롤러는 웹페이지의 방문 시점 정보를 수집함으로 비동기 방식으로 제공되는 정보를 수집하는 데 어려움이 있다. 또한 비동기식 웹 페이지는 페이지 내용이 변경되어도 웹 주소가 변하지 않는 경우도 많아 크롤링하는 데 어려움이 있다. 본 논문에서는 웹의 링크를 분석하여 비동기 방식 페이지 이동을 고려한 웹 크롤링 알고리즘을 제안한다. 제안한 알고리즘으로 비동기 방식으로 정보를 제공하는 TTA의 정보통신용어사전 정보를 수집할 수 있었다.

  • PDF

크롤링을 이용한 자동매칭 게임톡 웹 서비스 (Automatic Matching Voice Chat Web Service Using Crawling)

  • 반영태;한상욱;이도경;윤건일;이화민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.1169-1172
    • /
    • 2019
  • 최근 많은 이용자들이 음성채팅을 이용하여 게임을 즐긴다. 하지만 많은 사람들이 게임 내에서 지원하는 음성 채팅을 사용하지 않고 별도의 음성 프로그램을 사용하고 있다. 현재 게임 내 음성채팅과 외부 음성채팅 모두 편의 기능이 많이 부족하며, 가장 큰 문제점으로는 사용자 본인이 직접 음성 채팅에 참여하는 유저를 구해야 한다는 것이다. 본 논문에서는 이러한 불편한 상황을 없애기 위하여 자동으로 음성 채팅이 가능한 사람을 모집하여 좀 더 편안한 게임 환경을 제공할 수 있는 음성 채팅 웹 서비스를 개발 하였다. 웹 크롤링 기술을 이용하여 외부 커뮤니티등의 구인 글을 크롤링 하여 설정한 조건과 구인 조건이 일치하면 사이트 사용자 뿐 만 아니라 미사용자 간의 매칭도 빠르게 지원 하도록 개발하였다.

웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션 (Information-providing Application Based on Web Crawling)

  • 김주현;최정은;신우경;박민준;김태국
    • 사물인터넷융복합논문지
    • /
    • 제10권1호
    • /
    • pp.21-27
    • /
    • 2024
  • 본 논문에서는 필터링(Filtering)과 웹 크롤링(Web Crawling) 기술을 이용하여 개인 맞춤형 실시간 정보제공 애플리케이션을 구현하였다. 구현한 애플리케이션은 사용자가 설정한 키워드를 웹페이지 내에서 사용자가 선택한 키워드를 기준으로 Jsoup 라이브러리를 통해 웹 크롤링을 수행하고, MySQL 데이터베이스에 저장한다. 저장한 데이터는 Flutter를 이용해 구현한 애플리케이션으로 사용자에게 제공한다. 또한 FCM(Firebase Cloud Messaging)을 이용하여 모바일 푸시 알람을 제공한다. 이를 통해 사용자는 원하는 정보를 빠르고 효율적으로 얻을 수 있다. 또한 빅데이터가 생성되는 사물인터넷(Internet of things)에도 적용하여 사용자에게 필요한 정보만 제공할 수 있을 것으로 기대한다.

다중 쓰레드 환경에서 웹 크롤러의 성능 분석 (Performance Analysis of Web-Crawler in Multi-thread Environment)

  • 박정우;김준호;이원주;전창호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제39차 동계학술발표논문집 16권2호
    • /
    • pp.473-476
    • /
    • 2009
  • 본 논문에서는 다중 쓰레드 환경에서 동작하는 웹 크롤러를 구현하고 성능을 분석한다. 이 웹 크롤러의 특징은 검색시간을 단축하기 위하여 크롤링, 파싱 및 페이지랭킹, DB 저장 모듈을 서로 독립적으로 다른 작업을 수행하도록 구현한 것이다. 크롤링 모듈은 웹상의 데이터를 수집하는 기능을 제공한다. 그리고 파싱 및 페이지랭크 모듈은 수집한 데이터를 파싱하고, 웹 페이지의 상대적인 중요도를 수치로 계산하여 페이지랭크를 지정한다. DB 연동 모듈은 페이지랭크 모듈에서 구한 페이지랭크를 데이터베이스에 저장한다. 성능평가에서는 다중 쓰레드 환경에서 쓰레드 수와 웹 페이지의 수에 따른 검색 시간을 측정하여 그 결과를 비교 평가한다.

  • PDF

여행 수용 파악 및 항공 노선 전략 연구 : 웹 크롤링 기반 분석 기법 (Study of Travel Demand and Air Route Strategy : Web Crawling-based Analysis Technology)

  • 조창현;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.378-381
    • /
    • 2020
  • 항공/여행 상품은 타 산업보다 불확실성에 취약하며 시간의 절대적인 종속성으로 인해 정확한 수요 파악 및 예측을 하지 못할 경우 가치가 0으로 수렴한다. 이에 본 논문은 웹 크롤링을 기반으로 잠재여행 욕구를 파악하고, 향후 성장할 것으로 예상되는 항공 노선 및 취항지를 예측 및 분석하는 기법을 제안하고자 한다.

심층 웹 문서 수집을 위한 크롤링 알고리즘 설계 (Crawling Algorithm Design for Deep Web Document Collection)

  • 원동현;강윤정;박혁규
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.367-369
    • /
    • 2022
  • 웹 기술이 발전함에 따라 웹은 사용자의 요구에 맞는 맞춤 정보들을 제공하게 된다. 클릭 이벤트나 사용자의 질의어에 따라 정보가 제공되며 검색엔진으로는 검색이 어려운 정보가 제공되는 웹 서비스를 심층웹이라 한다. 이러한 심층웹은 표면웹보다 많은 정보를 포함하고 있지만, 방문 당시의 정보를 수집하는 일반적인 크롤링으로는 정보 수집이 어렵다. 심층웹은 javascript와 같은 스크립트언어를 브라우저에서 실행함으로 서버의 정보를 사용자에게 제공한다. 본 논문에서는 심층웹 수집을 위해 스크립트를 분석하여 동적으로 변화되는 웹사이트의 탐색 및 정보 수집이 가능한 알고리즘을 제안한다. 본 논문에서는 실험을 위해 질병관리청의 게시판의 스크립트를 분석하였다.

  • PDF

마약 범죄 추적을 위한 다크웹 상의 소셜미디어 유인 링크 수집체계 개발 (Development of a Collection System of Bait Links to Social Media on Dark Web to Track Drug Crimes)

  • 박솔규;김지연;김창훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.123-125
    • /
    • 2024
  • 다크웹(Dark Web)은 마약, 불법 촬영물, 해킹, 무기 등 불법 콘텐츠의 공유 및 거래가 이루어지는 인터넷 영역으로서 최근에는 소셜미디어와 연계된 형태로 범죄 양상이 변화하고 있다. 본 논문에서는 최근 국내 외 사회 문제로 대두되고 있는 마약 범죄를 추적하기 위한 다크웹 수사 기술로서 다크웹 사용자를 소셜미디어로 유인하는 마약 정보 수집체계를 개발한다. 먼저 미국 마약단속국에서 공개한 대표적인 마약 용어 3개의 표준어 및 은어를 검색 키워드로 사용하여 마약 관련 다크웹을 수집하고, 수집된 다크웹을 크롤링하여 소셜미디어 계정 링크를 추출한다. 본 논문에서는 다양한 소셜미디어 중, 트위터 및 텔레그램 접속 링크를 수집하였으며 실험 결과, 접속 가능한 총 54개 다크웹 도메인의 9,046개 웹 페이지에서 트위터 유인 링크 567개, 텔레그램 유인 링크 118개를 추출하였다.

  • PDF

블룸 필터를 이용한 감성 웹 문서 크롤링 알고리즘 (A Bloom filter-based Sentiment-aware Web Crawling Algorithm)

  • 나철원;온병원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.69-74
    • /
    • 2018
  • 최근 빅 데이터와 인공지능의 발달과 함께 감성 분석에 대한 연구가 활발해지고 있다. 더불어 감성 분석을 위한 긍/부정 어휘가 풍부한 텍스트 문서들에 대한 수집의 필요성도 높아지고 있다. 본 논문은 긍/부정어휘가 풍부한 텍스트 문서들을 수집하는 기존의 수집 방법에 대한 문제점에 대하여 해결방안을 제시한다. 기존의 수집 방법으로 일단 모든 URL들을 저장하고 필터링 과정을 거쳐 긍/부정 어휘가 풍부한 텍스트 문서들을 수집하고자 한다면 불필요한 텍스트 문서 저장과 필터링 과정에서 메모리와 시간을 낭비하게 된다. 기존의 수집 방법에 블룸 필터라는 자료구조를 적용시켜 메모리와 시간을 낭비하게 되는 문제점을 해결하고자 한다.

  • PDF

효과적인 데이터 수집을 위한 웹 크롤러 개선 및 동적 프로세스 설계 및 구현 (Web crawler Improvement and Dynamic process Design and Implementation for Effective Data Collection)

  • 왕태수;송재백;손다연;김민영;최동규;장종욱
    • 한국정보통신학회논문지
    • /
    • 제26권11호
    • /
    • pp.1729-1740
    • /
    • 2022
  • 근래 정보의 다양성과 활용에 따라 많은 데이터가 생성되었고, 데이터를 수집, 저장, 가공 및 예측 하는 빅데이터 분석의 중요성이 확대되었으며, 필요한 정보만을 수집할 수 있는 능력이 요구되고 있다. 웹 공간은 절반 이상이 텍스트로 이루어져 있고, 유저들의 유기적인 상호작용을 통해 수많은 데이터가 발생한다. 대표적인 텍스트 데이터 수집 방법으로 크롤링 기법이 있으나 데이터를 가져올 수 있는 방법에 치중되어 웹 서버나 관리자를 배려하지 못하는 크롤러가 많이 개발되고 있다. 본 논문에서는 크롤링 과정에서 발생할 수 있는 문제점 및 고려해야 할 주의사항에 대해 살펴보고 효율적으로 데이터를 가져올 수 있는 개선된 동적 웹 크롤러를 설계 및 구현한다. 기존 크롤러의 문제점들을 개선한 크롤러는 멀티프로세스로 설계되어 작업소요 시간이 평균적으로 4배정도 감소하였다.

분산형 병렬 크롤러 설계 및 구현 (Distribute Parallel Crawler Design and Implementation)

  • 장현호;전경식;이후기
    • 융합보안논문지
    • /
    • 제19권3호
    • /
    • pp.21-28
    • /
    • 2019
  • 기관이나 단체에서 관리하는 홈페이지 수가 증가하면서 그에 따른 웹 어플리케이션 서버나 컨테이너도 그에 상응하게 증가한다. 웹 어플리케이션 서버와 컨테이너의 웹 서비스 상태를 점검하는데 있어서 사람이 일일이 원격지에 있는 물리적인 서버에 터미널을 통해 접근하거나 다른 접근 가능한 소프트웨어를 사용하여 접근한 뒤 웹 서비스의 상태를 점검하는 것은 매일 반복하기에는 매우 번거로운 일이다. 이전에 연구되었던 크롤러관련 연구에는 크롤링에 따른 발생 데이터 처리에 관한 언급이 찾아보기 힘들다. 크롤러에서 데이터베이스에 접근하여 데이터를 저장하는데 있어서 데이터 손실이 발생한다. 본 연구에서는 크롤링 기반의 웹 어플리케이션 서버 관리에 따른 점검 데이터를 손실 없이 데이터화 하여 저장하는 방안을 제시하였다.