• Title/Summary/Keyword: web crawler

검색결과 102건 처리시간 0.027초

사용자 중심의 블로그 정보 검색 기법 (User-Centered Information Retrieving Method in Blogs)

  • 김승종
    • 한국산학기술학회논문지
    • /
    • 제11권9호
    • /
    • pp.3458-3464
    • /
    • 2010
  • 최근 빠른 주기로 많은 양의 새로운 정보가 생성되기 때문에, 사용자 중심의 정보 검색을 위해 RSS라는 신디케이션 기술이 제공되고 있다. RSS는 새롭게 갱신된 콘텐츠를 자동으로 전달받을 수 있어 신규 정보를 찾기 위해 사이트에 지속적으로 접근하지 않아도 된다. 본 논문에서는 블로그 정보 검색을 위해 RSS 문서의 주소를 수집하는 수집기와 사용자 질의에 따른 RSS 문서의 순위결정 방법을 제안한다. 제안하는 정보 검색 기법을 이용하면 사용자가 RSS 문서를 효과적으로 검색할 수 있다.

Improving the quality of Search engine by using the Intelligent agent technolo

  • Nauyen, Ha-Nam;Choi, Gyoo-Seok;Park, Jong-Jin;Chi, Sung-Do
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권12호
    • /
    • pp.1093-1102
    • /
    • 2003
  • The dynamic nature of the World Wide Web challenges Search engines to find relevant and recent pages. Obtaining important pages rapidly can be very useful when a crawler cannot visit the entire Web in a reasonable amount of time. In this paper we study way spiders that should visit the URLs in order to obtain more “important” pages first. We define and apply several metrics, ranking formula for improving crawling results. The comparison between our result and Breadth-first Search (BFS) method shows the efficiency of our experiment system.

  • PDF

웹크롤러의 비표준 링크에 관한 링크 추출 방안 (A Method of Link Extraction on Non-standard Links in Web Crawling)

  • 정준영;장문수;강선미
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2008년도 춘계학술대회 학술발표회 논문집
    • /
    • pp.79-82
    • /
    • 2008
  • 웹크롤러는 웹페이지 내의 URL링크를 추적하여 다른 문서를 수집한다. 국내의 상당수 웹사이트는 웹 표준에 맞지 않는 링크방식으로 웹문서를 연결하고 있다. 일반적인 웹크롤러는 링크의 비표준적인 사용을 가정하지 않기 때문에 이러한 문서는 수집할 수 없다. 비표준적인 링크가 가능한 것은 사용자의 실수에 강인한 마크업 언어인 HTML에 자바스크립트 기능이 추가되면서 자바스크립트의 변칙적인 사용이 허용되었기 때문이다. 본 논문에서는 230여개의 웹사이트를 조사하여 기존 웹크롤러에서 해결하지 못한 링크 추출 문제를 찾아내고, 이를 수집하기 위한 알고리즘을 제안한다. 또한 자바스크립트 문제 해결을 위한 무거운 자바스크립트 엔진을 대신하여 필요한 기능만으로 구성된 모듈을 사용함으로써 효율적인 문서 수집기 모델을 제안한다.

  • PDF

웹 크롤러를 위한 효율적인 URL 우선순위 할당 기법 (Efficient URL Prioritizing Method for Web Crawlers )

  • ;하종우;조윤호;이상근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.383-385
    • /
    • 2008
  • With the amazing growth of web faster important page crawlers poses great challenge. In this research we proposed fractional PageRank, a variation of PageRank computed during crawl that can able to prioritize the downloading order. Experimental results shows that it outperforms the prior crawler in terms of running time yet provide a well download ordering.

그래프 탐색 기법을 이용한 효율적인 웹 크롤링 방법들 (Effective Web Crawling Orderings from Graph Search Techniques)

  • 김진일;권유진;김진욱;김성렬;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권1호
    • /
    • pp.27-34
    • /
    • 2010
  • 웹 크롤러는 웹에서 링크를 따라다니며 웹 페이지들을 자동으로 다운로드하는 프로그램으로 주로 웹 환경을 연구하거나 검색 엔진을 만들기 위해 사용된다. 기존의 연구들에서는 웹 크롤러가 인기 있는 웹 페이지들을 먼저 크롤링 할 수 있도록 몇 가지 방법들이 제안되었으나 그래프 이론 분야에서 연구되어 온 몇몇 그래프 탐색 기법들은 아직 웹 크롤링 방법으로 고려되지 않았다. 이 논문에서는 잘 알려진 너비 우선 탐색, 깊이 우선 탐색 뿐 아니라 사전식 너비 우선 탐색, 사전식 깊이 우선 탐색 및 최대 크기 탐색을 웹 크롤링 방법으로 고려하여 이 중에서 선형적인 시간복잡도를 가지면서도 인기 있는 웹 페이지를 효율적으로 수집할 수 있는 웹 크롤링 방법을 찾는다. 특히 선형 구현이 단순하지 않은 최대 크기 탐색과 사전식 너비 우선 탐색에 대해서는 분할 정제 방법을 이용한 선형 시간 웹 크롤링 방법을 제시한다. 실험 결과는 최대 크기 탐색이 다른 그래프 탐색 방법에 비해 시간 복잡도 및 크롤링 된 페이지들의 질에 있어서 바람직한 성질을 가짐을 보여준다.

온톨로지 인스턴스 구축을 위한 주제 중심 웹문서 수집에 관한 연구 (A Study on Focused Crawling of Web Document for Building of Ontology Instances)

  • 장문수
    • 한국지능시스템학회논문지
    • /
    • 제18권1호
    • /
    • pp.86-93
    • /
    • 2008
  • 복잡한 의미관계를 정의하는 온톨로지를 구축하는 일은 매우 정밀하고 전문적인 작업이다. 잘 구축된 온톨로지를 응용 시스템에 활용하기 위해서는 온톨로지 클래스에 대한 많은 인스턴스 정보를 구축해야 한다. 본 논문은 온톨로지 인스턴스 정보 추출을 위하여 방대한 양의 웹 문서로부터 주어진 주제에 적합한 문서만을 추출하는 주제 중심 웹 문서 수집 알고리즘을 제안하고, 이 알고리즘을 바탕으로 문서 수집 시스템을 개발한다. 제안하는 문서 수집 알고리즘은 URL의 패턴을 이용하여 주제에 적합한 링크만을 추출함으로써 빠른 속도의 문서 수집을 가능하게 한다. 또한 링크 블록 텍스트에 대한 퍼지집합으로 표현된 주제 적합도는 문서의 주제 관련성을 지능적으로 판단하여 주제 중심 문서 수집의 정확도를 향상시킨다.

소셜 네트워크 키워드 분석을 통한 영화 추천 시스템 설계 (Design for Recommended System of Movies using Social Network Keyword of Analysis)

  • 양새동;이종원;저순;편도길;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.609-611
    • /
    • 2014
  • IT 기술 발전과 스마트 기기의 보급으로 인해 다양한 웹 서비스가 개발되었다. 특히, 소셜 네트워크 서비스는 기존 웹 서비스와 달리 정보의 생산과 소비의 구별이 없으며 사용자들 간에 자유롭게 의사를 소통할 수 있게 한다. 그리고 정보 공유, 기존 인간관계와 새로운 인간관계들을 형성을 강화시켜준다. 본 논문에서는 소셜 네트워크 서비스가 제공하는 사회적 관계망을 사용하여 사용자들의 의사소통과 정보 공유에 사용되는 키워드를 수집하고 분석한다. 그리고 키워드에 적합한 영화들을 추천하는 시스템을 설계한다.

  • PDF

태그 경로 및 텍스트 출현 빈도를 이용한 HTML 본문 추출 (HTML Text Extraction Using Tag Path and Text Appearance Frequency)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1709-1715
    • /
    • 2021
  • 웹 페이지에서 필요한 텍스트를 정확하게 추출하기 위해 본문이 존재하는 곳의 태그와 스타일 속성을 웹 크롤러에 명시하는 방법은 웹 페이지 구성이 변경될 때마다 본문을 추출하는 로직을 수정해야 하는 문제가 있다. 이러한 문제점을 해결하기 위해 이전 연구에서 제안한 텍스트의 출현 빈도를 분석하여 본문을 추출하는 방법은 웹 페이지의 수집 채널에 따라 성능 편차가 크다는 한계점이 있었다. 따라서 본 논문에서는 텍스트의 출현 빈도뿐만 아니라 웹 페이지의 DOM 트리로부터 추출된 텍스트 노드의 부모 태그 경로를 분석하여 다양한 수집 채널에서 높은 정확도로 본문을 추출하는 방법을 제안하였다.

Deep Learning Frameworks for Cervical Mobilization Based on Website Images

  • Choi, Wansuk;Heo, Seoyoon
    • 국제물리치료학회지
    • /
    • 제12권1호
    • /
    • pp.2261-2266
    • /
    • 2021
  • Background: Deep learning related research works on website medical images have been actively conducted in the field of health care, however, articles related to the musculoskeletal system have been introduced insufficiently, deep learning-based studies on classifying orthopedic manual therapy images would also just be entered. Objectives: To create a deep learning model that categorizes cervical mobilization images and establish a web application to find out its clinical utility. Design: Research and development. Methods: Three types of cervical mobilization images (central posteroanterior (CPA) mobilization, unilateral posteroanterior (UPA) mobilization, and anteroposterior (AP) mobilization) were obtained using functions of 'Download All Images' and a web crawler. Unnecessary images were filtered from 'Auslogics Duplicate File Finder' to obtain the final 144 data (CPA=62, UPA=46, AP=36). Training classified into 3 classes was conducted in Teachable Machine. The next procedures, the trained model source was uploaded to the web application cloud integrated development environment (https://ide.goorm.io/) and the frame was built. The trained model was tested in three environments: Teachable Machine File Upload (TMFU), Teachable Machine Webcam (TMW), and Web Service webcam (WSW). Results: In three environments (TMFU, TMW, WSW), the accuracy of CPA mobilization images was 81-96%. The accuracy of the UPA mobilization image was 43~94%, and the accuracy deviation was greater than that of CPA. The accuracy of the AP mobilization image was 65-75%, and the deviation was not large compared to the other groups. In the three environments, the average accuracy of CPA was 92%, and the accuracy of UPA and AP was similar up to 70%. Conclusion: This study suggests that training of images of orthopedic manual therapy using machine learning open software is possible, and that web applications made using this training model can be used clinically.

최신 웹 크롤링 알고리즘 분석 및 선제적인 크롤링 기법 제안 (A proposal on a proactive crawling approach with analysis of state-of-the-art web crawling algorithms)

  • 나철원;온병원
    • 인터넷정보학회논문지
    • /
    • 제20권3호
    • /
    • pp.43-59
    • /
    • 2019
  • 오늘날 스마트폰의 보급과 SNS의 발달로 정형/비정형 빅데이터는 기하급수적으로 증가하였다. 이러한 빅데이터를 잘 분석한다면 미래 예측도 가능할 만큼 훌륭한 정보를 얻을 수 있다. 빅데이터를 분석하기 위해서는 먼저 대용량의 데이터 수집이 필요하다. 이러한 데이터가 가장 많이 저장되어 있는 곳은 바로 웹 페이지다. 하지만 데이터의 양이 방대하기 때문에 유용한 정보를 가진 데이터가 많은 만큼 필요하지 않은 정보를 가진 데이터도 많이 존재한다. 그렇기 때문에 필요하지 않은 정보를 가진 데이터는 거르고 유용한 정보를 가진 데이터만을 수집하는 효율적인 데이터 수집의 중요성이 대두되었다. 웹 크롤러는 네트워크 대역폭, 시간적인 문제, 하드웨어적인 저장소 등의 제약으로 인해 모든 페이지를 다운로드 할 수 없다. 그렇기 때문에 원하는 내용과 관련 없는 많은 페이지들의 방문은 피하며 가능한 빠른 시간 내에 중요한 페이지만을 다운로드해야한다. 이 논문은 위와 같은 이슈의 해결을 돕고자한다. 먼저 기본적인 웹 크롤링 알고리즘들을 소개한다. 각 알고리즘마다 시간복잡도와 장단점을 설명하며 비교 및 분석한다. 다음으로 기본적인 웹 크롤링 알고리즘의 단점을 개선한 최신 웹 크롤링 알고리즘들을 소개한다. 더불어 최근 연구 흐름을 보면 감성어휘 수집과 같은 특수한 목적을 가진 웹 크롤링 알고리즘의 대한 연구가 활발히 이루어지고 있다. 특수 목적을 가진 웹 크롤링 알고리즘에 대한 연구로써 선제적인 웹 크롤링 기법으로 감성 반응 웹 크롤링(Sentiment-aware Web Crawling) 기법을 소개한다. 실험결과 데이터의 크기가 커질수록 기존방안보다 높은 성능을 보였고 데이터베이스의 저장 공간도 절약되었다.