• 제목/요약/키워드: Java Web Crawling

검색결과 7건 처리시간 0.023초

Spring Framework를 활용한 Java Web Crawling 웹 시스템 개발 (Web System Development base on Java Web Crawling of the Spring Framework)

  • 조규철;하진욱;류성민
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제56차 하계학술대회논문집 25권2호
    • /
    • pp.241-244
    • /
    • 2017
  • 인터넷을 이용하는 사용자들은 원하는 정보를 획득하고 타인들과 소통하기 위한 방법으로 소셜 네트워크 서비스를 이용한다. SNS는 사용자별로 차별화된 기능을 제공함으로써 수요자를 증가시키지만 이를 활용하는 사용자들은 무분별한 콘텐츠를 접함으로써 사용자 인터페이스에 대한 불편함은 더해가고 있다. 본 연구는 SNS를 이용하는 사용자들의 사용자 편이성을 증가하고 콘텐츠 접근성을 강화하는 방안으로 원하는 관심사만 자동으로 수집하여 열람하도록 JAVA WEB CRAWLING을 활용하여 시스템을 개발하였다.

  • PDF

웹크롤러의 수집주기 최적화 (Refresh Cycle Optimization for Web Crawlers)

  • 조완섭;이정은;최치환
    • 한국콘텐츠학회논문지
    • /
    • 제13권6호
    • /
    • pp.30-39
    • /
    • 2013
  • 웹 크롤러는 서버의 부담을 최소화하면서도 최신의 데이터를 웹사이트로부터 수집하고 유지해야 한다. 빅데이터 시대와 같이 데이터가 폭발적으로 증가하는 시대에 데이터 소스로부터 자주 모든 데이터를 추출하는 것은 서버에 심각한 부담을 주게 된다. 무선통신 기술과 다양한 스마트 기기들의 확산으로 정보가 급속도로 생성되고 있으며, 어디에서나 어느 시간이나 지속적으로 생성 및 변경되고 있다. 웹크롤러는 이러한 상황을 감안하여 최신의 정보를 적은 오버헤드로 유지해 나가는 것이 중요한 이슈로 부각되고 있다. 본 논문에서는 웹사이트의 변경사항을 체크할 수 있는 효과적인 방안과 웹사이트의 수집 주기를 동적으로 변경함으로써 적은 비용으로 최신성을 유지할 수 있는 방안을 제시한다. 핵심 아이디어는 과거 히스토리로부터 웹사이트 변경이 집중되는 시간을 파악하여 웹수집 주기를 결정하는데 반영한다는 점이다. 논문에서는 특정 웹사이트의 데이터를 추출하는 Java 크롤러를 개발하고, 제안된 방식과 기존 방식의 유용성을 비교하였다. 제안된 기법을 사용하면 정적인 방식보다 서버 오버헤드를 절반정도(46.2%)로 줄이면서도 최신성을 더욱 높게 보장할 수 있게 된다.

웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션 (Information-providing Application Based on Web Crawling)

  • 김주현;최정은;신우경;박민준;김태국
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.295-296
    • /
    • 2023
  • 본 논문에서는 웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션에 관해 연구하였다. 본 서비스는 Java의 Jsoup 라이브러리를 이용해서 웹 크롤링(Web Crawling)한 데이터를 MySQL에 저장한다. 이를 통해 사용자가 지정한 키워드를 필터링하여 사용자에게 정보를 제공한다. 예를 들어 사용자가 지정한 키워드 관련 공지 사항이 업데이트되면 구현한 앱 내에서 확인 가능하며, KakaoTalk 알림톡을 통해서도 업데이트된 정보를 실시간으로 전송받는 서비스를 구현하였다.

Jsoup를 이용한 조선왕조실록의 빅 데이터 분석 (Big Data Analysis of the Annals of the Joseon Dynasty Using Jsoup)

  • 변영일;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.131-133
    • /
    • 2021
  • 조선왕조실록은 UNESCO에 등재된 중요한 기록물이다. 본 논문은 한글로 번역된 조선왕조 실록에서 단어의 빈도수를 조사하여 빅데이터를 분석하는 방법을 제안한다. 조선왕조 실록을 인터넷 사이트에서 액세스하여 단어의 빈도수를 조사하려 할 때, 그 페이지에 포함된 소스를 직접 액세스하면 HTML 문법에 필요한 키워드가 포함되어 있어 필요한 본문에서 단어 빈도수에 의한 빅데이터 분석을 하는 것이 어렵다. 본 논문에서는 Java의 Jsoup를 활용한 크롤링 기능을 사용하여 조선왕조 실록의 본문을 분석하는 방법을 제안한다. 실험에서는 조선왕조실록의 태조부분만을 추출하여 본 방법의 유효성을 검증하였다.

  • PDF

텍스트 마이닝 기반의 데이터 분석 웹 애플리케이션 (Data Analysis Web Application Based on Text Mining)

  • 길완제;김재웅;박구락;이윤열
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.103-104
    • /
    • 2021
  • 본 논문에서는 텍스트 마이닝 기반의 토픽 모델링 웹 애플리케이션 모델을 제안한다. 웹크롤링 기법을 활용하여 키워드를 입력하면 요약된 논문 정보를 파일로 저장할 수 있고 또한 키워드 빈도 분석과 토픽 모델링 등을 통해 연구 동향을 손쉽게 확인해볼 수 있는 웹 애플리케이션을 설계하고 구현하는 것을 목표로 한다. 제안 모델인 웹 애플리케이션을 통해 프로그래밍 언어와 데이터 분석 기법에 대한 지식이 부족하더라도 논문 수집과 저장, 텍스트 분석을 경험해볼 수 있다. 또한, 이러한 웹 시스템 개발은 기존의 html, css, java script와 같은 언어에 의존하지 않고 파이썬 라이브러리를 활용하였기 때문에 파이썬을 기반으로 데이터 분석과 머신러닝 교육을 수행할 경우 프로젝트 기반 수업 교육 과정으로 채택이 가능할 것으로 기대된다.

  • PDF

웹 크롤링과 이미지 색상 추출 인공지능을 이용한 향수 추천 서비스 구현 (Implementation of perfume recommendation service using web crawling and image color extraction artificial intelligence)

  • 김유진;이예림;정성윤;조유진;김영종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.758-759
    • /
    • 2023
  • 이 논문에서는 웹 크롤링과 인공지능의 색상 추출 기능을 사용하여 사용자에게 맞는 향수를 추천해주는 서비스를 구현한다. 웹 사이트 제작에 용이한 Java 와 웹 크롤링과 인공지능 구현에 용이한 Python 을 기반으로 구현하였다.

키워드의 유사도와 가중치를 적용한 연관 문서 추천 방법 (Method of Related Document Recommendation with Similarity and Weight of Keyword)

  • 임명진;김재현;신주현
    • 한국멀티미디어학회논문지
    • /
    • 제22권11호
    • /
    • pp.1313-1323
    • /
    • 2019
  • With the development of the Internet and the increase of smart phones, various services considering user convenience are increasing, so that users can check news in real time anytime and anywhere. However, online news is categorized by media and category, and it provides only a few related search terms, making it difficult to find related news related to keywords. In order to solve this problem, we propose a method to recommend related documents more accurately by applying Doc2Vec similarity to the specific keywords of news articles and weighting the title and contents of news articles. We collect news articles from Naver politics category by web crawling in Java environment, preprocess them, extract topics using LDA modeling, and find similarities using Doc2Vec. To supplement Doc2Vec, we apply TF-IDF to obtain TC(Title Contents) weights for the title and contents of news articles. Then we combine Doc2Vec similarity and TC weight to generate TC weight-similarity and evaluate the similarity between words using PMI technique to confirm the keyword association.