• 제목/요약/키워드: 크롤링 시스템

검색결과 73건 처리시간 0.028초

챗봇 서비스를 위한 자동 소셜 매거진 생성 프레임워크 (Automatic Social Magazine Creation Framework for a Chatbot service)

  • 이재원;장달원;김미지;이종설
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.119-121
    • /
    • 2018
  • 최근 자연어 처리 기술의 발전과 서비스 산업에서의 챗봇에 대한 수요가 증가함에 따라 챗봇을 활용한 서비스가 증가하고 있다. 본 논문은 챗봇을 이용한 소셜 매거진 생성 및 배포 시스템에 관한 것으로, 챗봇이 사용자들의 대화를 수집 및 분석하여 대화 주제와 키워드를 찾은 뒤, 크롤링 된 콘텐츠로부터 소셜 매거진을 생성 및 배포하는 서비스에 관한 것이다. 본 논문에서 제안한 시스템에 대한 성능은 실험을 통하여 검증하였다.

  • PDF

큐를 이용한 다중스레드 방식의 웹 크롤링 설계 (Multi-threaded Web Crawling Design using Queues)

  • 김효종;이준연;신승수
    • 융합정보논문지
    • /
    • 제7권2호
    • /
    • pp.43-51
    • /
    • 2017
  • 연구목적 : 본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용하여 단일처리 방식의 시간 지연의 문제점과 병렬처리 방식의 비용증가, 인력낭비에 대한 문제점을 해결할 수 있는 큐를 이용한 다중스레드 방식의 웹 크롤링을 연구한다. 연구방법 : 본 연구는 큐를 이용한 다중스레드 방식의 시스템 구성을 바탕으로 독립된 시스템에서 실행하는 어플리케이션을 설계하고 분석한다. 연구결과 : 큐를 이용하여 다중 스레드 방식의 웹 크롤러 설계를 제안한다. 또한, 웹 문서의 처리량을 수식에 따라 클라이언트와 스레드 별로 나누어 분석하고, 각각 효율성 비교를 통해 최적의 클라이언트의 개수와 스레드의 개수를 확인 할 수 있다. 제안하는 시스템의 설계 방식은 분산처리를 기반으로 각각의 독립된 환경에서의 클라이언트는 큐와 스레드를 이용하여 빠르고 신뢰성이 높은 웹 문서를 제공한다. 향후연구 방향 : 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색 및 수집하는 시스템이 필요하다.

Movielens 데이터를 이용한 영화 추천 시스템 개발 (A Movie Recommendation System Using Movielens Data)

  • 박윤기;정현철;홍지원;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.1226-1228
    • /
    • 2011
  • 본 논문에서는 영화를 즐기는 이용자들에게 영화를 추천하는 추천 시스템 개발에 대해 논한다. 본 논문에서는 유저 기반 협업 필터링 기술을 적용한 영화 추천 웹 서비스를 개발하였고, 웹 크롤링 기술을 이용하여 추천된 영화의 상세한 정보를 제공할 수 있도록 하였다. 유저 스터디를 수행한 결과 이 영화 추천 시스템을 이용한 사용자들의 만족도는 대체로 높았다.

URL 패턴 스크립트를 이용한 효율적인 웹문서 수집 방안 (A Method of Efficient Web Crawling Using URL Pattern Scripts)

  • 장문수;정준영
    • 한국지능시스템학회논문지
    • /
    • 제17권6호
    • /
    • pp.849-854
    • /
    • 2007
  • 수많은 웹문서 중에서 원하는 문서만을 수집하는 것은 쉽지 않다. 이것을 해결하는 한 방법은 원하는 분야의 정보를 많이 제공하는 사이트에서 원하는 부분만 골라서 수집하는 것이다. 본 논문에서는 웹사이트의 URL 패턴을 XML 기반의 스크립트로 정의하여, 필요한 웹 문서만을 지능적으로 수집하는 방안을 제안한다. 제안하는 수집 방안은 데이터베이스와 같은 구조화된 자료를 정보로 제공하는 사이트에 대해서 매우 빠르고 효율적으로 적용될 수 있다. 본 논문에서는 제안하는 방법을 적용하여 5만개 이상의 웹 문서를 수집하였다.

해외직구 물품 불법 거래에 관한 모니터링 서비스 설계와 해석 (Regarding the illegal transaction of overseas direct purchase Monitoring service design and analysis)

  • 신용훈;김정호;조진표
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.508-511
    • /
    • 2021
  • 관세법에서는 해외직구물품이 일정금액(미화 150불, 단 미국은 미화 200불)이하 또는 자기사용 물품으로 인정되는 경우에 제세를 면제토록 규정하고 있으며 관련규정을 어길시 관세법상 무신고 밀수입죄에 해당된다. 본 논문은 해외직구 리셀러(되팔이)가 증가하고 해당 사항이 사회적 이슈로 대두되기에 해외직구 물품 불법거래에 관한 모니터링시스템을 설계하고 해석하였다. 온라인 중고 사이트(e-commerce)에서 거래되고 있는 거래 내용을 크롤링을 통하여 데이터를 수집·전처리를 통해 구조화하고 데이터 정제, 텍스트 범주화, 텍스트 마이닝 등 관계 예측을 해석하였다.

빅데이터 기반 패션 추천 도우미 Shoes Navigator 설계 및 구현

  • 조현우 ;장지완 ;최현선;정목동
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.389-390
    • /
    • 2023
  • 본 논문에서는 패션 매칭의 어려움을 해결해주기 위하여 '무신사' 쇼핑몰을 이용하여 크롤링하고 이를 정제한 dataset을 이용하여 패션 스타일의 핵심 요소 중 하나인 신발에 초점을 맞추어, 이미지 기반의 패션 매칭 시스템인 빅데이터 기반 패션 도우미, Shoes Navigator 를 제안한다. 이를 위해 컴퓨터 비전 및 딥 러닝 기술을 활용하여 이미지에서 의류 항목을 자동으로 감지하고, 스타일, 색상과 같은 패션 특성을 추출한다. 또한, 사용자의 개인적인 스타일을 고려하여 최적의 매칭을 제안하기 때문에 패션 코디 문제를 용이하게 해결할 수 있다.

검색환경 개선을 위한 자연어 처리 기반 맞춤형 추천 검색시스템 (Recommender system for web search based on NLP to improve user search environment)

  • 승현수;박지윤;우다현;오승민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.1168-1171
    • /
    • 2021
  • 일반적인 검색엔진을 가진 포털 환경에서 정보검색 시 사용자가 원치 않는 수많은 검색결과가 동반되기도 하고 자신의 취향에 맞는 글을 검색하지 않았다는 이유만으로 원하는 정보를 놓치는 상황도 일어난다. 이러한 검색환경의 문제를 개선하기 위해 본 논문에서는 사용자들의 검색환경 개선을 위한 맞춤형 검색결과 정렬, 검색어 추천, 게시글 추천의 추천 시스템을 설계하고 제작한다. 이러한 추천 시스템은 워드 임베딩 모델과 추천 시스템 모델을 포함한다. 기존에 존재하던 워드 임베딩 모델의 성능을 실험을 통해 비교 및 분석하고, 크롤링을 통해 모은 데이터로 성능을 24.98%P 개선하였다. 추천 시스템 모델은 RMSE 비교를 통해 최적이 알고리즘을 제안한다. 해당 기술을 통해 사용자 스스로 자신의 검색환경을 개선할 수 있도록 구현하는 것이 이 시스템의 목표이다.

WCTT: HTML 문서 정형화 기반 웹 크롤링 시스템 (WCTT: Web Crawling System based on HTML Document Formalization)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.495-502
    • /
    • 2022
  • 오늘날 웹상의 본문 수집에 주로 이용되는 웹 크롤러는 연구자가 직접 HTML 문서의 태그와 스타일을 분석한 후 수집 채널마다 다른 수집 로직을 구현해야 하므로 유지 관리 및 확장이 어렵다. 이러한 문제점을 해결하려면 웹 크롤러는 구조가 서로 다른 HTML 문서를 동일한 구조로 정형화하여 본문을 수집할 수 있어야 한다. 따라서 본 논문에서는 태그 경로 및 텍스트 출현 빈도를 기반으로 HTML 문서를 정형화하여 하나의 수집 로직으로 본문을 수집하는 웹크롤링 시스템인 WCTT(Web Crawling system based on Tag path and Text appearance frequency)를 설계 및 구현하였다. WCTT는 모든 수집 채널에서 동일한 로직으로 본문을 수집하므로 유지 관리 및 수집 채널의 확장이 용이하다. 또한, 키워드 네트워크 분석 등을 위해 불용어를 제거하고 명사만 추출하는 전처리 기능도 제공한다.

인공지능 블록 파이썬 코딩 플랫폼의 피지컬 컴퓨팅 모듈 구현 (Implementation of Physical Computing Module of AI Block Python Coding Platform)

  • 이세훈;남지원;김관필;전우진;김기태
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.453-454
    • /
    • 2021
  • 본 논문에서는 딥아이(DIY) 블록 프로그래밍과 라즈베리파이의 피지컬 컴퓨팅을 활용해 엑츄에이터와 센서를 제어하고 센서를 통해 수집한 데이터를 전처리해 인공지능에 활용함으로써 효율적인 인공지능 교육 방식을 제안한다. 해당 방식은 블록코딩 방식을 사용함으로써 문자코딩 대비 오타을 줄이고 문법 구애율을 낮춤으로써 프로그래밍 입문자의 구문적 어려움을 최소화하고 개념과 전략적 학습을 극대화한다. 블록프로그래밍 사용언어로 파이썬을 채택해 입문자의 편의를 도모하고 파일처리, 크롤링, csv데이터 추출을 통해 인공지능 교육에 활용한다.

  • PDF

Watson Assistant를 이용한 신조어 챗봇 시스템 구현 (Implementation of a Neologism Chatbot System Using Watson Assistant)

  • 고준희;남윤한;박현종;최성진;백세인;이용규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.13-16
    • /
    • 2018
  • 인공지능의 중요성과 가치가 대두됨에 따라 이를 활용하여 다양한 챗봇들이 개발되고 있다. 그러나 신조어를 의미를 제공하는 챗봇 시스템의 연구가 부족하다. 본 논문에서는 Watson Assistant를 활용하여 신조어의 의미를 제공하는 신조어 챗봇 시스템을 구현하고자 한다. Watson Assistant는 자연어 형식으로 된 질문에 응답하는 것을 지원하는 API다. 웹 크롤링을 통해 신조어 데이터를 수집 및 저장하고, Watson Assistant를 활용하여 사용자의 의도를 파악하여 신조어의 의미를 추출한다. 제안한 시스템을 통해 현실 세계에서 끊임없이 양산되는 신조어의 의미를 빠르게 파악할 것이라고 기대한다.