• Title/Summary/Keyword: 웹 데이터 수집

Search Result 620, Processing Time 0.035 seconds

Wrapper-based Economy Data Collection System Design And Implementation (래퍼 기반 경제 데이터 수집 시스템 설계 및 구현)

  • Piao, Zhegao;Gu, Yeong Hyeon;Yoo, Seong Joon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2015.05a
    • /
    • pp.227-230
    • /
    • 2015
  • For analyzing and prediction of economic trends, it is necessary to collect particular economic news and stock data. Typical Web crawler to analyze the page content, collects document and extracts URL automatically. On the other hand there are forms of crawler that can collect only document of a particular topic. In order to collect economic news on a particular Web site, we need to design a crawler which could directly analyze its structure and gather data from it. The wrapper-based web crawler design is required. In this paper, we design a crawler wrapper for Economic news analysis system based on big data and implemented to collect data. we collect the data which stock data, sales data from USA auto market since 2000 with wrapper-based crawler. USA and South Korea's economic news data are also collected by wrapper-based crawler. To determining the data update frequency on the site. And periodically updated. We remove duplicate data and build a structured data set for next analysis. Primary to remove the noise data, such as advertising and public relations, etc.

  • PDF

Research on Data Acquisition Strategy and Its Application in Web Usage Mining (웹 사용 마이닝에서의 데이터 수집 전략과 그 응용에 관한 연구)

  • Ran, Cong-Lin;Joung, Suck-Tae
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.12 no.3
    • /
    • pp.231-241
    • /
    • 2019
  • Web Usage Mining (WUM) is one part of Web mining and also the application of data mining technique. Web mining technology is used to identify and analyze user's access patterns by using web server log data generated by web users when users access web site. So first of all, it is important that the data should be acquired in a reasonable way before applying data mining techniques to discover user access patterns from web log. The main task of data acquisition is to efficiently obtain users' detailed click behavior in the process of users' visiting Web site. This paper mainly focuses on data acquisition stage before the first stage of web usage mining data process with activities like data acquisition strategy and field extraction algorithm. Field extraction algorithm performs the process of separating fields from the single line of the log files, and they are also well used in practical application for a large amount of user data.

Intelligent Web Crawler for Supporting Big Data Analysis Services (빅데이터 분석 서비스 지원을 위한 지능형 웹 크롤러)

  • Seo, Dongmin;Jung, Hanmin
    • The Journal of the Korea Contents Association
    • /
    • v.13 no.12
    • /
    • pp.575-584
    • /
    • 2013
  • Data types used for big-data analysis are very widely, such as news, blog, SNS, papers, patents, sensed data, and etc. Particularly, the utilization of web documents offering reliable data in real time is increasing gradually. And web crawlers that collect web documents automatically have grown in importance because big-data is being used in many different fields and web data are growing exponentially every year. However, existing web crawlers can't collect whole web documents in a web site because existing web crawlers collect web documents with only URLs included in web documents collected in some web sites. Also, existing web crawlers can collect web documents collected by other web crawlers already because information about web documents collected in each web crawler isn't efficiently managed between web crawlers. Therefore, this paper proposed a distributed web crawler. To resolve the problems of existing web crawler, the proposed web crawler collects web documents by RSS of each web site and Google search API. And the web crawler provides fast crawling performance by a client-server model based on RMI and NIO that minimize network traffic. Furthermore, the web crawler extracts core content from a web document by a keyword similarity comparison on tags included in a web documents. Finally, to verify the superiority of our web crawler, we compare our web crawler with existing web crawlers in various experiments.

Filtering function embodiment of duplicated contents in integrated apparatus of content metadata aggregation (컨텐츠 메타데이터 통합 수집 장치에서의 중복 컨텐츠 필터링 기능 구현)

  • Cho, Sang-Wook;Lee, Min-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06d
    • /
    • pp.150-154
    • /
    • 2008
  • 무한 웹 컨텐츠 환경에서는 사용자의 컨텐츠 선택을 용이하게 하기 위하여 메타데이터를 다양한 방법으로 수집할 수 있다. 그러나 한 가지 방법으로는 메타데이터의 수신이 제한적이고 풍부한 메타데이터 수신을 위해서는 다양한 방법을 이용해야 한다. 그래서 본 논문에서는 메타데이터 수집 방법들을 통합하는 장치를 제안하고, 통합 메타데이터의 품질 향상을 위해 통합과정에서 발생하는 중복 메타데이터의 필터링 방법을 제시 및 검증한다. 구체적으로는 현재 웹 상에서 다양하게 제공되고 있는 메타데이터 수집 기능들을 분석하고, 통합 장치의 개념적인 구조를 제시하며, 웹 상에서 많이 보급되고 있는 RSS Reader를 통해 메타데이터를 수집하고 이를 토대로 분석하여 중복 컨텐츠를 판단하는 방법을 제안하였다.

  • PDF

Web Warehousing based on Multi-Agent (다중 에이전트 기반 웹 웨어하우징)

  • 김현희;박승수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.274-276
    • /
    • 2000
  • 본 연구에서는 기존의 데이터 웨어하우징 기술과 웹 기반 기술을 통합한 웹 웨어하우징 기법에 다중 에이전트 패러다임을 적용하여 다중 에이전트 기반 웹 웨어하우징 시스템을 설계, 구현하였다. 시스템은 정보 검색 에이전트, 정보 통합 에이전트, 웹하우스 구축 에이전트로 구성된다. 정보 검색 에이전트는 여러 종류의 웹 자원을 수집한다. 정보 통합 에이전트는 정보 검색 에이전트에 의해 수집된 이형질적인 데이터를 일정한 형식으로 변환한다. 웹하우스 에이전트는 생성된 데이터를 사용하여 웹하우스를 구축하고 관리한다. 웹 데이터를 통합하기 위해 새로운 데이터 모델을 제안하였다. 의미를 갖는 지능적 객체를 생성하기 위해 여러 종류의 추론 에이전트들이 추론작업을 수행하고, 이들은 블랙보드 시스템을 통하여 작업을 통합한다. 본 시스템은 의미 정보 데이터를 사용하므로 웹 정보의 의미적 검색과 정보추출이 가능하다.

  • PDF

Design and Implementation of Hadoop-based Platform "Textom" for Processing Big-data (하둡 기반 빅데이터 수집 및 처리를 위한 플랫폼 설계 및 구현)

  • Son, ki-jun;Cho, in-ho;Kim, chan-woo;Jun, chae-nam
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2015.05a
    • /
    • pp.297-298
    • /
    • 2015
  • 빅데이터 처리를 위한 소프트웨어 시스템을 구축하기 위하여 필요한 대표적인 기술 중 하나가 데이터의 수집 및 분석이다. 데이터 수집은 서비스를 제공하기 위한 분석의 기초 작업으로 분석 인프라를 구축하는 작업에 매우 중요하다. 본 논문은 한국어 기반 빅데이터 처리를 위하여 웹과 SNS상의 데이터 수집 어플리케이션 및 저장과 분석을 위한 플랫폼을 제공한다. 해당 플랫폼은 하둡(Hadoop) 기반으로 동작을 하며 비동기적으로 데이터를 수집하고, 수집된 데이터를 하둡에 저장하게 되며, 저장된 데이터를 분석한 후 분석결과에 대한 시각화 결과를 제공한다. 구현된 빅데이터 플랫폼 텍스톰은 데이터 수집 및 분석가를 위한 유용한 시스템이 될 것으로 기대가 된다. 특히 본 논문에서는 모든 구현을 오픈소스 소프트웨어에 기반하여 수행했으며, 웹 환경에서 데이터 수집 및 분석이 가능하도록 구현하였다.

  • PDF

Data Collection and Management on the World Wide Web : Evaluating system for Lecture (웹을 이요한 데이터 수집 및 관리에 관한 연구 : 강의평가 시스템 구현)

  • 안정용;최승현;한경수
    • The Korean Journal of Applied Statistics
    • /
    • v.13 no.2
    • /
    • pp.287-296
    • /
    • 2000
  • Data collection, management, and analysis to furnish information are very important in these modern days. In this paper, we discuss the methods of data collection and management on the World Wide \Veb and introduce an evaluating system for lecture.

  • PDF

A Design and Implementation of RSS Data Collecting Engine based on Web 2.0 (웹 2.0 기반 RSS 데이터 수집 엔진의 설계 및 구현)

  • Kang, Pil-Gu;Kim, Jae-Hwan;Lee, Sang-Jun;Chae, Jin-Seok
    • Journal of Korea Multimedia Society
    • /
    • v.10 no.11
    • /
    • pp.1496-1506
    • /
    • 2007
  • The environment of web service has changed a great deal due to the progress of internet technology and positive participation of users. The established web service is static and passive, but the recent web service is becoming dynamic and active. Web 2.0 reflects current web service change well. The primary feature of web 2.0 is positive participation of users. Since the size of generated information is becoming larger, it is highly required to share the information fast and correctly. The technology to satisfy this need is web syndication and tagging in web 2.0. The web syndication makes feeds for another site or users to receive the content of web site. In addition, the tagging is the kernel of a information. Many internet users share rapidly the information through tag search. In this paper, we propose the efficient technique to improve the web 2.0 technology such as web syndication and tagging by using the data collection engine. Data collection engine has stored in a database, a user's Web site to use the information. and it has a user's Web site with access to updated data to collect. The experimental results show that our approach can improve the search speed up to 3.14 times better than the existing method and reduce the size of data up to 66% for building associated tags.

  • PDF

Web Data Collection and Utilization using Content Syndication (콘텐츠 신디케이션을 이용한 웹 데이터 수집 및 활용)

  • Hwang, Sanghyun;Kim, Heewan
    • Journal of Service Research and Studies
    • /
    • v.5 no.2
    • /
    • pp.83-92
    • /
    • 2015
  • Many data on the web are present, put out by processing in the content in order to provide services by collecting the necessary data is not easy. One of the reasons is because there is no way to provide a standardized data. Therefore, it can be seen as a part or all of the contents of the site, the content distribution to be available for other services is very important. A syndication format that allows you to use a representative of some or all of the site's content for other services such as RSS and there are Atom, OPML-based XML. Throughout the links provided in this syndication format is called feed address. With a feed address to collect data faster than the conventional HTML parsing and data provider is the advantage of being able to easily provide the data to the outside. In this study, we feed the data obtained by collecting by implementing the web address based on the data acquisition system to propose a method for processing and utilizing the data as a background.

Implementation Study of a Remote Logging System for Web Servers (원격 웹 서버 로깅 시스템의 구현)

  • 정기훈;노삼혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04a
    • /
    • pp.400-402
    • /
    • 2004
  • 본 논문에서는 웹 서버에게 부하를 주지 않으면서 네트워크를 통해 원격으로 로깅 하는 시스템인 원격 웹 서버 로깅 시스템을 구현하였다. 구현된 로깅 시스템은 웹 서버의 종류와는 관계없이 로그 데이터를 수집할 수 있으며, 여러 개의 서버 군으로 이루어진 시스템에서도 각 시스템의 웹 서버나 환경과는 관계없이 독립적으로 로그 데이터를 수집할 수 있다는 장점을 갖고 있다. 뿐만 아니라 웹 서버에게 미치는 오버헤드를 측정해 본 결과, 부하를 거의 주지 않음으로써 로깅 시스템으로 인한 웹 서버의 성능 저하를 일으키지 않는다는 것을 알 수 있었다.

  • PDF