• 제목/요약/키워드: HADOOP

검색결과 395건 처리시간 0.027초

A New Approach to Web Data Mining Based on Cloud Computing

  • Zhu, Wenzheng;Lee, Changhoon
    • Journal of Computing Science and Engineering
    • /
    • 제8권4호
    • /
    • pp.181-186
    • /
    • 2014
  • Web data mining aims at discovering useful knowledge from various Web resources. There is a growing trend among companies, organizations, and individuals alike of gathering information through Web data mining to utilize that information in their best interest. In science, cloud computing is a synonym for distributed computing over a network; cloud computing relies on the sharing of resources to achieve coherence and economies of scale, similar to a utility over a network, and means the ability to run a program or application on many connected computers at the same time. In this paper, we propose a new system framework based on the Hadoop platform to realize the collection of useful information of Web resources. The system framework is based on the Map/Reduce programming model of cloud computing. We propose a new data mining algorithm to be used in this system framework. Finally, we prove the feasibility of this approach by simulation experiment.

빅데이터 기반의 수요자원 관리 시스템 개발에 관한 연구 (A Study on Demand-Side Resource Management Based on Big Data System)

  • 윤재원;이인규;최중인
    • 전기학회논문지
    • /
    • 제63권8호
    • /
    • pp.1111-1115
    • /
    • 2014
  • With the increasing interest of a demand side management using a Smart Grid infrastructure, the demand resources and energy usage data management becomes an important factor in energy industry. In addition, with the help of Advanced Measuring Infrastructure(AMI), energy usage data becomes a Big Data System. Therefore, it becomes difficult to store and manage the demand resources big data using a traditional relational database management system. Furthermore, not many researches have been done to analyze the big energy data collected using AMI. In this paper, we are proposing a Hadoop based Big Data system to manage the demand resources energy data and we will also show how the demand side management systems can be used to improve energy efficiency.

하둡 기반 빅데이터 수집 및 처리를 위한 플랫폼 설계 및 구현 (Design and Implementation of Hadoop-based Platform "Textom" for Processing Big-data)

  • 손기준;조인호;김찬우;전채남
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2015년도 춘계 종합학술대회 논문집
    • /
    • pp.297-298
    • /
    • 2015
  • 빅데이터 처리를 위한 소프트웨어 시스템을 구축하기 위하여 필요한 대표적인 기술 중 하나가 데이터의 수집 및 분석이다. 데이터 수집은 서비스를 제공하기 위한 분석의 기초 작업으로 분석 인프라를 구축하는 작업에 매우 중요하다. 본 논문은 한국어 기반 빅데이터 처리를 위하여 웹과 SNS상의 데이터 수집 어플리케이션 및 저장과 분석을 위한 플랫폼을 제공한다. 해당 플랫폼은 하둡(Hadoop) 기반으로 동작을 하며 비동기적으로 데이터를 수집하고, 수집된 데이터를 하둡에 저장하게 되며, 저장된 데이터를 분석한 후 분석결과에 대한 시각화 결과를 제공한다. 구현된 빅데이터 플랫폼 텍스톰은 데이터 수집 및 분석가를 위한 유용한 시스템이 될 것으로 기대가 된다. 특히 본 논문에서는 모든 구현을 오픈소스 소프트웨어에 기반하여 수행했으며, 웹 환경에서 데이터 수집 및 분석이 가능하도록 구현하였다.

  • PDF

하둡기반 공간 빅데이터 저장 관리 시스템 구조 (An Architecture for a Spatial Big-Data Management System on Hadoop)

  • 이강우;조은선
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2015년도 제51차 동계학술대회논문집 23권1호
    • /
    • pp.1-3
    • /
    • 2015
  • 본 논문에서는 하둡 환경상에서 개발 중인 공간 빅데이터 저장 관리 시스템의 구조를 설명한다. 본 시스템은 공간 센서 및 IoT의 등장으로 대용량화된 공간 데이터로 인한 기존 공간 정보 처리 시스템의 성능적 한계를 극복하기 위한 목적으로 개발 중이다. 본 시스템은 효과적인 대용량 데이터 처리를 위해 현재 활발히 연구되고 있는 빅데이터 처리 기술과 공간 정보 처리 기술을 접목하여, 대용량의 공간 정보를 수집, 저장 관리하는 기능을 제공한다. 또한 효과적인 공간 데이터의 접근을 위해 스크립트 언어 기반의 공간 정보 처리 언어를 제공하고, SQL 형식의 선언적 공간 정보 질의 처리 기능도 제공하기 위해 개발 중에 있다.

  • PDF

클러스터링 기반 협업 필터링 알고리즘을 사용한 분산 추천 시스템 (Distributed Recommendation System Using Clustering-based Collaborative Filtering Algorithm)

  • 조현제;이필규
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.101-107
    • /
    • 2014
  • 본 논문에서는 협업 필터링 알고리즘을 클러스터링 기반으로 분산 환경에서 구현하여, 추천을 위한 수행 시간을 최적화 하는 방법에 대한 제안을 한다. 하둡 기반으로 시스템을 구성하였고, 분산 Min-hash 클러스터링 기반의 협업 필터링 방법을 제안하고, 이를 기반으로 분산 추천 시스템을 구성하였다. 분산 사용자 기반 협업 필터링 기법을 사용하여 무비렌즈 (Movie Lens)의 영화 평점 데이터를 기반으로 각각의 사용자에게 알맞은 영화를 추천해주는 분산추천 시스템을 구현하고 실험을 통하여 성능의 우수성을 검증하였다.

클라우드 기반의 소셜 네트워크 서비스 시각화 방법 (Visualization Method of Social Networks Service based on Cloud)

  • 김용일;박선;김철원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 춘계학술대회
    • /
    • pp.699-700
    • /
    • 2013
  • 본 논문은 소셜 네트워크상의 내부관계와 외부관계를 반영하여 사용자간의 관계를 사용자 중심으로 계층적 시각화하는 새로운 클라우드 기반의 방법을 제안한다. 제안된 방법은 하둡(hadoop)과 하이프(hive)를 이용하여 분산저장 및 병렬로 계산하며, 계산 결과는 D3를 이용하여 계층적 그래프로 시각화한다.

  • PDF

한국 보건의료 빅데이터 플랫폼에서 웹 기반 OLAP 서버 구현 (An Implementation of Web-Enabled OLAP Server in Korean HealthCare BigData Platform)

  • ;김진혁;정승현;이경희;조완섭
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2017년도 춘계 종합학술대회 논문집
    • /
    • pp.33-34
    • /
    • 2017
  • In 2015, Ministry of Health and Welfare of Korea announced a research and development plan of using Korean healthcare data to support decision making, reduce cost and enhance a better treatment. This project relies on the adoption of BigData technology such as Apache Hadoop, Apache Spark to store and process HealthCare Data from various institution. Here we present an approach a design and implementation of OLAP server in Korean HealthCare BigData platform. This approach is used to establish a basis for promoting personalized healthcare research for decision making, forecasting disease and developing customized diagnosis and treatment.

  • PDF

Hadoop을 활용하여 3D 프린터용 대용량 데이터 처리 알고리즘 개발 (Development of high volumes of data processing algorithm for 3D printers in Hadoop systems)

  • 남기원;이규영;김건영;김주현;김성석;양순옥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.691-693
    • /
    • 2017
  • 하둡 시스템은 대용량의 데이터를 처리할 수 있는 클러스터 기반 개방형 소프트웨어 프레임워크이다. 이는 하둡 분산 파일시스템(HDFS)과 MapReduce 모델을 활용하여 데이터의 병렬 처리를 지원한다. 본 연구에서는 3D 프린터를 위한 3D 모델 데이터를 G-code로 변환하는 알고리즘을 하둡을 활용하여 구현하였다. 4대의 컴퓨터에 하둡 시스템을 설치한 후 전처리-Map-Shuffling-Reduce의 과정을 거쳐 변환작업이 효율적으로 처리하였음을 보일 수 있었다.

중소병원에서의 빅데이터 분석을 위한 분산 노드 관리 방안 (Management of Distributed Nodes for Big Data Analysis in Small-and-Medium Sized Hospital)

  • 류우석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 춘계학술대회
    • /
    • pp.376-377
    • /
    • 2016
  • 빅데이터 분석을 위한 분산 데이터 처리 기술인 하둡 프레임워크의 성능은 데이터를 저장하고 맵리듀스를 수행하는 분산 노드 각각의 성능 및 네트워크의 성능 등의 요소에 영향을 받는다. 본 논문에서는 기존 하둡에서의 분산 노드 관리 기법을 분석하고, 중소병원의 전산 시스템 환경을 고려하여 중소규모의 병원에서 하둡을 도입하기 위해 필요한 분산 노드 관리 기법을 제시한다.

  • PDF

하둡 분산 파일 시스템 기반 소용량 파일 처리를 위한 동적 프리페칭 기법 (A Dynamic Prefetchiong Scheme for Handling Small Files based on Hadoop Distributed File System)

  • 유상현;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.329-332
    • /
    • 2014
  • 클라우드 컴퓨팅이 활성화 됨에 따라 기존의 파일 시스템과는 다른 대용량 파일 처리에 효율적인 분산파일시스템의 요구가 대두 되었다. 그 중에 하둡 분산 파일 시스템(Hadoop Distribute File System, HDFS)은 기존의 분산파일 시스템과는 달리 가용성과 내고장성을 보장하고, 데이터 접근 패턴을 스트리밍 방식으로 지원하여 대용량 파일을 효율적으로 저장할 수 있다. 이러한 장점 때문에, 클라우드 컴퓨팅의 파일시스템으로 대부분 채택하고 있다. 하지만 실제 HDFS 데이터 집합에서 대용량 파일 보다 소용량 파일이 차지하는 비율이 높으며, 이러한 다수의 소 용량 파일은 데이터 처리에 있어 높은 처리비용을 초래 할 뿐 만 아니라 메모리 성능에 악영향을 끼친다. 하지만 소 용량 파일을 프리패칭 함으로서 이러한 문제점을 해결 할 수 있다. HDFS의 데이터 프리페칭은 기존의 데이터 프리페칭의 기법으로는 적용하기 어려워 HDFS를 위한 데이터 프리패칭 기법을 제안한다.

  • PDF