• Title/Summary/Keyword: 하둡 맵리듀스 프레임워크

Search Result 36, Processing Time 0.027 seconds

Large-scale Spatial Reasoning using MapReduce Framework (맵리듀스 프레임워크를 이용한 대용량 공간 추론 방식)

  • Nam, Sang-Ha;Kim, In-Cheol
    • Annual Conference of KIPS
    • /
    • 2014.04a
    • /
    • pp.769-772
    • /
    • 2014
  • Jeopardy 퀴즈쇼와 같은 DeepQA 환경에서 인간을 대신해 컴퓨터가 효과적으로 답하기 위해서는 인물, 지리, 사건, 역사 등을 포함하는 광범위한 지식베이스와 이를 토대로 한 빠른 시공간 추론 능력이 필요하다. 본 논문에서는 대표적인 병렬 분산 컴퓨팅 환경인 하둡/맵리듀스 프레임워크를 이용하여 방향 및 위상 관계를 추론하는 효율적인 대용량의 공간 추론 알고리즘을 제시한다. 본 알고리즘에서는 하둡/맵리듀스 프레임워크의 특성을 고려하여 병렬 분산처리의 효과를 높이기 위해, 지식 분할 문제를 맵 단계에서 해결하고, 이것을 토대로 리듀스 단계에서 효과적으로 새로운 공간 지식을 유도하도록 설계하였다. 또한, 본 알고리즘은 초기 공간 지식베이스로부터 새로운 지식을 유도할 수 있는 기능뿐만 아니라 초기 공간 지식베이스의 불일치성도 미연에 감지함으로써 불필요한 지식 유도 작업을 계속하지 않도록 설계하였다. 본 연구에서는 하둡/맵리듀스 프레임워크로 구현한 대용량 공간 추론기와 샘플공간 지식베이스를 이용하여 성능 분석 실험을 수행하였고, 이를 통해 본 논문에서 제시한 공간 추론 알고리즘과 공간 추론기의 높은 성능을 확인 할 수 있었다.

A study of MapReduce Algorithm for Bigdata (빅데이터 처리를 위한 맵리듀스 연구)

  • Kim, Man-Yun;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.341-342
    • /
    • 2014
  • 지난 10년간 데이터의 폭발적인 증가로 우리는 빅데이터 시대를 맞이하게 되었다. 특히, 최근 몇 년 사이 소셜 네트워크의 발전으로 인해 발생하는 데이터의 양이 증가하면서, 이를 처리하기 위한 시스템으로 하둡이 등장하였다. 이전에는 저장 및 처리할 수 없었던 대용량 데이터를 오픈소스인 하둡의 등장으로 누구나가 대용량 데이터를 처리할 수 있는 시스템을 운영할 수 있게 된 것이다. 대규모 처리 분석을 위한 소프트웨어 프레임워크인 하둡은 클라우드 컴퓨팅의 대표적인 기술로 널리 사용되고 있다. 하둡은 크게 데이터의 저장을 담당하는 HDFS(Hadoop Distribute File System)와 데이터를 처리하는 맵리듀스로 나뉜다. 본 논문에서는 기존의 MapReduce와 차세대 맵리듀스로 불리는 YARN을 비교 분석하고 맵리듀스의 용도와 효율적인 활용방안을 제시한다.

  • PDF

A GPU-enabled Face Detection System in the Hadoop Platform Considering Big Data for Images (이미지 빅데이터를 고려한 하둡 플랫폼 환경에서 GPU 기반의 얼굴 검출 시스템)

  • Bae, Yuseok;Park, Jongyoul
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.1
    • /
    • pp.20-25
    • /
    • 2016
  • With the advent of the era of digital big data, the Hadoop platform has become widely used in various fields. However, the Hadoop MapReduce framework suffers from problems related to the increase of the name node's main memory and map tasks for the processing of large number of small files. In addition, a method for running C++-based tasks in the MapReduce framework is required in order to conjugate GPUs supporting hardware-based data parallelism in the MapReduce framework. Therefore, in this paper, we present a face detection system that generates a sequence file for images to process big data for images in the Hadoop platform. The system also deals with tasks for GPU-based face detection in the MapReduce framework using Hadoop Pipes. We demonstrate a performance increase of around 6.8-fold as compared to a single CPU process.

Task Assignment Policy for Hadoop Considering Availability of Nodes (노드의 가용성을 고려한 하둡 태스크 할당 정책)

  • Ryu, Wooseok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.05a
    • /
    • pp.103-105
    • /
    • 2017
  • Hadoop MapReduce is a processing framework in which users' job can be efficiently processed in parallel and distributed ways on the Hadoop cluster. MapReduce task schedulers are used to select target nodes and assigns user's tasks to them. Previous schedulers cannot fully utilize resources of Hadoop cluster because they does not consider dynamic characteristics of cluster based on nodes' availability. To increase utilization of Hadoop cluster, this paper proposes a novel task assignment policy for MapReduce that assigns a job tasks to dynamic cluster efficiently by considering availability of each node.

  • PDF

"Multi-use Data Platform" 하둡 2.0과 관련 데이터 처리 프레임워크 기술

  • Kim, Jik-Su
    • Broadcasting and Media Magazine
    • /
    • v.22 no.4
    • /
    • pp.11-17
    • /
    • 2017
  • 본 고에서는 멀티 응용 데이터 플랫폼으로 진화하고 있는 하둡(Hadoop) 2.0의 주요 특징과 관련된 다양한 데이터 처리 프레임워크들에 대해서 기술하고자 한다. 기존의 맵리듀스(MapReduce) 기반의 배치 처리(Batch Processing)에 최적화되어 있던 하둡 1.0과는 달리, YARN의 등장과 함께 시작된 하둡 2.0 플랫폼은 다양한 형태의 데이터 처리 워크플로우들(Batch, Interactive, Streaming 등)을 지원할 수 있는 기능을 제공하고 있다. 또한, 최근에는 고성능컴퓨팅 분야에서 주로 활용되던 기술들도 하둡 2.0 플랫폼에서 지원되고 있다. 마지막으로 YARN 어플리케이션 개발 사례로서 본 연구팀에서 개발 중에 있는 Many-Task Computing (MTC) 응용을 위한 신규 데이터 처리 프레임워크를 소개한다.

Implementation and Performance Analysis of Hadoop MapReduce over Lustre Filesystem (러스터 파일 시스템 기반 하둡 맵리듀스 실행 환경 구현 및 성능 분석)

  • Kwak, Jae-Hyuck;Kim, Sangwan;Huh, Taesang;Hwang, Soonwook
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.8
    • /
    • pp.561-566
    • /
    • 2015
  • Hadoop is becoming widely adopted in scientific and commercial areas as an open-source distributed data processing framework. Recently, for real-time processing and analysis of data, an attempt to apply high-performance computing technologies to Hadoop is being made. In this paper, we have expanded the Hadoop Filesystem library to support Lustre, which is a popular high-performance parallel distributed filesystem, and implemented the Hadoop MapReduce execution environment over the Lustre filesystem. We analysed Hadoop MapReduce over Lustre by using Hadoop standard benchmark tools. We found that Hadoop MapReduce over Lustre execution has a performance 2-13 times better than a typical Hadoop MapReduce execution.

Design of a Web-Scale Spatial Knowledge Extractor Using Hadoop MapReduce (하둡 맵리듀스를 이용한 웹 스케일 수준의 공간 지식 추출기 설계)

  • Lee, Seokjun;Kim, Incheol
    • Annual Conference of KIPS
    • /
    • 2015.10a
    • /
    • pp.1326-1329
    • /
    • 2015
  • 최근 들어 공간 지식을 활용한 다양한 서비스들이 개발됨에 따라, 공간 객체들 간의 정성적 공간 관계를 표현한 정성 공간 지식의 수요가 크게 늘어나고 있다. 공간 객체 각각의 세부 정보를 담은 대용량의 공간 데이터들은 개방화가 점차 확대되고 있으나, 공간 객체들 간의 정성적 관계를 표현한 정성 공간 지식은 상대적으로 확보하기 어려운 실정이다. 본 논문에서는 하둡 맵리듀스 병렬 분산 컴퓨터 환경을 이용해, 대용량의 공간 데이터로부터 공간 객체들 간의 위상 관계와 방향 관계를 나타내는 정성 공간 지식을 자동으로 추출하는 공간 지식 추출기를 제안한다. 본 논문에서 제안하는 대용량의 공간 지식 추출기는 맵리듀스 프레임워크를 기반으로 R-트리 색인과 범위 질의들을 효과적으로 이용함으로써, 웹 스케일 수준의 정성 공간 지식을 매우 효율적으로 추출해낸다. Open Street Map (OSM) 공개 데이터를 이용한 성능 분석 실험을 통해, 본 논문에서 제안하는 대용량 공간 지식 추출기의 높은 성능을 확인할 수 있었다.

A Comparison of Multi- Way Join Algorithms in MapReduce (맵리듀스를 이용한 멀티웨이 조인 알고리즘의 비교)

  • Myung, Jae-Seok;Lee, Sang-Goo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.127-130
    • /
    • 2011
  • 맵리듀스는 데이터의 분산 및 병렬 처리를 돕는 프레임워크로서, 하둡과 같은 오픈 소스 맵리듀스 구현이 배포되면서 많은 연구가 이루어지고 있다. 맵리듀스를 이용한 조인은 대용량 데이터 분석을 위한 필수적인 연산이며, 여러 개의 테이블을 한 번의 맵리듀스로 조인하기 위한 멀티웨이 조인 알고리즘에 대한 연구도 계속 진행되고 있다. 이 논문에서는 반복(iteration) 기반 멀티웨이 조인과 중복(replication) 기반 멀티웨이 조인 알고리즘의 장단점을 분석한다. 또한 두 가지 방식의 조인 알고리즘의 단점을 보완하여 하나의 통합적인 2단계 멀티웨이 세미조인을 제시하고, 이를 기존의 방식과 비교한다. 결과적으로, 2단계 멀티웨이 세미조인은 반복 기반의 조인에 비하여 입출력 비용을 절감하고, 중복 기반의 조인에 비하여 커뮤니케이션 비용을 절감한다.

Implementation of a Raspberry-Pi-Sensor Network (라즈베리파이 센서 네트워크 구현)

  • Moon, Sangook
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2014.10a
    • /
    • pp.915-916
    • /
    • 2014
  • With the upcoming era of internet of things, the study of sensor network has been paid attention. Raspberry pi is a tiny versatile computer system which is able to act as a sensor node in hadoop cluster network. In this paper, we deployed 5 Raspberry pi's to construct an experimental testbed of hadoop sensor network with 5-node map-reduce hadoop software framework. We compared and analyzed the network architecture in terms of efficiency, resource management, and throughput using various parameters. We used a learning machine with support vector machine as test workload. In our experiments, Raspberry pi fulfilled the role of distributed computing sensor node in the sensor network.

  • PDF

A Study on The Grid File Construction Method based on MapReduce for Multidimensional Data Processing (다차원 데이터 처리를 위한 맵리듀스 기반의 그리드 파일 생성기법에 관한 연구)

  • Jung, Joo-Hyuk;Lee, Sang-Ho
    • Annual Conference of KIPS
    • /
    • 2014.04a
    • /
    • pp.77-80
    • /
    • 2014
  • 최근 컴퓨터와 인터넷 이용의 확산, 스마트폰을 포함한 스마트 기기의 보급과 소셜 네트워크 이용의 확대, 위치 기반의 다양한 서비스 확대 등으로 처리해야 할 데이터 크기가 증가하는 추세이다. 이에 따라 대용량 데이터에 대한 처리가 큰 이슈로 떠오르고 있다. 그로 인해 대용량 데이터 처리를 위한 큰 규모의 분산 컴퓨팅 환경을 지원하는 프레임워크인 하둡이 개발되었으며 많은 기업에서 이를 활용하고 있는 추세이다. 하지만 대용량 데이터 중 영상, 의료, 센서 데이터 등 다차원 데이터 처리에 관한 연구는 미비한 상태이다. 기존의 다차원 데이터 처리를 위해 다양한 다차원 인덱스가 제안되었지만, 대용량 다차원 데이터 처리는 단일머신에서는 비효율적인 단점이 있다. 본 논문에서는 다차원 인덱스 기법인 그리드 파일을 하둡의 분산 병렬 처리 모델인 맵리듀스를 기반으로 생성하는 기법을 제안한다. 또한 앞서 생성된 그리드 파일을 가지고 맵리듀스를 이용한 질의처리 방법을 제안 한다. 이로 인해 단일머신에서의 그리드 파일 생성을 병렬처리 함으로써 생성 시간을 단축시키고 질의 처리 또한 맵리듀스를 이용하여 병렬 처리 함으로써 질의 시간 단축을 예상한다.