• 제목/요약/키워드: Hadoop Scheduler

검색결과 4건 처리시간 0.018초

하둡 클러스터의 네트워크 사용량 감소를 위한 블록 재배치 알고리즘 (A Block Relocation Algorithm for Reducing Network Consumption in Hadoop Cluster)

  • 김준상;김창현;이원주;전창호
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권11호
    • /
    • pp.9-15
    • /
    • 2014
  • 본 논문에서는 하둡 클러스터의 네트워크 사용량 감소를 위한 블록 재배치 알고리즘을 제안한다. 하둡 클러스터의 스케줄러는 사용자들에게 작업을 받아 다중 태스크로 작업을 나누어서 각 노드들에게 할당한다. 이 때 스케줄러는 데이터 지역성(Data locality)을 만족시키는 노드에 우선적으로 태스크를 할당한다. 만약 처리할 데이터(블록)가 없는 노드에 태스크가 할당되면 다른 노드로부터 전송받아 처리한다. 클러스터의 블록들은 사용 빈도가 각각 다르기 때문에 노드 간 작업 부하의 차이가 발생하며 이로 인해 노드 간 데이터 전송이 빈번해진다. 그래서 제안하는 블록 재배치 알고리즘은 하둡 스케줄러의 작업 할당 패턴에 따라 블록들을 균등하게 재배치한다. 결국 노드들의 작업부하는 평준화 되고 처리할 블록이 없는 노드에서 태스크를 처리하는 경우가 감소하기 때문에 클러스터의 네트워크 트래픽이 감소한다. 시뮬레이션으로 제안하는 블록 재배치 정책의 성능평가를 진행했으며 기본 지연 스케줄링으로 작업을 처리한 경우와 비교하여 최대 23.3%의 네트워크 사용량 감소를 보였다.

The Creation and Placement of VMs and Tasks in Virtualized Hadoop Cluster Environments

  • Kim, Tae-Won;Chung, Hae-jin;Kim, Joon-Mo
    • 한국멀티미디어학회논문지
    • /
    • 제15권12호
    • /
    • pp.1499-1505
    • /
    • 2012
  • Recently, the distributed processing system for big data has been actively investigated owing to the development of high speed network and storage technologies. In addition, virtual system that can provide efficient use of system resources through the consolidation of servers has been increasingly recognized. But, when we configure distributed processing system for big data in virtual machine environments, many problems occur. In this paper, we did an experiment on the optimization of I/O bandwidth according to the creation and placement of VMs and tasks with composing Hadoop cluster in virtual environments and evaluated the results of an experiment. These results conducted by this paper will be used in the study on the development of Hadoop Scheduler supporting I/O bandwidth balancing in virtual environments.

가상화된 Hadoop 클러스터 환경에서 I/O 대역폭을 고려한 최적VM 생성 (An Optimal VM creation by considering I/O Bandwidth in Virtualized Hadoop Cluster Environments)

  • 김태원;김현준;김준모
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.151-153
    • /
    • 2012
  • 최근 고속 네트워크와 저장 기술의 발전으로 인하여 대용량 데이터 분산 처리 시스템에 관한 연구가 활발히 진행되고 있다. 또한 서버의 통합을 통해 시스템 자원의 효율적인 활용을 제공할 수 있는 시스템 가상화가 많은 주목을 받고 있다. 그러나 가상 머신 환경에서 대용량 데이터 분산처리 시스템을 구성할 경우 많은 문제가 발생하게 된다. 본 논문에서는 가상 머신 환경에서 Hadoop 클러스터를 활용할 때 가상 데이터 노드의 개수에 따른 I/O 대역폭 최적화에 대한 실험을 하고 평가를 한다. 본 논문에서 수행한 실험 결과는 가상 머신 환경에서 I/O 대역폭 밸런싱(balancing)을 지원하는 Hadoop Scheduler의 개발 연구에 사용될 것이다.

A Novel Method of Improving Cache Hit-rate in Hadoop MapReduce using SSD Cache

  • Kim, Jong-Chan;An, Jae-Hoon;Kim, Young-Hwan;Jeon, Ki-Man
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권8호
    • /
    • pp.1-6
    • /
    • 2015
  • The MapReduce Program of Hadoop Distributed File System operates on any unspecified nodes due to distributed-parallel process and block replicate for data stability. Since it is difficult to guarantee the cache locality when a Solid State Drive is used as a cache in hadoop, cache hit-rate is decreased. In this paper, we suggest a method to improve cache hit rate by pre-loading the input data of the MapReduce onto the SSD cache. To perform this method, we estimated the blocks that are used on each node by using capacity scheduler and block metadata. Eventually we could increase the performance of SSD cache by loading the blocks onto SSD cache before the Map Task run.