DOI QR코드

DOI QR Code

Delayed Block Replication Scheme of Hadoop Distributed File System for Flexible Management of Distributed Nodes

하둡 분산 파일시스템에서의 유연한 노드 관리를 위한 지연된 블록 복제 기법

  • Ryu, Woo-Seok (Dept. of Health Care Management, Catholic University of Pusan)
  • 류우석 (부산가톨릭대학교 병원경영학과)
  • Received : 2017.04.10
  • Accepted : 2017.04.24
  • Published : 2017.04.30

Abstract

This paper discusses management problems of Hadoop distributed node, which is a platform for big data processing, and proposes a novel technique for enabling flexible node management of Hadoop Distributed File System. Hadoop cannot configure Hadoop cluster dynamically because it judges temporarily unavailable nodes as a failure. Delayed block replication scheme proposed in this paper delays the removal of unavailable node as much as possible so as to be easily rejoined. Experimental results show that the proposed scheme increases flexibility of node management with little impact on distributed processing performance when the cluster size changes.

본 논문에서는 빅 데이터 처리를 위한 플랫폼인 하둡이 가지고 있는 분산 노드 관리 기법의 문제점을 분석하고 하둡 분산 파일시스템에서 노드 관리를 유연하게 처리하기 위한 기법을 제안한다. 기존의 방법은 클러스터에 포함된 노드가 일시적으로 연결되지 않는 경우 이를 즉시 고장으로 판정함으로 인해 클러스터를 동적으로 구성하지는 못하는 문제가 있다. 본 논문에서 제안하는 지연된 블록 복제 기법은 연결이 끊어진 노드가 추후 클러스터에 쉽게 편입될 수 있도록 노드의 제거를 최대한 지연함으로써 노드 관리의 유연성을 제공한다. 실험을 통해 제안하는 기법이 클러스터의 규모가 변화하는 환경에서 분산 처리 성능에 영향을 거의 미치지 않으면서도 노드 관리의 유연성을 증대시키는 것을 입증한다.

Keywords

References

  1. H. Yoon, "Development of Contents on the Marine Meteorology Service by Meteorology and Climate Big Data," J. of The Korea Institute of Electronic Communication Sciences, vol. 11, no. 2, 2016, pp. 125-138. https://doi.org/10.13067/JKIECS.2016.11.2.125
  2. H. Chen, R. Chiang, and V. C. Storey, "Business intelligence and analytics: From big data to big impact," MIS Quarterly, vol. 36, no. 4, 2012, pp. 1165-1188.
  3. C. Ryu, "Context Inference and Sensor Data Classification of Big Data Stream Environment," J. of The Korea Institute of Electronic Communication Sciences, vol. 9, no. 10, 2014, pp. 1079-1085. https://doi.org/10.13067/JKIECS.2014.9.10.1079
  4. W. Raghupathi and V. Raghupathi, "Big data analytics in healthcare: promise and potential," Health Information Science and Systems, vol. 2, no. 1, 2014, pp. 1-10. https://doi.org/10.1186/2047-2501-2-1
  5. J. Choi, "Utilization value of medical Big Data created in operation of medical information system," J. of The Korea Institute of Electronic Communication Sciences, vol. 10, no. 12, 2015, pp. 1403-1410. https://doi.org/10.13067/JKIECS.2015.10.12.1403
  6. K. Shvachko, H. Kuang, S. Radia, and R. Chansler, "The Hadoop Distributed File System," In Proc. IEEE Symp. on Mass Storage Systems and Technologies (MSST), NV, USA, May 2010, pp. 1-10.
  7. D. Borthakur, J. Sarma, and J. Gray, "Apache Hadoop Goes Realtime at Facebook, " In Proc. the 2011 ACM SIGMOD Int. Conf. on Management of data, Athens, Greece, 2011, pp. 1071-1080.
  8. W. Ryu, "Flexible management of data nodes for hadoop distributed file system," In Proc. Int. Conf. on Big Data, Small Data, Linked Data and Open Data (ALLDATA 2017), Venice, Italy, 2017.
  9. T. White, "Hadoop: The definitive guide, 4th Edition," O'Reilly Media, Inc., 2015.