DOI QR코드

DOI QR Code

Development of Retargetable Hadoop Simulation Environment Based on DEVS Formalism

DEVS 형식론 기반의 재겨냥성 하둡 시뮬레이션 환경 개발

  • Received : 2017.12.14
  • Accepted : 2017.12.18
  • Published : 2017.12.31

Abstract

Hadoop platform is a representative storing and managing platform for big data. Hadoop consists of distributed computing system called MapReduce and distributed file system called HDFS. It is important to analyse the effectiveness according to the change of cluster constructions and several parameters. However, since it is hard to construct thousands of clusters and analyse the constructed system, simulation method is required to analyse the system. This paper proposes Hadoop simulator based on DEVS formalism which provides hierarchical and modular modeling. Hadoop simulator provides a retargetable experimental environment that is possible to change of various parameters, algorithms and models. It is also possible to design input models reflecting the characteristics of Hadoop applications. To maximize the user's convenience, the user interface, real-time model viewer, and input scenario editor are also provided. In this paper, we validate Hadoop Simulator through the comparison with the Hadoop execution results and perform various experiments.

최근 빅 데이터가 증가하는 추세에 따라 이를 분석 및 처리하고 활용하는 방안에 대한 관심도 증대되고 있다. 이러한 빅 데이터를 저장, 관리하기 위한 대표적인 플랫폼으로 분산 컴퓨팅 프레임워크인 맵리듀스와 분산 파일 시스템인 HDFS로 구성된 하둡 플랫폼이 있다. 하둡은 일반적으로 수백 수천 대 이상의 클러스터로 구축되는데, 이 때 실제 클러스터 구성이나 파라미터에 따라 하둡 플랫폼이 가지는 효과도를 분석하는 것이 중요하다. 하지만 수천 대 이상의 클러스터 구축하여 이를 분석하는 것이 실질적으로 어렵기 때문에 모델링 및 시뮬레이션 기법을 통해 분석하는 것이 필요하다. 본 논문은 계층적이고 모듈러한 모델링이 가능한 DEVS 형식론을 기반으로 하둡 시뮬레이션 환경을 제안한다. 제안하는 시뮬레이션 환경은 하둡 실행 결과를 이용한 입력 모델 설계를 통해 어플리케이션의 특성을 잘 반영할 수 있으며, 파라미터/알고리즘/모델들을 다양하게 변경하여 실험할 수 있는 재겨냥성 환경을 제공한다. 또한 사용자 편의성의 극대화를 위해 사용자 인터페이스, 실시간 모델 뷰어, 입력 시나리오 편집기를 제공한다. 본 논문에서는 어플리케이션 실행 결과와의 비교를 통해 하둡 시뮬레이터를 검증하고, 다양한 파라미터에 대한 실험을 진행한다.

Keywords

References

  1. Apache Hadoop, http://hadoop.apache.org (last accessed: 12.12.17.)
  2. Dean, J. and S. Ghemawat (2008) "MapReduce: Simplified data processing on large clusters", Communications of the ACM, 51(1), 107-113. https://doi.org/10.1145/1327452.1327492
  3. Hammoud, S., M. Li, Y. Liu, N.K. Alham and Z. Liu (2010) "MRSim: A discrete event based MapReduce simulator", In Fuzzy Systems and Knowledge Discovery (FSKD), 2010 Seventh International Conference on, 2993-2997.
  4. Hashem, I.A.T., I. Yaqoob, N.B. Anuar, et al. (2015) "The rise of Big Data on cloud computing: Review and open research issues", Information Systems, 47, 98-115. https://doi.org/10.1016/j.is.2014.07.006
  5. Kim, B.S. and T.G. Kim (2017) "Cooperation between data modeling and simulation modeling for performance analysis of Hadoop", In Performance Evaluation of Computer and Telecommunication Systems (SPECTS), 2017 International Symposium on, 1-7.
  6. Kim, T.G. (2017) http://sim.kaist.ac.kr/course/EE612/, Lecture Note on EE612: Discrete Event Systems Modeling and Simulation, School of Electrical Engineering, KAIST
  7. Kim, T.G. and C.H. Sung (2007) "Objective-driven DEVS modeling Using OPI matrix for performance evaluation of discrete event systems", In Proceedings of the 2007 Summer Computer Simulation, San Diego, CA, USA, Jul.
  8. Kim, T.G., C.H. Sung, S.Y. Hong, et al. (2011) "DEVSim++ toolset for defense modeling and simulation and interoperation", The Journal of Defense Modeling and Simulation: Applications, Methodology, Technology, 8(3), 129-142. https://doi.org/10.1177/1548512910389203
  9. Liu, Y., M. Li, N.K. Alham and S. Hammoud (2013) "HSim: a MapReduce simulator in enabling cloud computing", Future Generation Computer Systems, 29(1), 300-308. https://doi.org/10.1016/j.future.2011.05.007
  10. Shvachko, K., H. Kuang, S. Radia and R. Chansler (2010) "The Hadoop Distributed File System", 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies, Incline Village, USA, May.
  11. Wang, G., A.R. Butt, P. Pandey and K. Gupta (2009) "Using realistic simulation for performance analysis of mapreduce setups", Proceedings of the 1st ACM workshop on Large-Scale system and application performance.
  12. Wu, X., Y. Liu and I. Gorton (2015) "Exploring performance models of Hadoop applications on cloud architecture", Proceedings of the 11th International ACM SIGSOFT Conference on Quality of Software Architectures, 93-101.
  13. Zeigler, B.P., H. Praehofer, and T.G. Kim (2001) Theory of modeling and simulation, 2nd ed., ACADEMIC PRESS.