"Multi-use Data Platform" 하둡 2.0과 관련 데이터 처리 프레임워크 기술

  • Published : 2017.10.30

Abstract

본 고에서는 멀티 응용 데이터 플랫폼으로 진화하고 있는 하둡(Hadoop) 2.0의 주요 특징과 관련된 다양한 데이터 처리 프레임워크들에 대해서 기술하고자 한다. 기존의 맵리듀스(MapReduce) 기반의 배치 처리(Batch Processing)에 최적화되어 있던 하둡 1.0과는 달리, YARN의 등장과 함께 시작된 하둡 2.0 플랫폼은 다양한 형태의 데이터 처리 워크플로우들(Batch, Interactive, Streaming 등)을 지원할 수 있는 기능을 제공하고 있다. 또한, 최근에는 고성능컴퓨팅 분야에서 주로 활용되던 기술들도 하둡 2.0 플랫폼에서 지원되고 있다. 마지막으로 YARN 어플리케이션 개발 사례로서 본 연구팀에서 개발 중에 있는 Many-Task Computing (MTC) 응용을 위한 신규 데이터 처리 프레임워크를 소개한다.

Keywords

References

  1. Apache Hadoop: https://hadoop.apache.org/
  2. Vinod Kumar Vavilapalli et. al., "Apache Hadoop YARN: yet another resource negotiator", Proceedings of the 4th annual Symposium on Cloud Computing (SOCC'13), October 2013.
  3. J. J. Dongarra, S. W. Otto, M. Snir, and D. Walker, "A message passing standard for MPP and workstations", Communications of the ACM, 39(7):84-90, 1996. https://doi.org/10.1145/233977.234000
  4. Lu, X., Liang, F., Wang, B., Zha, L., Xu, Z., "DataMPI: extending MPI to Hadoop-like big data computing", Proceedings of the 28th IEEE International Parallel and Distributed Processing Symposium (IPDPS '14) (2014)
  5. Xu, L., Li, M., Butt, A.R., "GERBIL: MPI+YARN", Proceedings of the 15th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGrid) (2015)
  6. Ye, J., Chow, J.H., Chen, J., Zheng, Z., "Stochastic gradient boosted distributed decision trees", Proceedings of the 18th ACM conference on Information and knowledge management (CIKM'09) (2009)
  7. I. Raicu, I. Foster and Y. Zhao, "Many-Task Computing for Grids and Supercomputers", Proc. of the IEEE/ACM Workshop on Many-Task Computing on Grids and Supercomputers (MTAGS '08), 2008.
  8. Kim, J.S., Nguyen, C., Hwang, S., "MOHA: many-task computing meets the big data platform", Proceedings of the IEEE 12th International Conference on eScience (eScience 2016) (2016)
  9. Apache Hive: https://hive.apache.org/
  10. Hadoop 2.0 (YARN) Framework - The Gateway to Easier Programming for Hadoop Users: https://www.dezyre.com/article/hadoop-2-0-yarn-framework-the-gateway-to-easier-programming-for-hadoop-users/84
  11. Apache Hadoop YARN: https://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/YARN.html
  12. J. Kreps, N. Narkhede, and J. Rao. "Kafka: A distributed messaging system for log processing", NetDB, 2011.
  13. Apache Kafka: https://kafka.apache.org/