Trends on Distributed Frameworks for Deep Learning

딥러닝 분산처리 기술동향

  • 안신영 (고성능컴퓨팅시스템연구실) ;
  • 박유미 (고성능컴퓨팅시스템연구실) ;
  • 임은지 (고성능컴퓨팅시스템연구실) ;
  • 최완 (고성능컴퓨팅시스템연구실)
  • Published : 2016.06.01

Abstract

최근 알파고를 통해 인공지능 기술이 전 세계인의 이목을 집중시켰던 반면, 인공지능 연구자들은 인공지능 부활에 결정적 역할을 한 딥러닝 기술에 주목하고 있다. 딥러닝은 다계층 인공신경망 기반의 기계학습 기술로서 최근 컴퓨터 비전, 음성인식, 자연어 처리 분야에서 인식 성능을 높이는 데 중요한 역할을 하고 있다. 딥러닝 기술을 이용하여 기계가 수천만장의 이미지를 학습하여 객체를 인식하게 하고, 수천 시간의 음성 데이터를 학습하여 사람의 말을 알아듣게 처리하는 데에는 다수의 고성능 컴퓨터가 필요하다. 따라서 딥러닝에는 다수의 컴퓨터를 효율적으로 이용하기 위한 분산처리 기술이 필수적이며 관련 연구들이 활발히 진행되고 있다. 이에 본고는 다중 컴퓨터 노드들에서 딥러닝 모델을 분산처리할 수 있는 기존의 프레임워크들을 비교 분석하고 딥러닝 분산처리 기술에 대한 발전 방향을 전망한다.

Keywords

References

  1. 헤럴드경제, "[이세돌 vs 알파고 3국]구글 딥마인드, '불공정게임 말도 안된다'," 2016. 3. 12.
  2. 조선비즈, "[이세돌 vs 알파고] 이지수 슈퍼컴 박사 '알파고 시스템 100억원대 슈퍼컴퓨터...알고리즘으로 승부'," 2016. 3. 10.
  3. X. Chen et al., "Pipelined Back-Propagation for Context-Dependent Deep Neural Networks," Proc. InterSpeech, Sept. 2012.
  4. Q. Le et al., "A. Building High-Level Features Using Large Scale Unsupervised Learning," International Conference on Machine Learning, 2012.
  5. A. Coates et al., "Deep Learning with COTS HPC Systems," Proc. 30th International Conference on Machine Learning, 2013, pp. 1337-1345.
  6. R. Wu et al., "Deep Image: Scaling up Image Recognition," 2015.
  7. Spark Lightning-Fast Cluster Computing, http://spark.apache.org/
  8. H2O, http://www.h2o.ai/
  9. H20 World Training, "Sparkling Water," 2014, https://h2o.gitbooks.io/h2o-training-day/content/hands-on_training/sparkling_water.html
  10. H.J. Kim et al., "DeepSpark: Spark-Based Deep Learning Supporting Asynchronous Updates and Caffe Compatibility," ACM KDD, 2016, http://arxiv.org/abs/1602.08191
  11. P. Moritz et al., "SparkNet: Training Deep Networks in Spark," ICLR, 2016.
  12. N. Irizarry Jr, "Mixing C and $Java^{TM}$ for High Performance Computing," MITRE Technical Report, Sept. 2013.
  13. B.-G. Chun, T. Condie, and C. Curino, "Reef: Retainable Evaluator Execution Framework," Proceedings of the VLDB Endowment, 2013, pp. 1370-1373.
  14. M. Weimer et al., "Reef: Retainable Evaluator Execution Framework," Proc. ACM SIGMOD International Conference on Management of Data, 2015, pp. 1343-1355.
  15. Apache REEF, https://reef.apache.org/
  16. Petuum, http://petuum.github.io/
  17. E.P. Xing and Q. Ho, "A New Look at the System, Algorithm and Theory Foundations of Large-Scale Distributed Machine Learning," Tutorials at KDD, 2015.
  18. H. Zhang et al., "Poseidon: A System Architecture for Efficient GPU-based Deep Learning on Multiple Machines," Dec. 2015, http://arxiv.org/abs/1512.06216
  19. W. Wang et al., "SINGA: Putting Deep Learning in the Hands of Multimedia Users," Proc. 23rd ACM International Conference on Multimedia, 2015, pp. 25-34.
  20. Veles, https://velesnet.ml/jenkins/job/VELES_Python_Veles_Tests/Veles_Machine_Learning_Platform_Documentation/
  21. Computational Network Toolkit(CNTK), https://cntk.codeplex.com/
  22. D. Yu et al., "An Introduction to Computational Networks and the Computational Network Toolkit," Tech. Rep. MSR, Microsoft Research, 2014, http://codebox/cntk
  23. T. Chen et al., "MXNet: A Flexible and Efficient Machine Learning Library for Heterogeneous Distributed Systems," arXiv Preprint arXiv:1512.01274, Dec. 2015.