DOI QR코드

DOI QR Code

Performance evaluation and prediction for number of slave nodes in Spark

스파크 기반 분산 환경에서 슬레이브 노드의 개수에 따른 성능 분석과 예측

  • Bak, Bongwoo (Dept of Computer Science and Engineering, Korea University) ;
  • Myung, Rohyoung (Dept of Computer Science and Engineering, Korea University) ;
  • Chung, KwangSik (Dept of Computer Science, Korea National Open University) ;
  • Yu, Heonchang (Dept of Computer Science and Engineering, Korea University) ;
  • Choi, Sukyong (Dept of Computer Science and Engineering, Korea University)
  • 박봉우 (고려대학교 컴퓨터학과) ;
  • 명노영 (고려대학교 컴퓨터학과) ;
  • 정광식 (한국방송통신대학교 컴퓨터학과) ;
  • 유헌창 (고려대학교 컴퓨터학과) ;
  • 최숙경 (고려대학교 컴퓨터학과)
  • Published : 2017.04.27

Abstract

최근 빅 데이터를 이용한 시스템들이 여러 분야에서 활발히 이용되기 시작하면서 대표적인 빅 데이터 저장 및 처리 플랫폼인 하둡(Hadoop)의 기술적 단점을 보완할 수 있는 분산 시스템 플랫폼 스파크(Apache Spark)가 등장하였다. 본 플랫폼을 바탕으로 슬레이브 노드들에게 작업을 분산하여 대용량 연산을 수행한다. 하지만 요구하는 성능을 내기 위해 어느 정도 규모의 슬레이브 노드가 필요한지, 각각의 컴퓨팅 능력은 얼마나 필요한지를 예측하는데 어려움이 있다. 본 논문에서는 스파크에서 원하는 성능을 내기 위해 어떤 조건을 충족해야 하는지, 현재 환경에서는 어느 정도 성능을 낼 수 있는지 실험을 통해 모델을 만들어 예측한다.

Keywords