DOI QR코드

DOI QR Code

A Study on Buffer Optimization System for Improving Performance in Spark Cluster

Spark 클러스터 환경에서 분산 처리 성능 향상을 위한 Buffer 최적화 시스템 연구

  • Seok-Min Hong (Dept. of Computer Engineering, SoongSil University) ;
  • So-Yeoung Lee (Dept. of Computer Engineering, SoongSil University) ;
  • Yong-Tae Shin (School of Computing, SoongSil University)
  • 홍석민 (숭실대학교 컴퓨터학과) ;
  • 이소영 (숭실대학교 컴퓨터학과) ;
  • 신용태 (숭실대학교 컴퓨터학부)
  • Published : 2023.05.18

Abstract

Statista 통계 조사에 따르면 데이터의 규모는 매년 증가할 것으로 예상하고 빅데이터 처리 프레임워크의 관심이 높아지고 있다. 빅데이터 처리 프레임워크 Spark는 Shuffle 과정에서 노드 간 데이터 전송이 일어난다. 이때 분산 처리한 데이터를 네트워크로 전송하기 위해 객체를 바이트 스트림으로 변환하여 메모리 buffer에 담는 직렬화 작업이 필요하다. 그러나 바이트 스트림을 buffer에 담는 과정에서 바이트 스트림의 크기가 메모리 buffer보다 클 경우, 메모리 할당 과정이 추가로 발생하여 전체적이 Spark의 성능 저하로 이어질 수 있다. 이에 본 논문에서는 Spark 환경에서 분산 처리 성능 향상을 위한 직렬화 buffer 최적화 시스템을 제안한다. 제안하는 방법은 Spark Driver가 Executor에게 작업을 할당하기 전 직렬화된 데이터 크기 측정과 직렬화 옵션 설정을 통해 Executor에게 적절한 buffer를 할당할 수 있다. 향후 제안하는 방법의 검증을 위해 실제 Spark 클러스터 환경에서 성능 평가가 필요하다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 대학ICT연구센터육성지원사업의 연구결과로 수행되었음 (IITP-2023-2020-0-01602)