DOI QR코드

DOI QR Code

Performance Comparison of Spatial Split Algorithms for Spatial Data Analysis on Spark

Spark 기반 공간 분석에서 공간 분할의 성능 비교

  • Yang, Pyoung Woo (School of Computer Information and Communication Engineering, Kunsan National University) ;
  • Yoo, Ki Hyun (School of Computer Information and Communication Engineering, Kunsan National University) ;
  • Nam, Kwang Woo (School of Computer Information and Communication Engineering, Kunsan National University)
  • 양평우 (군산대학교 컴퓨터정보공학과) ;
  • 유기현 (군산대학교 컴퓨터정보공학과) ;
  • 남광우 (군산대학교 컴퓨터정보공학과)
  • Received : 2016.12.09
  • Accepted : 2017.01.06
  • Published : 2017.03.31

Abstract

In this paper, we implement a spatial big data analysis prototype based on Spark which is an in-memory system and compares the performance by the spatial split algorithm on this basis. In cluster computing environments, big data is divided into blocks of a certain size order to balance the computing load of big data. Existing research showed that in the case of the Hadoop based spatial big data system, the split method by spatial is more effective than the general sequential split method. Hadoop based spatial data system stores raw data as it is in spatial-divided blocks. However, in the proposed Spark-based spatial analysis system, there is a difference that spatial data is converted into a memory data structure and stored in a spatial block for search efficiency. Therefore, in this paper, we propose an in-memory spatial big data prototype and a spatial split block storage method. Also, we compare the performance of existing spatial split algorithms in the proposed prototype. We presented an appropriate spatial split strategy with the Spark based big data system. In the experiment, we compared the query execution time of the spatial split algorithm, and confirmed that the BSP algorithm shows the best performance.

본 논문은 인 메모리 시스템인 Spark에 기반 한 공간 빅 데이터 분석 프로토타입을 구현하고, 이를 기반으로 공간 분할 알고리즘에 따른 성능을 비교하였다. 클러스터 컴퓨팅 환경에서 빅 데이터의 컴퓨팅 부하를 균형 분산하기 위해, 빅 데이터는 일정 크기의 순차적 블록 단위로 분할된다. 기존의 연구에서 하둡 기반의 공간 빅 데이터 시스템의 경우 일반 순차 분할 방법보다 공간에 따른 분할 방법이 효과적임이 제시되었다. 하둡 기반의 공간 빅 데이터 시스템들은 원 데이터를 그대로 공간 분할된 블록에 저장한다. 하지만 제안된 Spark 기반의 공간 분석 시스템에서는 검색 효율성을 위해 공간 데이터가 메모리 데이터 구조로 변환되어 공간 블록에 저장되는 차이점이 있다. 그러므로 이 논문은 인 메모리 공간 빅 데이터 프로토타입과 공간 분할 블록 저장 기법을 제시하였다, 또한, 기존의 공간 분할 알고리즘들을 제안된 프로토타입에서 성능 비교를 하여 인 메모리 환경인 Spark 기반 빅 데이터 시스템에서 적합한 공간 분할 전략을 제시하였다. 실험에서는 공간 분할 알고리즘에 대한 질의 수행 시간에 대하여 비교를 하였고, BSP 알고리즘이 가장 좋은 성능을 보여주는 것을 확인할 수 있었다.

Keywords

References

  1. Ahn, J. K., Yi, M. S. and Shin, D. B., 2016, Study for spatial big data concept and system building, Journal of Korea Spatial Information Society, Vol. 21, No. 5, pp. 43-51.
  2. Aji, A., Vo, H. and Fusheng, W., 2015, Effective spatial data partitioning for scalable query processing, arXiv e-print, https://arxiv.org/abs/1509.00910
  3. Aji, A., Vo, H., Fusheng, W., Lee, R., Zhang, X., Saltz, J., 2013, Hadoop GIS : a high performance spatial data warehousing system over mapreduce, VLDB Endowment, Vol. 6, No. 11, pp. 1009-1020. https://doi.org/10.14778/2536222.2536227
  4. Eldawy, A., Alarabi, L. and Mokbel, M. F., 2015, Spatial partitioning techniques in SpatialHadoop, Proc. of 41st International Conference on Very Large Data Bases, VLDB Endowment, Hawaii, USA, pp. 1602-1605.
  5. Eldawy, A. and Mokbel, M. F., 2015, SpatialHadoop: A MapReduce framework for spatial data, 2015, Proc. of IEEE 31st International conference on Data Engineering, IEEE, Seoul, Korea, pp. 1352-1363.
  6. Evans, M. R., Oliver, D., Zhou, X. and Shekhar, S., 2014, Spatial big data, In:Hassan A. K. (eds.), Big data: techniques and technologies in geoinformatics, Taylor & Francis Group, UK, pp. 149-156.
  7. Kim, M. S, Jang, I. S., 2016 Efficient in-memory processing for huge amounts of heterogeneous geo-sensor data, Spatial Information Research, Vol. 24, No. 3, pp. 313-322. https://doi.org/10.1007/s41324-016-0029-7
  8. Maden, S., 2012, From database to big data, IEEE Internet Computing, Vol. 16, No. 3, pp. 4-6. https://doi.org/10.1109/MIC.2012.50
  9. Tang, M., Yu, Y., Malluhi, Q. M. and Aref, W. G., 2015, LocationSpark: a distributed in-memory data management system for big spatial data, VLDB Endowment, Vol. 9, No. 13, pp. 1565-1568.
  10. Yu, J., Wu, J., Sarwat, M., 2015, GeoSpark: a cluster computing framework for processing large-scale spatial data, Proc. of 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems, ACM SIGSPATIAL, Seattle, USA, CD-ROM.
  11. Zaharia, M., Chowdhury, M., Das, T., Dave, A., Ma, J., McCauley, M., Franklin, M., Shenker, S. and Stoica, I, 2012, Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing, Proc. of the 9th USENIX Symposium on networked systems design and implementation, USENIX Association, San Jose, USA, pp. 15-28.