DOI QR코드

DOI QR Code

Data Transmitting and Storing Scheme based on Bandwidth in Hadoop Cluster

하둡 클러스터의 대역폭을 고려한 압축 데이터 전송 및 저장 기법

  • Received : 2019.12.09
  • Accepted : 2019.12.18
  • Published : 2019.12.31

Abstract

The size of data generated and collected at industrial sites or in public institutions is growing rapidly. The existing data processing server often handles the increasing data by increasing the performance by scaling up. However, in the big data era, when the speed of data generation is exploding, there is a limit to data processing with a conventional server. To overcome such limitations, a distributed cluster computing system has been introduced that distributes data in a scale-out manner. However, because distributed cluster computing systems distribute data, inefficient use of network bandwidth can degrade the performance of the cluster as a whole. In this paper, we propose a scheme that compresses data when transmitting data in a Hadoop cluster considering network bandwidth. The proposed scheme considers the network bandwidth and the characteristics of the compression algorithm and selects the optimal compression transmission scheme before transmission. Experimental results show that the proposed scheme reduces data transfer time and size.

산업 현장과 공공 기관에서 생성 및 수집되는 데이터의 크기가 빠르게 증가하고 있다. 기존의 데이터 처리 서버는 스케일업 방식으로 성능을 높여 증가하는 데이터를 처리하였다. 그러나 데이터의 생성 속도가 폭증하는 빅데이터 시대에는 기존 방식의 서버로는 데이터 처리에 한계가 있다. 이러한 한계를 극복하기 위해 스케일 아웃 방식으로 데이터를 분산 처리하는 분산 클러스터 컴퓨팅 시스템이 등장하게 되었다. 그러나 분산 클러스터 컴퓨팅 시스템은 데이터를 분산 처리하기 때문에 네트워크 대역폭을 비효율적으로 사용할 경우 클러스터 전체의 성능을 하락시킬 수 있다. 본 논문에서는 네트워크 대역폭을 고려하여 하둡 클러스터에서 데이터 전송 시 데이터를 압축 전송하는 기법을 제안한다. 제안 기법은 네트워크 대역폭과 압축 알고리즘의 특징을 고려하여 최적의 압축 전송 기법을 선정 후 전송한다. 실험 결과는 제안 기법을 사용할 경우 데이터 전송 시간과 크기를 감소시킨 것을 보여준다.

Keywords

References

  1. 김남호, 노진헌, 정희자, "RFID/NFC 물류의 빅 데이터 처리를 위한 하둡 시스템의 설계," 스마트미디어저널, 제2권, 제3호, 47-53쪽, 2013년 9월
  2. https://wikibon.com/wikibons-2018-big-data-analytics-trends-forecast (accessed Nov., 22, 2019).
  3. 이영훈, 김용일, "Hadoop 클러스터에서 네임 노드와 데이터 노드가 빅 데이터처리 성능에 미치는 영향에 관한 연구," 스마트미디어저널, 제6권, 제3호, 68-74쪽, 2017년 9월
  4. M. Laurent and R. James, "Bandwidth Sharing: Objectives and Algorithms," IEEE/ACM Transactions on Networking, vol. 10, pp. 320-328, 2002. https://doi.org/10.1109/TNET.2002.1012364
  5. J. Pane and L. Joe, "Making Better Use of Bandwidth, Data Compression and Network Management Technologies," Technical Report, Santa Monica, 2005.
  6. R. Ehab, "PERFORMANCE EVALUATION OF DATA COMPRES-SION TECHNIQUES VERSUS DIFFERENT TYPES OF DATA," International Journalof Computer Science and Information Security, vol. 11, no. 12, pp. 73-78, 2013.
  7. 노승준, 엄영익, "하둡 시스템의 네트워크 자원 사용량 감소를 위한 스트리밍 압축 기법," 한국정보과학회, 2018
  8. R. Kritwara and K. Sureerat, "Imporving Hadoop MapReduce Performance with Data Compression: A Study using Wordcount Job," Proc. of the 14th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI -CON ), pp. 564-567, IEEE, 2017
  9. F. Xinxin, L. Bo, Z. Yuan, and Z. Tianning, "Adding network bandwidth resource management to Hadoop YARN," Proc. of the Seventh International Conference on Information Science and Technology(ICIST), pp. 444-449, 2017.
  10. Y. Guo, J. Rao, and X. Zhou, "iShuffle: Improving Hadoop Performance with Shuffle-on-Write," IEEE transactions on parallel and distributed systems, 2016.
  11. H. Herodotos, "Hadoop Performance Models," Technical Report CS-2011-05, Duke Computer Science, 2011.
  12. https://github.com/inikep/lzbench (accessed Nov., 22, 2019).