Applying TIPC Protocol for Increasing Network Performance in Hadoop-based Distributed Computing Environment

Hadoop 기반 분산 컴퓨팅 환경에서 네트워크 I/O의 성능개선을 위한 TIPC의 적용과 분석

  • Published : 2009.10.15

Abstract

Recently with increase of data in the Internet, platform technologies that can process huge data effectively such as Google platform and Hadoop are regarded as worthy of notice. In this kind of platform, there exist network I/O overheads to send task outputs due to the MapReduce operation which is a programming model to support parallel computation in the large cluster system. In this paper, we suggest applying of TIPC (Transparent Inter-Process Communication) protocol for reducing network I/O overheads and increasing network performance in the distributed computing environments. TIPC has a lightweight protocol stack and it spends relatively less CPU time than TCP because of its simple connection establishment and logical addressing. In this paper, we analyze main features of the Hadoop-based distributed computing system, and we build an experimental model which can be used for experiments to compare the performance of various protocols. In the experimental result, TIPC has a higher bandwidth and lower CPU overheads than other protocols.

최근 인터넷 서비스 기반의 데이터는 대용량화되고 있으며 대용량 데이터를 효과적으로 처리할 수 있는 구글 플랫폼, Apache Hadoop과 같은 플랫폼 기술이 각광받고 있다. 이러한 플랫폼에서는 분산 프로그래밍을 위한 기법으로 MapReduce가 수행되며, 이 과정에서 각 태스크의 결과를 전달하기 위한 네트워크 I/O의 부하 문제가 발생한다. 본 논문에서는 구글 플랫폼, Hadoop과 같은 대규모 PC 클러스터상의 분산 컴퓨팅 환경에서 네트워킹 부하를 경감하고 성능을 향상시키는 방안으로 TIPC(Transparent Inter-Process Communication)의 적용을 제안한다. TIPC는 경량화된 연결설정 및 스택 크기, 계층적 주소체계로 인해 TCP보다 가볍고 CPU 부하가 적은 장점을 가지고 있다. 본 논문에서는 Hadoop 기반 분산 컴퓨팅 환경의 특징을 분석하여 그와 유사한 실험환경을 모델화하고 다양한 프로토콜의 비교실험을 수행하였다. 실험결과 평균 전송률에서 CUBIC-TCP, SCTP와 비교해 TIPC의 성능이 가장 우수하였으며, TIPC는 CPU 점유율 측면에서 TCP와 비교해 최대 15%의 낮은 CPU 점유율을 보였다.

Keywords

References

  1. S. Ghemawant. H. Gobioff, and S.-T. Leung, "The Google file system, "19th ACM Symposium on Operating Systems Principles, Oct. 2003
  2. F. Chang, J. Dean, S. Ghemawat, W. C. Hsieh D. A. Wallach, M. Burrows, T. Chandra, A. Fikes, and R. E. Gruber, "BicTable: A distributed storage system for structured data," Seventh Symposium on Operating System Design and -Implementaion, pp.725-726, 2006.
  3. J. Dean and S. Ghemawat, "Mapreduce: Simplified data processing on large clusters," Sixth Symposium on Operating System Design and Implementation, pp. 137-150, 2004.
  4. S. Ha, L. Le, I. Rhee, and L. Xu, "Impact of background traffic on performance of- high-speed tcp variant protocols," Computer Networks, vol. 51, no. 7, pp. 1748-1762, 2007. https://doi.org/10.1016/j.comnet.2006.11.005
  5. R. Stewart and C. Metz, "SCTP: New transport protocol for TCP/IP," IEEE Internet Computing, vol.5, no.6, pp. 64-69, November/December.2001. https://doi.org/10.1109/4236.968833
  6. 송정화, 이미정, 고석주, "SCTP의 멀티호밍 특성에 대한 성능 평가", 한국정보처리학회논문지, 제11-C권 제2호, pp.245-252, 2004년 4월.
  7. 박재성, 고석주, "리눅스 환경에서 SCTP와 TCP 프로토콜의 성능 비교", 한국통신학회논문지, 제33권 제8호, pp.699-706, 2008년 8월
  8. J. P. Maloy, "TIPC: Providing Communication for Linux Clusters," Linux Symposium, vol.2, pp.347-356, 2004.
  9. Stylianos Bounanos, Martin Fleury, "Gb Ethernet Protocols for Clusters: An OpenMPI, TIPC, GAMMA Case Study," The Parallel Computing Conference (ParCo), pp. 397-404, 2007.
  10. Hadoop Wordcount Example, Available: http://wiki.apache.org/hadoop/WordCount
  11. Van Jacobson and etc, The protocol packet capture and dumper program, Available: http://www-nrg.ee.lbl.gov/nrg.html
  12. Hadoop Cluster Setup Document, Available: http://hadoop.apache.org/core/docs/r0.18.0/mapred_tutorial.html
  13. RFC 2616, part of Hypertext Transfer ProtocolHTTP/1.1
  14. Hadoop MapReduce Tutorial, Available: http://hadoop.apache.org/core/docs/r0.18.0/mapred_tutorial.html
  15. Jeffrey Dean and Sanjay Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters," COMMUNICATIONS OF THE ACM, vol.51, no.1, pp. 107-113, January 2008. https://doi.org/10.1145/1327452.1327492