Two-Tree Collective Communication in Grid Computing Systems

그리드 컴퓨팅 시스템에서의 두 개의 트리를 이용한 집합 통신

  • 차광호 (한국과학기술정보연구원 슈퍼컴퓨팅센터) ;
  • 이정희 (한국전자통신연구원 임베디드 S/W센터) ;
  • 한동수 (한국정보통신대학교 공학부) ;
  • 유찬수 (클레베랜드주립대학교)
  • Published : 2004.10.01

Abstract

This paper studies the collective communication in the grid computing environment, which is characterized by the combination of heterogeneous networks as well as uneven, long communication delay. Efficient collective communication requires communication schedule, which in turn requires network information. When the network information is not accurate or network faults occur, the performance of collective communication can be markedly degraded. This paper proposes TTCC(Two-Tree Collective Communication) for scheduling collective communication in the grid. It Provides an efficient and reliable schedule even In this unfavorable network condition by maintaining two disjoint communication trees. Benefits of the proposed method are manifested via simulation, where the performance degradation with TTCC is much slower than those using conventional scheduling algorithms.

본 논문은 이종 네트워크로 구성되어 통신 시간이 상대적으로 길며 또한 지연(delay)이 일정하지 않은 그리드 환경에서 사용되는 MPI의 집합 통신(collective communication)에 관한 연구이다. 일반적으로 효과적인 집합통신에 있어서는 네트워크 정보를 이용한 통신 스케줄을 작성하고 이것에 따라서 실제로 통신하는 전략을 선택하고 있다 전통적인 그리드 집합통신 방식에 있어서도 네트워크 정보가 정확하다는 가정 하에 동일한 접근방식으로 집합통신을 수행하고 있는 상황이다. 하지만 네트워크 환경이 쉽게 변하는 그리드 환경에 있어서는 네트워크 정보가 정확하지 않거나 네트워크 fault가 발생할 경우, 전통적인 방식의 집합 통신은 그 통신 성능이 급격히 감소할 수 있다. 본 논문에서는 그리드에서 집합통신을 위한 스케줄링의 한 방법으로 TTCC(Two-Tree Collective Communication) 알고리즘을 제안한다. TTCC 알고리즘은 서로 다른 에지들로 구성된 두 개의 통신 트리를 이용해 불확실한 네트워크 상태에서도 효과적이고 신뢰성 있는 스케줄링을 제공할 수 있다. TTCC 알고리즘의 효과는 시뮬레이션을 통해 검증하였다. 시뮬레이션 결과 지연(latency)이 커짐에 따라 나타날 수 있는 성능 감소량이 TTCC를 이용할 경우 종래의 스케줄링 알고리즘을 이용하는 것보다 우수한 것으로 판명되었다.

Keywords

References

  1. I. Foster, C. Kesselman, and S. Tuecke, 'The anatomy of the grid: enabling scalable virtual organizations,' The International Journal of Supercomputer Applications, 2001
  2. I. Foster, and C. Kesselman, 'The Globus Project: A status report,' 7th Heterogeneous Computing Workshop, pp. 4-18, 1998
  3. A.S. Grimshaw, and W. A Wulf, 'Legion- A view from 50,000 feet,' 5th IEEE International Symposisum on High Performance Distributed Computing, pp. 89-99, 1996
  4. G. Aloisio, M. Cafaro, C. Kesselman and R. Williams, 'Web access to supercomputing,' IEEE Computing in Science and Enginerring, pp. 66-72, November/December 2001 https://doi.org/10.1109/5992.963430
  5. R. Wolski, 'Dynamically forecasting network performance using the network weather service,' Journal of Cluster Computing, 1998 https://doi.org/10.1023/A:1019025230054
  6. M. Mitzenmacher, 'How useful is old information,' IEEE Transactions on Parallel and Distributed Systems, Vol. 11, No.1, pp. 6-20, Jan, 2000 https://doi.org/10.1109/71.824633
  7. M. Banikazemi, V. Moorthy, and D. K. Panda, 'Efficient collective communication on heterogeneous network of workstations,' International Conference on Parallel Processing, pp. 460-467, 1998 https://doi.org/10.1109/ICPP.1998.708518
  8. M. Bernaschi and G. Iannello, 'Collective communication operations: experimental results vs. theory,' Concurrency: Practice and Experience, pp. 10(5):359-386, 1998 https://doi.org/10.1002/(SICI)1096-9128(19980425)10:5<359::AID-CPE323>3.0.CO;2-7
  9. P. B. Bhat, C. S. Raghavendra, and V. K. Prasanna, 'Efficient collective communication in distributed heterogeneous systems,' 19th IEEE International Conference on Distributed Computing Systems, pp. 15-24, 1999 https://doi.org/10.1109/ICDCS.1999.776502
  10. R. Wolski, N. T. Spring, and J Hayes, 'The network weather service· a distributed resource performance forecasting service for metacomputing,' Journal of Future Generation Computing Systems, pp. 15(5-6):757-768, 1999 https://doi.org/10.1016/S0167-739X(99)00025-4
  11. A. Fei, G. Pei, R. Liu and L. Zhang, 'Measurements on delay and hop~count of the internet,' 3rd Global Internet Mini-Conference in conjunction with IEEE Globecom, 1998
  12. A. Bar-Noy and S. Kipnis, 'Designing broadcasting algorithms in the postal model for message passing systems,' 4th Annual Acm Symposium on P. https://doi.org/10.1145/140901.140903
  13. D. Culler, R. Karp, D. Patterson, A. Sahay, K. E. Schauser, E. Santos, R. Subramonian, and T. von Eicken, 'LogP: Towards a realistic model of parallel computation,' 4th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, pp. 1-12, 1993 https://doi.org/10.1145/155332.155333
  14. M. Banikazemi, J. Sampathkumar, S. Prabhu, D. K. Panda, and P. Sadayappan, 'Communication modeling of heterogeneous networks of workstations for performance characterization of collective operations,' International Workshop on Heterogeneous Computing, pp. 125-131, 1999. https://doi.org/10.1109/HCW.1999.765117
  15. C. Krintz, R. Wolski, 'JavaNws: the network weather for the desktop,' Proceedings of Java Grande, pp 116-125, 1999 https://doi.org/10.1145/337449.337517
  16. CSIM18 web page, http://www.mesQuite.com/