DOI QR코드

DOI QR Code

이중 연결 구조 CC-NUMA 시스템의 효율적인 상호 연결망 구성 기법

An efficient interconnection network topology in dual-link CC-NUMA systems

  • 서효중 (가톨릭대학교 컴퓨터정보공학부)
  • 발행 : 2004.02.01

초록

반도체 미세 공정의 개발과 더불어, 높아진 집적도 및 동작 클럭의 고속화로 단일 프로세서 시스템 성능은 지속적으로 개선되고 있다. 이 결과 기가헬즈 이상의 클럭 속도를 가지는 개인용 컴퓨터가 보편적인 데스크 탑 시스템으로 자리잡게 되었으며, 불과 수년 전의 고가 대형 시스템은 점차 이러한 작은 시스템들을 상호 연결망으로 연결한 형태로 급속히 대체되어가고 있다. 이러한 구조의 클러스터 컴퓨터는 높은 확장성과 고성능을 얻을 수 있으므로, 점차 그 영역을 확대해나가고 있으나, 상호 연결망의 대역폭 및 지연에 따라 성능 제한 요소는 여전히 존재하고 있으며, 이러한 이유로 SCI, Myrinet, Gigabit Ethernet 등 고속의 상호 연결망이 클러스터 시스템의 연결 구조로 사용되고 있다. 프로세서 속도의 개발과 더불어 상호 연결망의 속도 또한 개선되어 왔는데, 상호 연결망은 그 대역폭을 늘리는 것과, 상호 연결망을 이용한 경우의 통신 시간지연의 축소로 볼 수 있다. 대역폭의 확장 및 지연시간의 단축은 상호 연결망의 고속화를 통하여 이루어질 수 있으나, 작은 면적에 집적되어 있는 프로세서와는 달리, 보다 넓은 면적에 펼쳐져 있는 상호 연결망의 동작 속도는, 물리적 거리에 의한 지연으로 인하여 개선의 난이도가 높으며, 따라서 클러스터 시스템의 확장 규모는 상호 연결망의 병목 현상에 의하여 제한된다고 할 수 있다. 이러한 이유로 보다 높은 대역폭의 상호 연결망을 구현하려는 노력은 복수개의 연결 구조를 이용한 형태로 개선되어 왔으며, 고속으로 동작하는 SCI 점 대 점 연결구조론 이용한 다중연결 형태의 시스템이 활발히 연구되어 왔다. 본 논문은 이러한 이중 점 대 점 연결 구조 시스템의 성능 제한 요소인 접근 시간 및 효율을 개선하기 위하여, 두개 중 하나의 점 대 점 연결을 링 형태로, 나머지 하나는 링을 몇 개의 노드의 묶음으로 분할하여 연결하는 구성을 제시하였으며, 방송 및 일 대 일 전송에 적합한, 간단하고 효율적인 경로 설정 방법과 적절한 묶음의 수를 제시하였다. 본 논문에 제시한 구조의 시스템의 성능 측정의 비교 대상으로, 최신 시스템에 채용되어 있는 반대방향 이중 링 구조를 비교 대상으로 하였으며, 반대방향 이중 연결 구조에 비하여 단 논문에 제시한 상호연결망 구성 및 트랜잭션 경로 설정 방법이 상대적으로 우수함을 시뮬레이션을 통하여 검증하였다. 실험 결과, 본 논문에서 제안한 상호연결망 구조 및 트랜잭션 경고 설정 방법을 이용한 경우, 반대방향 이중 링 구조의 시스템 구조에 비하여 단위 트랜잭션의 처리 시간이 1.05∼l.11배 향상되었으며, 시스템의 성능은 1.42∼2.1배 향상되었다.

The performance of the multiprocessor systems is limited by the several factors. The system performance is affected by the processor speed, memory delay, and interconnection network bandwidth/latency. By the evolution of semiconductor technology, off the shelf microprocessor speed breaks beyond GHz, and the processors can be scalable up to multiprocessor system by connecting through the interconnection networks. In this situation, the system performances are bound by the latencies and the bandwidth of the interconnection networks. SCI, Myrinet, and Gigabit Ethernet are widely adopted as a high-speed interconnection network links for the high performance cluster systems. Performance improvement of the interconnection network can be achieved by the bandwidth extension and the latency minimization. Speed up of the operation clock speed is a simple way to accomplish the bandwidth and latency betterment, while its physical distance makes the difficulties to attain the high frequency clock. Hence the system performance and scalability suffered from the interconnection network limitation. Duplicating the link of the interconnection network is one of the solutions to resolve the bottleneck of the scalable systems. Dual-ring SCI link structure is an example of the interconnection network improvement. In this paper, I propose a network topology and a transaction path algorism, which optimize the latency and the efficiency under the duplicated links. By the simulation results, the proposed structure shows 1.05 to 1.11 times better latency, and exhibits 1.42 to 2.1 times faster execution compared to the dual ring systems.

키워드

참고문헌

  1. D. S. Henty, 'Performance of Hybrid Message-Passing and Shared-Memory Parallelism for Discrete Element Modeling,' Proc. of the 2000 ACM/IEEE conf. on Supercomputing, article No.10, 2000 https://doi.org/10.1109/SC.2000.10005
  2. G. A. Abandah and E. S. Davidson, 'Characterizing Distributed Shared Memory Performance : A Case Study of the Convex SPP1000,' IEEE Trans. on Parallel and Distributed Systems, Vol.9, No.2, pp.206-216, Feb., 1998 https://doi.org/10.1109/71.663946
  3. IEEE Computer Society, IEEE Standard for Scalable Coherent Interface (SCI), Institute of Electrical and Electronics Engineers, August, 1993
  4. Jonathan Kay and Joseph Pasquale, 'Profiling and Reducing Processing Overheads in TCP/IP,' IEEE Trans. on Networking, Vol.4n, No.6, pp.817-828, 1996 https://doi.org/10.1109/90.556340
  5. H. Oi and N. Ranganathan, 'Performance Analysis of the Bidirectional Ring-Based Multiprocessor,' Proc. of ISCA 10th International Conf. on Parallel and Distributed Computing Systems, pp.397-400, October, 1997
  6. http://www.ibm.com/servers/eserver/clusters
  7. S. J. Eggers and R. H. Katz, 'Evaluating the performance of four snooping cache coherency protocols,' Proc. of the 16th International Symposium on Computer Architecture, New York, June, 1989
  8. T. Anderson and D. Culler and D. Patterson, 'A Case for NOW (Networks of Workstations),' IEEE Micro, Vol.15, No.1, pp.54-64, Feb., 1995 https://doi.org/10.1109/40.342018
  9. http://www.beowulf.org
  10. Message Passing Interface Forum, MPI: A Message-Passing Interface Standard, UT-CS-94-230, 1994
  11. Intel, Compaq and Microsoft Corporations, Virtual Interface Architecture specification Version 1.0, December, 1997, http://www.viarch.org/
  12. Tom Lovett and Russel Clapp, 'STiNG: A CC-NUMA Computer System for the Commercial Marketplace,' Proc. of the 23th International Symposium on Computer Architecture, pp.308-317, May, 1996 https://doi.org/10.1109/ISCA.1996.10001
  13. L. Barroso and M. Dubois, 'The Performance of Cache-Coherent Ring-based Multiprocessors,' Proc. of the 20th International Symposium on Computer Architecture, pp. 268-277, May, 1993
  14. http://www.dg.com/
  15. http://panda.snu.ac.kr/nrl/
  16. Hitoshi Oi and N. Ranganathan, 'A Comparative Study of Bidirectional Ring and Crossbar Interconnection Networks,' Proc. of the 1998 International Conf. on Parallel and Distributed Processing Techniques and Applications, pp. 883-890, July, 1998
  17. A-T. Nguyen, M. Michael, A. Sharma and J. Torrellaz, 'The Augmint multiprocessor simulation toolkit for Intel x86 architecture,' Proc. of the IEEE International Conference on Computer Design, Oct., 1996
  18. S. C. Woo, M. Ohara, E. Torrie, J. P. Singh and A. Gupta. 'Methodological considerations and characterization of the SPLASH -2 parallel application suite,' Proc. of the 22th Annual International Symposium on Computer Architecture, pp.24-36, 1995 https://doi.org/10.1145/225830.223990