High Performance Message Scattering Algorithm in Multicore Processor

멀티코어 프로세서에서의 효율적인 메시지 스캐터링 지원 기법

  • 박종수 (목원대학교 전기전자공학과)
  • Received : 2022.06.14
  • Accepted : 2022.06.28
  • Published : 2022.06.30

Abstract

In this paper, to maximize the performance of the scatter communication in multi-core and many-core processors, a technique that considers the communication situation of the processing node is applied to a multi-core processor composed of 32 processing nodes. Since the existing scatter algorithm cannot recognize the communication conditions of the processing nodes, communication is generally performed according to an initially set transmission order. In this case, scatter communication starts only after the communication currently being performed by all processing nodes inside the processor is finished. The scatter communication performance was improved by this technique, and it was confirmed that there was a performance improvement of up to 78.93% compared to the existing algorithm through BFM simulation.

본 논문에서는 멀티코어 프로세서 및 매니코어 프로세서에서의 스캐터 통신 성능을 최대화 하기 위하여 프로세싱 노드의 통신채널 상태를 고려하는 기법을 32개 코어로 구성된 멀티코어 프로세서에 적용하였다. 기존의 스캐터 알고리즘은 프로세싱 노드들의 통신채널 상태를 확인할 수 없기 때문에 일반적으로 초기 셋팅 된 전송순서에 따라서 통신을 수행한다. 이 경우 프로세서 내부의 모든 프로세싱 노드에서 기존 수행 중인 통신이 종료된 후에야 스캐터 통신이 시작되는데, 이때 발생하는 전송 대기 시간을 줄임으로서 스캐터 통신 성능을 향상 시킬 수 있다. 본 기법에 의하여 스캐터 통신 성능이 향상되었고, BFM 시뮬레이션을 통하여 기존 알고리즘 대비 최대 78.93%의 성능 향상이 있음을 확인하였다.

Keywords

References

  1. P. Prabhu et al., "A survey of the practice of computational science," SC '11: Proceedings of 2011 International Conference for High Performance Computing, Networking, Storage and Analysis, 2011, pp. 1-12, doi: 10.1145/2063348.2063374.
  2. S. H. Gade, and S. Deb, "A Novel Hybrid Cache Coherence with Global Snooping for Many-core Architectures," ACM Transactions on Design Automation of Electronic Systems, vol. 27, pp. 1-31, 2021.
  3. S. Kim, M. Fayazi, et al, "Versa: A 36-Core Systolic Multiprocessor with Dynamically Reconfigurable Interconnect and Memory", IEEE Journal of Solid-State Circuits, DOI: 10.1109/JSSC.2022.3140241, 2022.
  4. K. Fernandes, "GPU Development and Computing Experiences," Research Computing Services, University of Cambridge, 2015.
  5. J. Traff, A. Ripke, C. Siebert, P. Balaji, R. Thakur, and W. Gropp, "A Simple, Pipelined Algorithm for Large, Irregular All-gather Problems," Lecture Notes in Computer Science, vol. 5205, pp. 84-93, 2008.
  6. J. Park, H. Yun, and S. Moon, "Enhancing Performance Using Atomic Pipelined Message Broadcast in a Distributed Memory MPSoC," IEICE Electronics Express, vol. 11, pp. 1-7, 2014.
  7. J. Park, "Efficient Pipelined Broadcast with Monitoring Processing Node Status on a Multi-Core Processor," Mathematics, DOI:10.3390/math7121159, 2019.
  8. J. Park, "Efficient Message Scattering and Gathering Based on Processing Node Status," Journal of the Korea Institute of Information and Communication Engineering, vol. 26, no.4, pp. 637-640, 2022. https://doi.org/10.6109/JKIICE.2022.26.4.637