통합 검색 | Korea Science

MPSoC를 위한 저비용 하드웨어 MPI 유닛 설계 (The Design of Hardware MPI Units for MPSoC)

정하영;정원영;이용석
- 한국통신학회논문지
- /
- 제36권1B호
- /
- pp.86-92
- /
- 2011
본 논문에선 분산 메모리 아키텍처를 사용하는 멀티프로세서 시스템에서 메시지 전달을 지원하는 하드웨어 MPI(Message Passing Interface) 유닛을 설계하였다 데이터 전송 동기화 및 데이터 전송, 완료까지의 과정을 하드웨어 MPI 유닛이 담당하여 동기화에 따른 오버헤드를 경감시켰다. 또한 동기화 메시지를 저장 관리하는 요청 큐(Request Queue), 준비 큐(Ready Queue), 예약 큐(Reserve Queue)를 내장하여 병렬적으로 입력받은 동기화 메시지를 관리하고 비순차적 종료(out of order completion)을 지원한다. BMF(Bus Functional Medel)을 제작해 제안한 구조에서의 전송 대역폭 성능을 확인한 결과 다대다 통신에서 25% 이상의 성능 향상이었음을 확인할 수 있었다. 그 후 HDL로 기술된 하드웨어를 Magnachip 0.18 공정 라이브러리에서 합성하였으며 프로토 타입 chip으로 제작하였다. 제안한 MPI 유닛은 전체 칩 사이즈의 1% 이하의 크기로 높은 성능 향상을 기대할 수 있어, 저비용 설계와 확장성 측면에서 임베디드 MPSoC(Multi-Processor System-on-Chip)의 전체적인 성능을 높이는데 유용하다.
https://doi.org/10.7840/KICS.2011.36B.1.86 인용 PDF KSCI

동적 라우팅을 사용하는 클러스터 기반 MPSoC 구조 (Dynamic On-Chip Network based on Clustering for MPSoC)

김장억;김재환;안병규;신봉식;정정화
- 대한전자공학회:학술대회논문집
- /
- 대한전자공학회 2006년도 하계종합학술대회
- /
- pp.991-992
- /
- 2006
Multiprocessor system is efficient and high performance architecture to overcome a limitation of single core SoC. In this paper, we propose a multiprocessor SoC (MPSoC) architecture which provides the low complexity and the high performance. The dynamic routing scheme has a serious problem in which the complexity of routing increases exponentially. We solve this problem by making a cluster with several PEs (Processing Element). In inter-cluster network, we use deterministic routing scheme and in intra-cluster network, we use dynamic routing scheme. In order to control the hierarchical network, we propose efficient router architecture by using smart crossbar switch. We modeled 2-D mesh topology and used simulator based on C/C++. The results of this routing scheme show that our approach has less complexity and improved throughput as compared with the pure deterministic routing architecture and the pure dynamic routing architecture.
PDF

A System Level Network-on-chip Model with MLDesigner

Agarwal, Ankur;Shankar, Rabi;Pandya, A.S.;Lho, Young-Uhg
- Journal of information and communication convergence engineering
- /
- 제6권2호
- /
- pp.122-128
- /
- 2008
Multiprocessor architectures and platforms, such as, a multiprocessor system on chip (MPSoC) recently introduced to extend the applicability of the Moore's law, depend upon concurrency and synchronization in both software and hardware to enhance design productivity and system performance. With the rapidly approaching billion transistors era, some of the main problem in deep sub-micron technologies characterized by gate lengths in the range of 60-90 nm will arise from non scalable wire delays, errors in signal integrity and non-synchronized communication. These problems may be addressed by the use of Network on Chip (NOC) architecture for future System-on-Chip (SoC). We have modeled a concurrent architecture for a customizable and scalable NOC in a system level modeling environment using MLDesigner (from MLD Inc.). Varying network loads under various traffic scenarios were applied to obtain realistic performance metrics. We provide the simulation results for latency as a function of the buffer size. We have abstracted the area results for NOC components from its FPGA implementation. Modeled NOC architecture supports three different levels of quality-of-service (QoS).
PDF KSCI

NOC 구조용 교착상태 없는 라우터 설계 (A Deadlock Free Router Design for Network-on-Chip Architecture)

;;;;노영욱
- 한국정보통신학회논문지
- /
- 제11권4호
- /
- pp.696-706
- /
- 2007
다중처리기 SoC(MPSoC) 플랫폼은 SoC 설계 분야에 새로운 여러가지 혁신적인 트랜드를 가지고 있다. 급격히 십억 단위의 트랜지스터 집적이 가능한 시대에 게이트 길이가 $60{\sim}90nm$ 범위를 갖는 서브 마스크로 기술에서 주요문제점들은 확장되지 않는 선 지연, 신호 무결성과 비동기화 통신에서의 오류로 인해 발생한다. 이러한 문제점들은 미래의 SoC을 위한 NOC 구조의 사용에 의해 해결될 수 있다. 대부분의 미래 SoC들은 칩 상에서 통신을 위해 네트워크 구조와 패킷 기반 통신 프로토콜을 사용할 것이다. 이 논문은 NOC 구조를 위한 칩 통신에서 교착상태가 발생되지 않는 것을 보장하기 위해 적극적 turn prohibition을 갖는 적응적 wormhole 라우팅에 대해 기술한다. 또한 5개의 전이중, flit-wide 통신 채널을 갖는 간단한 라우팅 구조를 제시한다. 메시지 지연에 대한 시뮬레이션 결과를 나타내고 같은 연결비율에서 운영되는 다른 기술들의 결과와 비교한다.
https://doi.org/10.6109/jkiice.2007.11.4.696 인용 PDF KSCI

동적 전압 주파수 스케일링 오버헤드 최소화를 위한 전압 선택 방법론 (Voltage Selection Methodology for DVFS Overhead Minimization)

장진규;한태희
- 한국정보통신학회:학술대회논문집
- /
- 한국정보통신학회 2015년도 추계학술대회
- /
- pp.854-857
- /
- 2015
반도체 기술의 발전으로 시스템-온-칩(SoC : System-on-Chip) 내에 집적되는 소자의 수가 기하급수적으로 증가함에 따라 에너지 감소 기술은 매우 중요한 과제가 되었다. 다양한 저전력 기술 중에서도 동적 전압 주파수 스케일링(Dynamic Voltage and Frequency Scaling)은 가장 대표적인 저전력 기술 중 하나이다. 올바른 DVFS의 구현을 위해서는 복잡한 DC-DC 변환기와 PLL이 필요로 하게 되며, 이런 특성을 정확하게 이해하고 그로 인해 발생하는 오버헤드(overhead)를 반드시 고려해야 한다. 본 논문에서는 MPSoC에서 변환 오버헤드를 최소화하는 전압 선택 알고리즘을 제안한다. 실험을 통해 제안하는 방법은 성능을 유지한 채 에너지 소모 및 변환 오버헤드 감소를 보여준다.
PDF

가상 동기화 기법을 이용한 SystemC 통합시뮬레이션의 병렬 수행 (Parallel SystemC Cosimulation using Virtual Synchronization)

이영민;권성남;하순회
- 한국정보과학회논문지:시스템및이론
- /
- 제33권12호
- /
- pp.867-879
- /
- 2006
이 논문에서는 여러 개의 소프트웨어 혹은 하드웨어 컴포넌트가 존재하는 MPSoC(Multiprocessor-System-on-a-chip) 아키텍처를 빠르면서도 정확하게 통합시뮬레이션 하는 내용을 다룬다. 복잡한 시스템을 설계하기 위해서 MPSoC 아키텍처가 점점 일반화되고 있는데, 이러한 아키텍처를 통합시뮬레이션 할 때는 시뮬레이터의 개수가 증가하고 그에 따라 시뮬레이터들 간의 시간 동기화 비용도 증가하므로 전체적인 통합시뮬레이션 성능이 감소된다. 최근의 통합시뮬레이션 연구들에 의해서 등장한 SystemC 통합시뮬레이션 환경이 빠른 성능을 보이고 있으나, 시뮬레이터의 개수가 증가할수록 성능은 반비례한다. 본 논문에서는 효율적인 시간동기를 통해 통합시뮬레이션의 성능을 증가시키는 기법인 가상동기화 기법을 확장하여, (1) SystemC 커널을 수정하지 않고도 가상 동기화 기법을 적용한 SystemC 통합시뮬레이션을 수행할 수 있고, (2) 병렬적으로 가상동기화 기법을 수행할 수 있게 하였다. 이를 통해 SystemC 통합시뮬레이션의 병렬적인 수행이 가능해졌는데, 널리 알려진 상용 SystemC 통합시뮬레이션 도구인 MaxSim과 비교하였을 때, H.263 디코더 예제의 경우 11배 이상의 성능 증가를 얻었고 정확도는 5% 이내로 유지되었다.
PDF KSCI

MPSoC 플랫폼의 버스 에너지 절감을 위한 버스 분할 기법 (Bus Splitting Techniques for MPSoC to Reduce Bus Energy)

정준목;김진효;김지홍
- 한국정보과학회논문지:시스템및이론
- /
- 제33권9호
- /
- pp.699-708
- /
- 2006
버스 분할 기법은 통신이 많은 모듈들을 가까이 배치하고 필요한 버스 단편만 사용함으로 버스 에너지 소비를 줄인다. 그러나 MPSoC와 같은 다중 프로세서 플랫폼에서는 캐시 일관성을 유지하기 위하여 모든 프로세서에서 버스 트랜잭션을 알아야 하므로, 기존의 버스 분할 기법을 적용할 수 없다. 본 논문에서는 공유 메모리 기반의 MPSoC 플랫폼에서 버스 에너지를 절감시키기 위한 버스 분할 기법을 제안한다. 제안된 버스 분할 기법은 비 공유 메모리와 공유 메모리의 버스를 분할함으로써, 캐시 일관성을 유지하며 비 공유 메모리를 참조할 때 소비하는 버스 에너지를 최소화시킨다. 또한, 태스크별 버스 트랜잭션 횟수를 기반하여 태스크를 할당함으로써, 공유 메모리를 참조할 때 소비하는 버스 에너지를 절감시키는 캐시 일관성을 고려한 태스크 할당 기법을 제안한다. 시뮬레이션을 통한 실험에서 제안된 버스 분할 기법은 비 공유 메모리 참조시의 버스 에너지를 최대 83%까지 절감시키며, 태스크 할당 알고리즘은 공유 메모리 참조시의 버스 에너지를 최대 36%까지 절감시키는 효과가 있음을 보여준다. 그럼으로 다중 프로세서 시스템에서도 버스 분할 기법을 적용하여 버스 에너지 절감 효과를 볼 수 있으며, 캐시 일관성을 고려한 태스크 할당 기법을 통해 추가적으로 버스 에너지를 절감할 수 있음을 보여준다.
PDF KSCI

버스 프로토콜 호환 가능한 네트워크-온-칩에서의 분리된 주소/데이터 네트워크 설계 (Separated Address/Data Network Design for Bus Protocol compatible Network-on-Chip)

정승아;이재훈;김상헌;이재성;한태희
- 전자공학회논문지
- /
- 제53권4호
- /
- pp.68-75
- /
- 2016
다중 프로세서 시스템-온-칩(Multi-Processor SoC, MPSoC)에서의 코어 및 IP 개수 증가 추세에 따라 병렬처리와 확장성에 유리한 인터커넥션 구조인 네트워크-온-칩(Network-on-Chip, NoC)이 등장하였다. 하지만 기존 IP를 재활용하기 위해서는 버스 프로토콜과 호환가능한 NoC에서의 지연시간을 최적화하기 위한 연구가 필요하다. 본 논문에서는 버스 프로토콜 호환 가능한 NoC 설계 시, 버스 프로토콜에서 특성이 다른 다수의 트랜잭션 단계에서 유발되는 홉 수와 경로 충돌의 대립관계로 인해 지연시간이 증가하는 문제를 주소 및 데이터 네트워크로 분리 설계함으로써 해결하였다. 모의실험으로 벤치마크 어플리케이션과 무작위 생성한 어플리케이션에서의 실험 결과를 통해 Mesh구조와 TopGen의 비정형 토폴로지와 비교했을 때, 평균 지연시간은 19.46% 및 실행시간은 10.55% 감소하였다.
https://doi.org/10.5573/ieie.2016.53.4.068 인용 PDF KSCI

MPI 브로드캐스트 통신을 위한 서킷 스위칭 기반의 파이프라인 체인 알고리즘 설계 (A Design of Pipeline Chain Algorithm Based on Circuit Switching for MPI Broadcast Communication System)

윤희준;정원영;이용석
- 한국통신학회논문지
- /
- 제37B권9호
- /
- pp.795-805
- /
- 2012
본 논문에서는 분산 메모리 아키텍처를 사용하는 멀티프로세서에서 가장 병목 현상이 심한 집합통신 중 브로드캐스트를 위한 알고리즘 및 하드웨어 구조를 제안한다. 기존 시스템의 파이프라인 브로드캐스트 알고리즘은 전송 대역폭을 최대로 활용하는 알고리즘 이다. 하지만 파이프라인 브로드캐스트는 데이터를 여러 조각으로 나누어서 전송하기 때문에, 불필요한 동기화 과정이 반복된다. 본 논문에서는 동기화 과정의 중복이 없는 서킷 스위칭 기반의 파이프라인 체인 알고리즘을 위한 MPI 유닛을 설계하였고, 이를 systemC를 통하여 모델링하여 평가하였다. 그 결과 파이프라인 브로드캐스트 알고리즘과 비교하여 브로드캐스트 통신의 성능을 최대 3.3배 향상 시켰고, 이는 통신 버스의 전송대역폭을 거의 최대로 사용하였다. 그 후 verilogHDL로 하드웨어를 설계하였고, Synopsys사의 Design Compiler를 사용하여 TSMC 0.18 공정 라이브러리에서 합성하였으며 칩으로 제작하였다. 합성결과 제안하는 구조를 위한 하드웨어는 4,700 게이트(2-input NAND gate) 면적으로, 전체 면적에서 2.4%을 차지하였다. 이는 제안하는 구조가 작은 면적으로 MPSoC의 전체적인 성능을 높이는데 유용하다.
https://doi.org/10.7840/kics.2012.37B.9.795 인용 PDF KSCI

Software Pipeline-Based Partitioning Method with Trade-Off between Workload Balance and Communication Optimization

Huang, Kai;Xiu, Siwen;Yu, Min;Zhang, Xiaomeng;Yan, Rongjie;Yan, Xiaolang;Liu, Zhili
- ETRI Journal
- /
- 제37권3호
- /
- pp.562-572
- /
- 2015
For a multiprocessor System-on-Chip (MPSoC) to achieve high performance via parallelism, we must consider how to partition a given application into different components and map the components onto multiple processors. In this paper, we propose a software pipeline-based partitioning method with cyclic dependent task management and communication optimization. During task partitioning, simultaneously considering computation load balance and communication optimization can cause interference, which leads to performance loss. To address this issue, we formulate their constraints and apply an integer linear programming approach to find an optimal partitioning result - one that requires a trade-off between these two factors. Experimental results on a reconfigurable MPSoC platform demonstrate the effectiveness of the proposed method, with 20% to 40% performance improvements compared to a traditional software pipeline-based partitioning method.
https://doi.org/10.4218/etrij.15.0114.0502 인용 PDF KSCI

검색결과 14건 처리시간 0.024초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)