• 제목/요약/키워드: multiprocessor system-on-chip

검색결과 28건 처리시간 0.018초

하이브리드 광학 네트워크-온-칩에서 병렬 라우팅에 관한 연구 (A Study on the Parallel Routing in Hybrid Optical Networks-on-Chip)

  • 서정택;황용중;한태희
    • 대한전자공학회논문지SD
    • /
    • 제48권8호
    • /
    • pp.25-32
    • /
    • 2011
  • 네트워크-온-칩(Networks-on-Chip, NoC)은 고도로 복잡해지고 있는 다중 프로세서 시스템-온-칩(Multi-Processor System-on-chip, MPSoC)에서의 버스 트래픽 문제를 해결할 핵심기술이나 전통적인 전기적 상호 연결 구조로는 머지않아 대역폭 및 전력소비 등의 한계에 직면할 것으로 예상된다. 이러한 문제를 해결하기 위해 광학적 상호연결과 전기적 상호연결을 같이 사용하는 하이브리드 광학 NoC기술이 최근 활발히 연구되고 있다. 대부분의 하이브리드 광학 NoC에서 전기적인 연결은 웜홀 스위칭(Wormhole switching)과 deterministic 알고리즘인 X-Y 라우팅 알고리즘을 사용하며, 광학적 버스 기반 데이터 전송을 위한 경로 설정 및 광학 라우터 설정을 한다. 광학적 연결에서는 서킷 스위칭(Circuit switching) 방식을 사용하며, 미리 설정된 경로 및 라우터를 이용하여 payload 데이터만 전송을 하게 된다. 그러나 기존에 발표된 하이브리드 광학 NoC같은 경우에는 한 번에 하나의 경로에서만 데이터를 전송 할 수 있다는 단점을 가지고 있어 성능 향상에 한계가 있다. 본 논문에서는 하이브리드 광학 NoC에서 동시에 여러 경로를 이용하여 데이터를 전송하기 위해 전기적인 연결에서 서킷 스위칭 방식과 적응적(adaptive) 알고리즘을 이용하는 새로운 라우팅 알고리즘을 제안하며, 적응적 알고리즘의 문제점인 livelock을 제거할 수 있는 방법 또한 제안한다. 모의실험은 전기적인 NoC, 그리고 웜홀 스위칭 방식의 기존 하이브리드 광학 NoC와 비교 수행 하였다. 그 결과 제안된 방식은 기존 하이브리드 광학 NoC에 비해 60%의 throughput 증가, 그리고 전기적 NoC와 비교했을 때 65%의 전력 감소를 보였다.

Software Pipeline-Based Partitioning Method with Trade-Off between Workload Balance and Communication Optimization

  • Huang, Kai;Xiu, Siwen;Yu, Min;Zhang, Xiaomeng;Yan, Rongjie;Yan, Xiaolang;Liu, Zhili
    • ETRI Journal
    • /
    • 제37권3호
    • /
    • pp.562-572
    • /
    • 2015
  • For a multiprocessor System-on-Chip (MPSoC) to achieve high performance via parallelism, we must consider how to partition a given application into different components and map the components onto multiple processors. In this paper, we propose a software pipeline-based partitioning method with cyclic dependent task management and communication optimization. During task partitioning, simultaneously considering computation load balance and communication optimization can cause interference, which leads to performance loss. To address this issue, we formulate their constraints and apply an integer linear programming approach to find an optimal partitioning result - one that requires a trade-off between these two factors. Experimental results on a reconfigurable MPSoC platform demonstrate the effectiveness of the proposed method, with 20% to 40% performance improvements compared to a traditional software pipeline-based partitioning method.

가상 동기화 기법을 이용한 SystemC 통합시뮬레이션의 병렬 수행 (Parallel SystemC Cosimulation using Virtual Synchronization)

  • 이영민;권성남;하순회
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권12호
    • /
    • pp.867-879
    • /
    • 2006
  • 이 논문에서는 여러 개의 소프트웨어 혹은 하드웨어 컴포넌트가 존재하는 MPSoC(Multiprocessor-System-on-a-chip) 아키텍처를 빠르면서도 정확하게 통합시뮬레이션 하는 내용을 다룬다. 복잡한 시스템을 설계하기 위해서 MPSoC 아키텍처가 점점 일반화되고 있는데, 이러한 아키텍처를 통합시뮬레이션 할 때는 시뮬레이터의 개수가 증가하고 그에 따라 시뮬레이터들 간의 시간 동기화 비용도 증가하므로 전체적인 통합시뮬레이션 성능이 감소된다. 최근의 통합시뮬레이션 연구들에 의해서 등장한 SystemC 통합시뮬레이션 환경이 빠른 성능을 보이고 있으나, 시뮬레이터의 개수가 증가할수록 성능은 반비례한다. 본 논문에서는 효율적인 시간동기를 통해 통합시뮬레이션의 성능을 증가시키는 기법인 가상동기화 기법을 확장하여, (1) SystemC 커널을 수정하지 않고도 가상 동기화 기법을 적용한 SystemC 통합시뮬레이션을 수행할 수 있고, (2) 병렬적으로 가상동기화 기법을 수행할 수 있게 하였다. 이를 통해 SystemC 통합시뮬레이션의 병렬적인 수행이 가능해졌는데, 널리 알려진 상용 SystemC 통합시뮬레이션 도구인 MaxSim과 비교하였을 때, H.263 디코더 예제의 경우 11배 이상의 성능 증가를 얻었고 정확도는 5% 이내로 유지되었다.

Petri Net 이론 관점에서 본 소프트웨어 혁신의 확산 (Diffusion of software innovation: a Petri Net theory perspective)

  • 한지연;안종창;이욱
    • 한국산학기술학회논문지
    • /
    • 제14권2호
    • /
    • pp.858-867
    • /
    • 2013
  • 본 연구에서는 MPSOC(Multiprocessor System-on-Chip) 환경의 소프트웨어적인 측면을 주 연구대상으로 하였고 범용 전문 프로그래머들에게 병렬 애플리케이션 프로그래밍을 위한 패턴언어를 제공한다면 병렬처리의 장점을 호소할 수 있을 것으로 보았다. 특히 자체적인 분류에 따른 Data, Tasks, Data flow 모델을 선별하고 그중 CUDA와 HOPES를 경험한 대상으로 Petri Net을 활용, 그들의 숙련도를 확인하는 과정을 포함한다. 각 영역의 숙련 정도, 서로 다른 모델에 대한 이해도를 실험을 통해 검증하였다. 페트리넷은 병렬프로그래밍의 설명에 용이한 모델로 특히 동시성과 병렬성을 설명하는데 탁월한 모형을 제시 할 수 있었다. 실험대상자들에게 페트리넷에 관한 4시간의 선행학습을 시킨 후 56명에게 실험을 실시하여 독립표본 t-검정을 수행했다. 비록 설정된 두 가지 가설이 지지되지 않았지만, 각 영역에서의 숙련자들이 Tasks 중심 혹은 Data 중심의 모형을 얼마나 상호 이해하는가를 판단 할 수 있었다.

MPI 브로드캐스트 통신을 위한 서킷 스위칭 기반의 파이프라인 체인 알고리즘 설계 (A Design of Pipeline Chain Algorithm Based on Circuit Switching for MPI Broadcast Communication System)

  • 윤희준;정원영;이용석
    • 한국통신학회논문지
    • /
    • 제37B권9호
    • /
    • pp.795-805
    • /
    • 2012
  • 본 논문에서는 분산 메모리 아키텍처를 사용하는 멀티프로세서에서 가장 병목 현상이 심한 집합통신 중 브로드캐스트를 위한 알고리즘 및 하드웨어 구조를 제안한다. 기존 시스템의 파이프라인 브로드캐스트 알고리즘은 전송 대역폭을 최대로 활용하는 알고리즘 이다. 하지만 파이프라인 브로드캐스트는 데이터를 여러 조각으로 나누어서 전송하기 때문에, 불필요한 동기화 과정이 반복된다. 본 논문에서는 동기화 과정의 중복이 없는 서킷 스위칭 기반의 파이프라인 체인 알고리즘을 위한 MPI 유닛을 설계하였고, 이를 systemC를 통하여 모델링하여 평가하였다. 그 결과 파이프라인 브로드캐스트 알고리즘과 비교하여 브로드캐스트 통신의 성능을 최대 3.3배 향상 시켰고, 이는 통신 버스의 전송대역폭을 거의 최대로 사용하였다. 그 후 verilogHDL로 하드웨어를 설계하였고, Synopsys사의 Design Compiler를 사용하여 TSMC 0.18 공정 라이브러리에서 합성하였으며 칩으로 제작하였다. 합성결과 제안하는 구조를 위한 하드웨어는 4,700 게이트(2-input NAND gate) 면적으로, 전체 면적에서 2.4%을 차지하였다. 이는 제안하는 구조가 작은 면적으로 MPSoC의 전체적인 성능을 높이는데 유용하다.

효율적인 브로드캐스트 통신을 지원하는 MPI 하드웨어 유닛 설계 (The Design of MPI Hardware Unit for Enhanced Broadcast Communication)

  • 윤희준;정원영;이용석
    • 한국통신학회논문지
    • /
    • 제36권11B호
    • /
    • pp.1329-1338
    • /
    • 2011
  • 본 논문에서는 분산 메모리 아키텍처를 사용하는 멀티프로세서에서 가장 병목 현상이 심한 집합통신 중 브로드캐스트를 위한 알고리즘 및 하드웨어 구조를 제안한다. 기존 시스템에서 집합통신은 프로세싱 노드의 통신포트 상태가 busy 혹은 free 인지를 고려하지 않고 MPI libray cell 에 의해서 점대점 통신으로 변환되어 진다. 만약 브로드캐스트 통신을 하는 동안에 간섭하는 점대점 통신이 있다면, 브로드캐스트 통신의 전송 속도는 저하된다. 따라서 본 논문에서는 각각의 프로세싱 노드의 상태를 고려하여 통신 순서를 결정하는 브로드캐스트 통신 알고리즘을 제안하였다. 제안하는 구조의 알고리즘은 각 프로세싱 노드의 상태에 따라, free 상태의 통신 포트를 가진 프로세싱 노드의 통신 포트에게 우선적으로 메시지를 송신하여 전체적인 집합통신 시간을 단축하였다. 본 연구에서 제안하는 브로드캐스트 통신을 위한 MPI 유닛은 SystemC로 모델링하여 평가하였다. 또한 본 구조는 16노드에서 브로드캐스트 통신의 성능을 최대 78% 향상시켰고, 이는 MPSoC(Multi-Processor System-on-Chip)의 전체적인 성능을 높이는데 유용하다.

MPSoC 플랫폼의 버스 에너지 절감을 위한 버스 분할 기법 (Bus Splitting Techniques for MPSoC to Reduce Bus Energy)

  • 정준목;김진효;김지홍
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권9호
    • /
    • pp.699-708
    • /
    • 2006
  • 버스 분할 기법은 통신이 많은 모듈들을 가까이 배치하고 필요한 버스 단편만 사용함으로 버스 에너지 소비를 줄인다. 그러나 MPSoC와 같은 다중 프로세서 플랫폼에서는 캐시 일관성을 유지하기 위하여 모든 프로세서에서 버스 트랜잭션을 알아야 하므로, 기존의 버스 분할 기법을 적용할 수 없다. 본 논문에서는 공유 메모리 기반의 MPSoC 플랫폼에서 버스 에너지를 절감시키기 위한 버스 분할 기법을 제안한다. 제안된 버스 분할 기법은 비 공유 메모리와 공유 메모리의 버스를 분할함으로써, 캐시 일관성을 유지하며 비 공유 메모리를 참조할 때 소비하는 버스 에너지를 최소화시킨다. 또한, 태스크별 버스 트랜잭션 횟수를 기반하여 태스크를 할당함으로써, 공유 메모리를 참조할 때 소비하는 버스 에너지를 절감시키는 캐시 일관성을 고려한 태스크 할당 기법을 제안한다. 시뮬레이션을 통한 실험에서 제안된 버스 분할 기법은 비 공유 메모리 참조시의 버스 에너지를 최대 83%까지 절감시키며, 태스크 할당 알고리즘은 공유 메모리 참조시의 버스 에너지를 최대 36%까지 절감시키는 효과가 있음을 보여준다. 그럼으로 다중 프로세서 시스템에서도 버스 분할 기법을 적용하여 버스 에너지 절감 효과를 볼 수 있으며, 캐시 일관성을 고려한 태스크 할당 기법을 통해 추가적으로 버스 에너지를 절감할 수 있음을 보여준다.

실시간 2차원 디지털 신호처리를 위한 VLSI 구조 (A VLSI Architecture for the Real-Time 2-D Digital Signal Processing)

  • 권희훈
    • 정보와 통신
    • /
    • 제9권9호
    • /
    • pp.72-85
    • /
    • 1992
  • 다수의 처리 장치가 실시간 실현에 필수적이라는 것이 많은 디지털 신호처리를 일정한 시간 내에 하기 위한 요구 조건이다. VLSI 기술이 발전함으로 많은 기능 장치로 구성된 컴퓨터 시스템을 설계하고, 실현하는 것이 가능하게 되었다. 일정한 시간내에 높은 처리 능력을 갖음으로서 디지털 신호처리에 응용할 수 있는 VLSI 구조를 연구하는데 데이터 통신의 요구량과 계산의 복잡성을 최소화 할 수 있는 알고리듬의 개발이 요구된다. 이 문제를 해결하는 방법으로 DLSI 시스템이나 적응 시스템을 모델로 하는 효과적인 알고리듬을 조사하고 , 이 알고리듬을 실현할 수 있는 VLSI구조와 연관된 멀티 프로세서 시스템을 개발하는데 본 연구의 목적이 있다. 본 연구에서는 실시간 2차원 신호처리를 할 수 있는 새로운 VLSI 구조를 제안했다. 이 VLSI 구조는 칩 내부에서 단일 처리 장치가 갖는 개념을 다수의 처리 장치를 사용하는 경우로 확장하였다. 이 VLSI 구조는 입력 데이타의 크기가 증가함에 따라서 복잡성과 입력당 계산의 수가 증가하지 않는다는 장점을 갖기 때문에 매우 큰 2차원 데이타를 실시간에 처리할 수 있다.

  • PDF