• 제목/요약/키워드: Many-core processors

검색결과 36건 처리시간 0.028초

New Thermal-Aware Voltage Island Formation for 3D Many-Core Processors

  • Hong, Hyejeong;Lim, Jaeil;Lim, Hyunyul;Kang, Sungho
    • ETRI Journal
    • /
    • 제37권1호
    • /
    • pp.118-127
    • /
    • 2015
  • The power consumption of 3D many-core processors can be reduced, and the power delivery of such processors can be improved by introducing voltage island (VI) design using on-chip voltage regulators. With the dramatic growth in the number of cores that are integrated in a processor, however, it is infeasible to adopt per-core VI design. We propose a 3D many-core processor architecture that consists of multiple voltage clusters, where each has a set of cores that share an on-chip voltage regulator. Based on the architecture, the steady state temperature is analyzed so that the thermal characteristic of each voltage cluster is known. In the voltage scaling and task scheduling stages, the thermal characteristics and communication between cores is considered. The consideration of the thermal characteristics enables the proposed VI formation to reduce the total energy consumption, peak temperature, and temperature gradients in 3D many-core processors.

Deep Packet Inspection Time-Aware Load Balancer on Many-Core Processors for Fast Intrusion Detection

  • Choi, Yoon-Ho;Park, Woojin;Choi, Seok-Hwan;Seo, Seung-Woo
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제5권3호
    • /
    • pp.169-177
    • /
    • 2016
  • To realize high-speed intrusion detection by accommodating many regular expression (regex)-based signatures and growing network link capacities, we propose the Service TimE-Aware Load-balancing (STEAL) algorithm. This work is motivated from the observation that utilization of a many-core network intrusion detection system (NIDS) is influenced by unfair computational distribution among many-core NIDS nodes. To avoid such unfair computational distribution, STEAL is designed to dynamically distribute a large volume of traffic among many-core NIDS nodes based on packet service time, which is represented by the deep packet time in many-core NIDS nodes. From experiments, we show that compared to the commonly used load-balancing algorithm based on arrival rate, STEAL increases the number of received packets (i.e., decreases the number of dropped packets) in many-core NIDS. Specifically, by integrating an open source NIDS (i.e. Bro) with STEAL, we show that even under attack-dominant traffic and with many signatures, STEAL can rapidly improve the performance of many-core NIDS to realize high-speed intrusion detection.

실시간 화재 특징 추출을 위한 임베디드 매니코어 프로세서의 디자인 공간 탐색 (Design Space Exploration of Embedded Many-Core Processors for Real-Time Fire Feature Extraction)

  • 서준상;강명수;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권10호
    • /
    • pp.1-12
    • /
    • 2013
  • 본 논문에서는 많은 연산량이 요구되는 화재 특징 추출 알고리즘을 위한 최적의 매니코어 프로세서에 대한 디자인 공간을 탐색한다. 최적의 매니코어 디자인 공간을 선택하기 위해 매니코어를 구성하는 프로세서 엘리먼트 (PE)의 개수와 로컬 메모리 사이즈를 변화시키면서 시뮬레이션을 수행하여 성능, 에너지 효율 및 시스템 면적 효율에서 최적인 매니코어 구조를 결정한다. 본 논문에서는 $256{\times}256$ 해상도의 30 프레임으로 구성된 화재/비화재 비디오 영상을 대상으로 하여 움직임 검출, 색상 분할 및 이산 웨이블릿 변환으로 구성된 화재 특징 추출 알고리즘을 여섯가지 매니코어 구조(PEs=16, 64, 256, 1,024, 4,096, 16,384)를 사용하여 모의 실험한 결과, 모든 화재/비화재 비디오 영상에 대해1,024개와 4,096개의 PE를 갖는 매니코어 구조가 각각 최적의 시스템 면적 효율과 에너지 효율을 보였다. 또한, 실험에서 사용한 여섯가지 매니코어 구조 모두가 실시간 비디오 처리에서 요구되는 초당 30 프레임 처리 기준을 만족하였다.

래스터화 알고리즘을 위한 최적의 매니코어 프로세서 구조 탐색 (Architecture Exploration of Optimal Many-Core Processors for a Vector-based Rasterization Algorithm)

  • 손동구;김철홍;김종면
    • 대한임베디드공학회논문지
    • /
    • 제9권1호
    • /
    • pp.17-24
    • /
    • 2014
  • In this paper, we implement and evaluate the performance of a vector-based rasterization algorithm for 3D graphics by using a SIMD (single instruction multiple data) many-core processor architecture. In addition, we evaluate the impact of a data-per-processing elements (DPE) ratio that is defined as the amount of data directly mapped to each processing element (PE) within many-core in terms of performance, energy efficiency, and area efficiency. For the experiment, we utilize seven different PE configurations by varying the DPE ratio (or the number PEs), which are implemented in the same 130 nm CMOS technology with a 500 MHz clock frequency. Experimental results indicate that the optimal PE configuration is achieved as the DPE ratio is in the range from 16,384 to 256 (or the number of PEs is in the range from 16 and 1,024), which meets the requirements of mobile devices in terms of the optimal performance and efficiency.

An Efficient Block Cipher Implementation on Many-Core Graphics Processing Units

  • Lee, Sang-Pil;Kim, Deok-Ho;Yi, Jae-Young;Ro, Won-Woo
    • Journal of Information Processing Systems
    • /
    • 제8권1호
    • /
    • pp.159-174
    • /
    • 2012
  • This paper presents a study on a high-performance design for a block cipher algorithm implemented on modern many-core graphics processing units (GPUs). The recent emergence of VLSI technology makes it feasible to fabricate multiple processing cores on a single chip and enables general-purpose computation on a GPU (GPGPU). The GPU strategy offers significant performance improvements for all-purpose computation and can be used to support a broad variety of applications, including cryptography. We have proposed an efficient implementation of the encryption/decryption operations of a block cipher algorithm, SEED, on off-the-shelf NVIDIA many-core graphics processors. In a thorough experiment, we achieved high performance that is capable of supporting a high network speed of up to 9.5 Gbps on an NVIDIA GTX285 system (which has 240 processing cores). Our implementation provides up to 4.75 times higher performance in terms of encoding and decoding throughput as compared to the Intel 8-core system.

매니코어 프로세서를 이용한 벡터 기반 래스터화 알고리즘 구현 및 성능평가 (Implementation and Performance Evaluation of Vector based Rasterization Algorithm using a Many-Core Processor)

  • 손동구;김종면
    • 대한임베디드공학회논문지
    • /
    • 제8권2호
    • /
    • pp.87-93
    • /
    • 2013
  • In this paper, we implemented and evaluated the performance of a vector-based rasterization algorithm of 3D graphics using a SIMD-based many-core processor that consists of 4,096 processing elements. In addition, we compared the performance and efficiency of the rasterization algorithm using the many-core processor and commercial GPU (Graphics Processing Unit) system which consists of 7 GPUs and each of which have 512 cores. Experimental results showed that the SIMD-based many-core processor outperforms the commercial GPU system in terms of execution time (3.13x speedup), energy efficiency (17.5x better), and area efficiency (13.3x better). These results demonstrate that the SIMD-based many-core processor has potential as an embedded mobile processor.

SPEC 벤치마크 프로그램에 대한 매니코어 프로세서의 성능 연구 (A Performance Study on Many-core Processor Architectures with SPEC Benchmark Programs)

  • 이종복
    • 전기학회논문지
    • /
    • 제62권2호
    • /
    • pp.252-256
    • /
    • 2013
  • In order to overcome the complexity and performance limit problems of superscalar processors, the multi-core architecture has been prevalent recently. Usually, the number of cores mostly used for the multi-core processor architecture ranges from 2 to 16. However in the near future, more than 32-cores are likely to be utilized, which is called as many-core processor architecture. Using SPEC 2000 benchmarks as input, the trace-driven simulation has been performed for the 32 to 1024 many-core architectures extensively. For 1024-cores, the average performance scores 15.7 IPC, but the performance increase rate is saturated.

매니코어 프로세서 상에서 이산 웨이블릿 변환을 위한 성능 평가 및 분석 (Performance Evaluation and Analysis for Discrete Wavelet Transform on Many-Core Processors)

  • 박용훈;김종면
    • 대한임베디드공학회논문지
    • /
    • 제7권5호
    • /
    • pp.277-284
    • /
    • 2012
  • To meet the usage of discrete wavelet transform (DWT) on potable devices, this paper implements 2-level DWT using a reference many-core processor architecture and determine the optimal many-core processor. To explore the optimal many-core processor, we evaluate the impacts of a data-per-processing element ratio that is defined as the amount of data mapped directly to each processing element (PE) on system performance, energy efficiency, and area efficiency, respectively. This paper utilized five PE configurations (PEs=16, 64, 256, 1,024, and 4,096) that were implemented in 130nm CMOS technology with a 720MHz clock frequency. Experimental results indicated that maximum energy and area efficiencies were achieved at PEs=1,024. However, the system area must be limited 140mm2 and the power should not exceed 3 watts in order to implement 2-level DWT on portable devices. When we consider these restrictions, the most reasonable energy and area efficiencies were achieved at PEs=256.

캐쉬 구성에 따른 3차원 쿼드코어 프로세서의 성능 및 온도 분석 (Analysis on the Performance and Temperature of the 3D Quad-core Processor according to Cache Organization)

  • 손동오;안진우;최홍준;김종면;김철홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권6호
    • /
    • pp.1-11
    • /
    • 2012
  • 공정기술이 지속적으로 발달함에 따라 멀티코어 프로세서는 성능 향상이라는 장점과 함께 내부 연결망의 긴 지연 시간, 높은 전력 소모, 그리고 발열 현상 등의 문제점들을 내포하고 있다. 이와 같은 2차원 멀티코어 프로세서의 문제점들을 해결하기 위한 방안 중 하나로 3차원 멀티코어 프로세서 구조가 주목을 받고 있다. 3차원 멀티코어 프로세서는 TSV를 이용하여 수직으로 쌓은 여러 개의 레이어들을 연결함으로써 2차원 멀티코어 프로세서와 비교하여 배선 길이를 크게 줄일 수 있다. 하지만, 3차원 멀티코어 프로세서에서는 여러 개의 코어들이 수직으로 적층되므로 전력밀도가 증가하고, 이로 인해 발열문제가 발생하여 높은 냉각 비용과 함께 신뢰성에 부정적인 영향을 유발한다. 따라서 3차원 멀티코어 프로세서를 설계할 때에는 성능과 함께 온도를 반드시 고려하여야 한다. 본 논문에서는 캐쉬 구성에 따른 3차원 쿼드코어 프로세서의 온도를 상세히 분석하고, 이를 기반으로 발열문제를 해결하기 위해저온도 캐쉬 구성 방식을 제안하고자 한다. 실험결과, 명령어 캐쉬는 최고온도가 임계값보다 낮고 데이터 캐쉬는 많은 웨이를 가지는 구성을 적용할 때 최고온도가 임계값보다 높아짐을 알 수 있다. 또한, 본 논문에서 제안하는 캐쉬구성은 쿼드코어 프로세서를 사용하는 3차원 구조에서 캐쉬의 온도 감소에 효과적일 뿐만 아니라 성능 저하 또한 거의 없음을 알 수 있다.

효율적인 영상데이터 처리를 위한 SIMD기반 매니코어 프로세서 구현 (Implementation of SIMD-based Many-Core Processor for Efficient Image Data Processing)

  • 최병국;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권1호
    • /
    • pp.1-9
    • /
    • 2011
  • 최근 모바일 멀티미디어 기기들의 사용이 증가하면서 고성능, 저전력 멀티미디어 프로세서에 대한 필요성이 높아지고 있는 추세이다. 주문형반도체 (ASIC)는 모바일 멀티미디어에서 요구되는 고성능을 만족시키지만 다양한 형태의 멀티미디어 애플리케이션에서 요구되는 범용성을 만족시키지 못한다. 반면 DSP기반의 시스템은 범용성에 기인하여 다양한 형태의 애플리케이션에서 사용될 수 있으나, 주문형반도체 보다 높은 가격, 전력소모 및 낮은 성능을 가진다. 이러한 문제점을 해결하기 위해 본 논문에서는 범용성을 유지하면서 고성능, 저전력으로 영상데이터 처리가 가능한 단일 명령어 다중 데이터(Single Instruction Multiple Data, SIMD)처리 방식의 매니코어 프로세서를 제안한다. 제안한 SIMD기반 매니코어 프로세서는 16개의 프로세싱 엘리먼트(processing element, PE)로 구성되어 영상데이터 처리에 내재한 무수한 데이터 레벨 병렬성을 높인다. 모의 실험한 결과, 제안한 SIMD기반 매니코어 프로세서는 현재 상용 고성능 프로세서보다 평균 22배의 성능, 7배의 에너지 효율 및 3배의 시스템 면적 효율을 보였다.