• 제목/요약/키워드: dynamic cache energy

검색결과 18건 처리시간 0.022초

4Ghz 고성능 CPU 위한 캐시 메모리 시스템 (Cache memory system for high performance CPU with 4GHz)

  • 정보성;이정훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.1-8
    • /
    • 2013
  • 본 논문에서는 4Ghz의 빠른 클럭 속도의 CPU에 적합한 고성능 L1 캐시 메모리 구조를 제안한다. 제안된 캐시 메모리는 빠른 접근 시간을 위한 직접사상 캐시와 시간적 지역성을 고려한 2-way 연관사상 버퍼 그리고 버퍼 선택 테이블로 구성된다. 빠른 접근 시간을 보장하는 직접사상 캐시는 가장 최근 접근한 데이터를 저장하게 된다. 만약에 직접사상 캐쉬로부터 추출되는 데이터가 다시 참조되어질 높은 확률을 가지는 데이터이면 그 데이터들은 2-웨이 연관사상 버퍼로 선택적으로 저장되어 진다. 그리고 고성능과 저전력의 효과를 높이기 위하여 2-웨이 연관사상 버퍼중 하나의 웨이만 선택적으로 먼저 접근되어지며, 이러한 동작은 버퍼 선택 테이블에 의해 선택된다. 시뮬레이션 결과에 따르면, 에너지 소비와 평균 메모리 접근 시간을 고려한 에너지$^*$지연시간에서 두배 이상의 크기를 가지는 직접사상 캐시, 4-웨이 연관사상 캐시 그리고 희생 캐시에 비해 각각 45%, 70% 그리고 75%의 성능향상을 이루었다.

내장형 시스템을 위한 PMU (Performance Monitoring Unit) 기반 동적 XIP (eXecute In Place) 기법 ((PMU (Performance Monitoring Unit)-Based Dynamic XIP(eXecute In Place) Technique for Embedded Systems))

  • 김도훈;박찬익
    • 대한임베디드공학회논문지
    • /
    • 제3권3호
    • /
    • pp.158-166
    • /
    • 2008
  • These days, mobile embedded systems adopt flash memory capable of XIP feature since they can reduce memory usage, power consumption, and software load time. XIP provides direct access to ROM and flash memory for processors. However, using XIP incurs unnecessary degradation of applications' performance because direct access to ROM and flash memory shows more delay than that to main memory. In this paper, we propose a memory management framework, dynamic XIP, which can resolve the performance degradation of using XIP. Using a constrained RAM cache, dynamic XIP can dynamically change XIP region according to page access pattern to reduce performance degradation in execution time or energy consumption resulting from native XIP problem. The proposed framework consists of a page profiler gathering applications' memory access pattern using PMU and an XIP manager deciding that a page is accessed whether in main memory or in flash memory. The proposed framework is implemented and evaluated in Linux kernel. Our evaluation shows that our framework can reduce execution time at most 25% and energy consumption at most 22% compared with using XIP-only case adopted in general mobile embedded systems. Moreover, the evaluation shows that in execution time and energy consumption, our modified LRU algorithm with code page filters can reduce more than at most 90% and 80% respectively compared with applying just existing LRU algorithm to dynamic XIP.

  • PDF

주메모리 접근을 고려한 CPU 주파수 조정 제한 (Limiting CPU Frequency Scaling Considering Main Memory Accesses)

  • 박문주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.483-491
    • /
    • 2014
  • 현대의 컴퓨터 시스템에서는 동적 전압/주파수 조정(DVFS: Dynamic Voltage/Frequency Scaling) 기법을 이용하여 성능과 전력 소모의 균형을 이루도록 한다. DVFS 정책의 유용성은 높아진 주파수에 따른 소모 전력에 대한 성능 향상 정도에 달려있다. 특히 메모리 I/O가 많은 응용의 경우 CPU 주파수 상승에 비례하여 성능이 향상되지 않는 경우가 많다. 본 논문에서는 메모리 접근 빈도에 기반하여 CPU 주파수 조정의 상한을 결정하도록 하였다. 명령어 당 메모리 접근(최종 수준 캐시 미스) 빈도에 따라 CPU 주파수 상향으로 인한 성능 향상이 제한되는 것을 실험으로 확인하고, 성능 향상의 이득이 작아지는 CPU 주파수를 제시하도록 한다. 본 논문의 기법을 적용한 실험 결과는 메모리 접근 빈도가 높은 응용에 대하여 30% 이상의 에너지 효율 상승이 있음을 보인다.

Exploiting Hardware Events to Reduce Energy Consumption of HPC Systems

  • Lee, Yongho;Kwon, Osang;Byeon, Kwangeun;Kim, Yongjun;Hong, Seokin
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.1-11
    • /
    • 2021
  • 본 논문에서는 HPC 시스템의 에너지 효율을 향상시키기 위해 Event-driven Uncore Frequency Scaler (eUFS)라는 새로운 전력관리 메커니즘을 제안한다. eUFS는 LAPI (LLC accesses Per Instructions) 및 CPI (Clock Cycles Per Instruction)와 같은 하드웨어 이벤트를 활용하여 언코어 주파수를 동적으로 조정한다. 기준 시간을 주기로 해당 하드웨어 이벤트를 취합하고, 취합한 이벤트와 이전 언코어 주파수를 이용해 목표 언코어 주파수를 결정한다. NPB 벤치마크를 사용한 실험을 통해 본 논문에서 제안하는 UFS 메커니즘은 C/D class NPB 벤치마크에 대해 평균 6%의 에너지 소비를 감소시키는 것으로 확인되었고 실행시간 증가는 평균 2% 수준인 것으로 확인되었다.

Scratchpad Memory Architectures and Allocation Algorithms for Hard Real-Time Multicore Processors

  • Liu, Yu;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제9권2호
    • /
    • pp.51-72
    • /
    • 2015
  • Time predictability is crucial in hard real-time and safety-critical systems. Cache memories, while useful for improving the average-case memory performance, are not time predictable, especially when they are shared in multicore processors. To achieve time predictability while minimizing the impact on performance, this paper explores several time-predictable scratch-pad memory (SPM) based architectures for multicore processors. To support these architectures, we propose the dynamic memory objects allocation based partition, the static allocation based partition, and the static allocation based priority L2 SPM strategy to retain the characteristic of time predictability while attempting to maximize the performance and energy efficiency. The SPM based multicore architectural design and the related allocation methods thus form a comprehensive solution to hard real-time multicore based computing. Our experimental results indicate the strengths and weaknesses of each proposed architecture and the allocation method, which offers interesting on-chip memory design options to enable multicore platforms for hard real-time systems.

40-TFLOPS artificial intelligence processor with function-safe programmable many-cores for ISO26262 ASIL-D

  • Han, Jinho;Choi, Minseok;Kwon, Youngsu
    • ETRI Journal
    • /
    • 제42권4호
    • /
    • pp.468-479
    • /
    • 2020
  • The proposed AI processor architecture has high throughput for accelerating the neural network and reduces the external memory bandwidth required for processing the neural network. For achieving high throughput, the proposed super thread core (STC) includes 128 × 128 nano cores operating at the clock frequency of 1.2 GHz. The function-safe architecture is proposed for a fault-tolerance system such as an electronics system for autonomous cars. The general-purpose processor (GPP) core is integrated with STC for controlling the STC and processing the AI algorithm. It has a self-recovering cache and dynamic lockstep function. The function-safe design has proved the fault performance has ASIL D of ISO26262 standard fault tolerance levels. Therefore, the entire AI processor is fabricated via the 28-nm CMOS process as a prototype chip. Its peak computing performance is 40 TFLOPS at 1.2 GHz with the supply voltage of 1.1 V. The measured energy efficiency is 1.3 TOPS/W. A GPP for control with a function-safe design can have ISO26262 ASIL-D with the single-point fault-tolerance rate of 99.64%.

휴대장치를 위한 응용프로그램 특성에 따른 적응형 전력관리 기법 (An Application-Specific and Adaptive Power Management Technique for Portable Systems)

  • 이강웅;이재진;신현식
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권8호
    • /
    • pp.367-376
    • /
    • 2007
  • 본 논문은 dynamic voltage scaling (DVS)를 지원하는 휴대장치를 대상으로 하여 응용프로그램 특성에 따라 실행 중에 전력관리 기법이 다르게 적용되는 적응형 전력관리 기법에 대하여 소개한다. 본 논문의 전력관리 기법은 멀티태스킹 시스템에서 실행되는 soft real-time 프로그램의 memory subsystem 과 프로세서의 실행 시간(run time) 및 유휴 시간(idle time)을 고려하여 프로그램 실행 중에 최적의 DVS가 적용될 수 있도록 하여 전력을 관리한다. 세부적인 전력 및 실행시간 프로파일 정보를 이용할 수 있도록 adaptive power manager(APM)를 개발하여 운영체제에 연동시켰고, Post-pass 최적화기는 APM을 위한 적응형 API를 프로그램의 실행이미지에 삽입하여 실행 중 DVS가 적용되는 코드영역을 표시한다. APM은 프로그램 실행 중에 cache miss 수 등을 측정하는 CPU의 pertormance counter들을 관찰한다. Performance counter들의 값을 바탕으로 CPU와 memory 중심의 코드 영역을 구분하여 프로세서의 유휴 시간에 대한 분석을 수행하고, 표시된 코드영역들에 대한 최적정 전압과 동작 클락을 결정하여 시스템에 반영한다. 제안하는 기법의 효과를 보이기 위하여 Intel의 XScale 프로세서 상에서 동작하는 Windows CE에 본 기법을 구현하였고, 실험을 통하여 본 논문에서 제시하는 기법이 영상이나 음성 데이타를 해독하는 프로그램과 같이 정기적으로 비슷한 일을 수행하는 프로그램에서 효과적임을 알 수 있었다. 실험 결과 본 기법으로 유휴시간에 프로세서를 저전력모드로 바꾸는 기존의 고전적인 전력 관리 기법보다 전체 시스템 전력 소모를 9% 더 절약할 수 있었다. 위성영상과 DEM 개발기술이 87% 이상의 점수를 받아 가장 시장성 및 활용성이 높은 기술로 평가되었으며, 초다분광영상에 대한 기술은 70%를 겨우 넘는 수준에서 평가가 되었다. 멀티센서 공간영상정보 통합처리 기술 개발은 다목적 실용위성의 보유, 국가 NGIS 사업의 결과물이 상당히 축척이 되어 있고, 라이다(LiDAR) 기술의 도입을 위한 환경이 조성되었기에 다른 국가에 비해 멀티센서 기술의 적용과 산업화가 가시화 될 수 있을 것으로 기대된다. 그러나 멀티센서 자료의 수급이 용이하지 못하고, 법 제도적인 한계, 시장의 성숙도가 기대이하라는 점 등의 한계를 노정하고 있다.a var. sieboldii 3. Pinus densiflora, Q. aliena, Q. acutissima, P. thunbergii, Q. acuta 4. Carpinus laxiflora, Camellia japonicas. C. tschonoskii community의 5개 그룹으로 나타났다. 하류의 부착돌말류는 상대적으로 양호한 수질을 가지고 있는 정점 1에서 다양한 생물상을, 탄천의 영향을 받는 정점 2는 상대적으로 수질이 악화되어 호오염성 종들이 높은 분포를 나타내고 있었다. 또한 부착돌말류 중 Cymbella minuta는 다른 부착돌말류에 비해 강한 오염지표성을 나타내고 있었다.p=0.000, $4.76{\pm}3.31$ vs $1.29{\pm}0.92$, p=0.000). 골전이 병소의 발생부위는 척추골이 가장 많았으며, 골반골, 늑골, 두개골, 흉골, 견갑골, 대퇴골, 쇄골, 상완골 순서였다. 두개골 전이병소에 SUVmax가 가장 높은 값을 나타내었으며, 늑골의 SUVrel가 가장 높은 값을 나타내었다. 경화성 골전이 병소가 다른 형태의 골전이