DOI QR코드

DOI QR Code

Cache memory system for high performance CPU with 4GHz

4Ghz 고성능 CPU 위한 캐시 메모리 시스템

  • Jung, Bo-Sung (Dept. of control and Instrumentation Engineering, Gyeongsang National University) ;
  • Lee, Jung-Hoon (Dept. of control and Instrumentation Engineering, Gyeongsang National University)
  • 정보성 (국립 경상대학교 제어계측공학과) ;
  • 이정훈 (국립 경상대학교 제어계측공학과)
  • Received : 2012.12.05
  • Accepted : 2013.01.22
  • Published : 2013.02.28

Abstract

TIn this paper, we propose a high performance L1 cache structure on the high clock CPU of 4GHz. The proposed cache memory consists of three parts, i.e., a direct-mapped cache to support fast access time, a two-way set associative buffer to exploit temporal locality, and a buffer-select table. The most recently accessed data is stored in the direct-mapped cache. If a data has a high probability of a repeated reference, when the data is replaced from the direct-mapped cache, the data is selectively stored into the two-way set associative buffer. For the high performance and low power consumption, we propose an one way among two ways set associative buffer is selectively accessed based on the buffer-select table(BST). According to simulation results, Energy $^*$ Delay product can improve about 45%, 70% and 75% compared with a direct mapped cache, a four-way set associative cache, and a victim cache with two times more space respectively.

본 논문에서는 4Ghz의 빠른 클럭 속도의 CPU에 적합한 고성능 L1 캐시 메모리 구조를 제안한다. 제안된 캐시 메모리는 빠른 접근 시간을 위한 직접사상 캐시와 시간적 지역성을 고려한 2-way 연관사상 버퍼 그리고 버퍼 선택 테이블로 구성된다. 빠른 접근 시간을 보장하는 직접사상 캐시는 가장 최근 접근한 데이터를 저장하게 된다. 만약에 직접사상 캐쉬로부터 추출되는 데이터가 다시 참조되어질 높은 확률을 가지는 데이터이면 그 데이터들은 2-웨이 연관사상 버퍼로 선택적으로 저장되어 진다. 그리고 고성능과 저전력의 효과를 높이기 위하여 2-웨이 연관사상 버퍼중 하나의 웨이만 선택적으로 먼저 접근되어지며, 이러한 동작은 버퍼 선택 테이블에 의해 선택된다. 시뮬레이션 결과에 따르면, 에너지 소비와 평균 메모리 접근 시간을 고려한 에너지$^*$지연시간에서 두배 이상의 크기를 가지는 직접사상 캐시, 4-웨이 연관사상 캐시 그리고 희생 캐시에 비해 각각 45%, 70% 그리고 75%의 성능향상을 이루었다.

Keywords

References

  1. Intel Processor, http://www.intel.com/content/ www/ us/en/homepage. html
  2. Samsung DRAM, http://www.samsung.com/ global/bus iness/semiconductor/
  3. S. Santhanam, "StrongARM SA110-a 160MHz 32b 0.5W CMOS ARM processor," Hot Chips 8.1996.
  4. J. H. Lee, J. S. Lee, and S. D. Kim, "A New Cache Architecture Based on Temporal and Spatial Loc ality, " J. Systems Architecture, vol.46, pp.1451-1467, Sept., 2000. https://doi.org/10.1016/S1383-7621(00)00035-7
  5. CACTI 4.3, http://www.hpl.hp.com/personal/ Norman Jouppi/cacti4.html
  6. D. Nicolaescu, A. Veidenbaum, and A. Nicol며, " Using a Way Cache to Improve Performance of Set-Associative Cache," High-Performance Computin Lecture Notes in Computer Science Vol.4759, pp.93-104, 2008.
  7. J. Kang, S. Lee, and I. Lee, " Way-tracking set-ass ociative caches," Electronics Letters, Vol. 46, pp.14 97-1499, Oct,. 2010. https://doi.org/10.1049/el.2010.8526
  8. C. J. Janraj, T. V. kalyan, T. Warrier, and M. Mutya m, " Way Sharing Set Associative Cache Archite cture," 25th International Conference on VSLI Design, pp.251-256, 2012
  9. C. H. Ting, J. D. Huang, and Y. H. Kao, "Cycle-Tim e-Aware Sequential Way-Access Set-Associative Cache for Low Energy Consumption," IEEE Asia Pacific Conference on Circuits and Systems, pp.854- 58 7, 2008.
  10. Rolan, D. Fraguela, B. B. Doallo, R. "Adaptive line placement with the Set Balancing Cache," ACM International Symposium on Microarchitecture, pp.529-540, 2009.
  11. Henning, John L., ""SPEC CPU2006 benchmark descriptions," ACM SIGARCH Computer Architecture News Vol. 34, No. 4, pp. 1-17, Sep,. 2006.
  12. SPEC Benchmark Suite. Information available at http://www.spec.org/cpu2006/
  13. Luk, C., Cohn, R., Muth, R., Patil, H., Klauser, A., Lowney, G., Wallace, S., Vijay Janapa Reddi, and Ha lwood, K. Pin: building customized program analysis tools with dynamic instrumentation. In Proceedings of the 2005 ACM SIGPLAN Conference on Program ming Language Design and Implementatio n. pp.190 -200, June, 2005.
  14. Intel Pin-tools, http://software.intel.com/en-us/articles/pin-a-dynamic-binary-instrumentation-tool