• 제목/요약/키워드: 고성능 데이터 캐시 메모리

검색결과 13건 처리시간 0.022초

4Ghz 고성능 CPU 위한 캐시 메모리 시스템 (Cache memory system for high performance CPU with 4GHz)

  • 정보성;이정훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.1-8
    • /
    • 2013
  • 본 논문에서는 4Ghz의 빠른 클럭 속도의 CPU에 적합한 고성능 L1 캐시 메모리 구조를 제안한다. 제안된 캐시 메모리는 빠른 접근 시간을 위한 직접사상 캐시와 시간적 지역성을 고려한 2-way 연관사상 버퍼 그리고 버퍼 선택 테이블로 구성된다. 빠른 접근 시간을 보장하는 직접사상 캐시는 가장 최근 접근한 데이터를 저장하게 된다. 만약에 직접사상 캐쉬로부터 추출되는 데이터가 다시 참조되어질 높은 확률을 가지는 데이터이면 그 데이터들은 2-웨이 연관사상 버퍼로 선택적으로 저장되어 진다. 그리고 고성능과 저전력의 효과를 높이기 위하여 2-웨이 연관사상 버퍼중 하나의 웨이만 선택적으로 먼저 접근되어지며, 이러한 동작은 버퍼 선택 테이블에 의해 선택된다. 시뮬레이션 결과에 따르면, 에너지 소비와 평균 메모리 접근 시간을 고려한 에너지$^*$지연시간에서 두배 이상의 크기를 가지는 직접사상 캐시, 4-웨이 연관사상 캐시 그리고 희생 캐시에 비해 각각 45%, 70% 그리고 75%의 성능향상을 이루었다.

캐시 주소의 태그 이력을 활용한 에너지 효율적 고성능 데이터 캐시 구조 (An Energy Efficient and High Performance Data Cache Structure Utilizing Tag History of Cache Addresses)

  • 문현주;지승현
    • 정보처리학회논문지A
    • /
    • 제14A권1호
    • /
    • pp.55-62
    • /
    • 2007
  • 모바일 기기와 같이 배터리에 의존적인 시스템에서 사용되는 임베디드 프로세서는 총 소모 전력의 많은 부분을 캐시에서 소모한다. 본 논문에서는 임베디드 프로세서용 고성능 선인출 데이터캐시의 저전력화 방안을 연구하였다. 고성능 선인출 데이터캐시에서 메모리 참조명령의 수행에 앞서 참조예측의 결과로 발생하는 선인출 명령은 캐시 적중률을 높여 메모리 참조 시간을 단축하는 반면 선인출 명령의 수에 비례하여 전력 소모가 증가한다. 본 논문에서는 선인출 데이터캐시에 태그이력표(tag history table)를 구비하여 병렬태그탐색을 최소화함으로써 전력 소모를 줄이는 캐시 구조를 제안하였다. 실험을 통해 확인한 결과 제안한 데이터캐시 구조가 기존 데이터캐시 구조에 비하여 수행 시간과 전력 소모를 모두 줄일 수 있음을 확인하였다.

고성능 데이터 캐시 메모리 구조 (High Performance Data Cache Memory Architecture)

  • 김홍식;김정길
    • 한국산학기술학회논문지
    • /
    • 제9권4호
    • /
    • pp.945-951
    • /
    • 2008
  • 공간적 지역성(spatial locality) 및 시간적 지역성(temporal locality)을 동시에 향상시킬 수 있는 새로운 고성능 데이터 캐시 구조를 제안한다. 제안된 캐시 메모리는 하드웨어 프리패치 유닛과 큰 블록 크기를 갖는 직접사상(DM: direct mapped) 캐시와 작은 블록 크기를 갖는 완전 사상(FA: fully associative) 캐시의 하위 캐시 유닛으로 구성된다. 공간적 지역성은 블록 데이터를 패치하여 직접 사상 캐시에 저장함으로써 보장되며, DM 캐시 히트가 발생한 경우에 그 이웃 데이터 블록을 프리패치 함으로써 최적화 된다. 시간적 지역성은 작은 블록 데이터가 DM 캐시로부터 제거 될때 그 블록의 과거 기록에 따라서 중요한 데이터는 완전사상 캐시에 저장함으로써 보장된다. Spec2000 벤치 마크 프로그램에 대한 실험 결과에 의하면 제안된 캐시 구조는 비슷한 크기의 직접사상 캐쉬, 4웨이 연관사상(4 way set associative cache) 및 SMI(selective-mode intelligent cache) 캐쉬 [8]등의 기존의 구조에 비해서 미스 비율(miss rate)을 평균적으로 $12.53\sim23.62%$ 그리고 AMAT(average memory access time)를 평균적으로 $14.67\sim18.60%$ 줄일 수 있음을 증명하였다.

Designing a low-power L1 cache system using aggressive data of frequent reference patterns

  • Jung, Bo-Sung;Lee, Jung-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권7호
    • /
    • pp.9-16
    • /
    • 2022
  • 오늘날, 4차산업혁명의 도래와 함께 사물인터넷(Internet of Things (IoT)) 시스템이 빠르게 발전하고 있다. 이러한 이유로, 고성능 및 대용량의 다양한 애플리케이션이 등장하고 있다. 따라서, 이러한 애플리케이션을 가지는 컴퓨팅 시스템을 위한 저전력 및 고성능 메모리가 필요하다. 본 논문에서는 컴퓨팅 시스템에서 가장 많은 에너지 소비가 발생하는 L1 캐시 메모리에 대한 효과적인 구조를 제안하였다. 제안된 캐시 시스템은 크게 L1 메인 캐시와 버퍼캐시로 구성되어 진다. 메인 캐시는 2-뱅크 시스템으로, 각 뱅크는 2-웨이 연관사상으로 구성된다. L1캐시에서 접근 성공이 발생하면 제안된 알고리즘에 따라 데이터가 버퍼캐시에 복사가 된다. 시뮬레이션 결과에 따르면, 제안된 L1 캐시 시스템은 기존 4웨이 연관사상 캐시 메모리에 비해 에너지-지연에서 약65%의 성능향상을 보였다.

임베디드 프로세서를 위한 선인출 데이터캐시의 저전력화 방안 (Reducing Power Consumption of Data Caches for Embedded Processors)

  • 문현주;지승현
    • 전자공학회논문지CI
    • /
    • 제44권1호
    • /
    • pp.1-9
    • /
    • 2007
  • 임베디드 프로세서는 총 에너지소모량 가운데 대략 40% 이상을 캐시에서 소모하고 있으므로 에너지-효율적 고성능 데이터 캐시 구조를 필요로 한다. 본 논문에서는 임베디드 프로세서를 위한 저전력 선인출 데이터캐시 구조를 제안하였다. 제안한 데이터캐시 구조는 선인출장치(prefetching unit)를 포함한 기존 데이터캐시 구조에 태그히스토리 테이블(tag history table)을 구비함으로써 요구인출 및 선인출시 발생하는 태그메모리 병렬탐색 횟수를 감소시켰다. 이와 같은 전략적인 캐시 구조는 적은 하드웨어 비용으로 병렬탐색을 위한 전력소모를 현저히 줄일 수 있다. 실험을 통하여 제안한 데이터캐시 구조가 기존 선인출 데이터캐시 구조와 동일한 성능을 유지하면서 낮은 전력을 요구함을 확인하였다.

데이터 재구성 기법을 이용한 고성능 FFT (High-Performance FFT Using Data Reorganization)

  • 박능수;최영호
    • 정보처리학회논문지A
    • /
    • 제12A권3호
    • /
    • pp.215-222
    • /
    • 2005
  • 대규모 신호처리 변환을 신속하게 처리하기 위해서는 캐시 메모리를 효과적으로 이용하는 것이 중요하다. 대규모 DFT 계산에서는 stride 액세스로 인한 캐시 충돌 적중 실패로 인하여 캐시 성능이 상당히 떨어지게 되고 이로 인해 전체적인 성능이 저하하게 된다. 본 논문에서는 메모리 계층 구조를 고려한 동적 데이터 재배열(Dynamic Data Layout) 방법을 개발하였다. 제시된 방법은 stride를 가지는 계산 단계(computation stage) 사이에 데이터를 동적으로 재구성을 하여 캐시 적중 실패를 줄이는 것이다. 또한 트리 구조 FFT 계산 방법에서 FFT 크기와 데이터 stride 액세스를 기초로 하여 가능한 모든 인수분해 트리 중에서 최소 실행시간을 가지는 최적의 인수 분해트리를 찾아내는 탐색 알고리즘을 개발하였다. 성능 향상을 확인하기 위하여 제시된 방법을 기존의 FFT 알고리즘에 적용하여 Pentium 4, Alpha 21264, $Athlon^{TM}$ 64, UltraSPARC III에서 실험하였다. 실험 결과에 따르면 기존의 FFT 패키지들과 비교하여 제시된 방법을 적용한 FFT가 최대 3.37배의 성능 향상을 얻을 수 있었다.

메모리 파일 시스템 기반 고성능 메모리 맵 파일 입출력을 위한 매핑 캐시 (Mapping Cache for High-Performance Memory Mapped File I/O in Memory File Systems)

  • 김지원;최정식;한환수
    • 정보과학회 논문지
    • /
    • 제43권5호
    • /
    • pp.524-530
    • /
    • 2016
  • 기존보다 데이터를 빠르게 접근하기 위한 노력과 비-휘발성 메모리의 발전은 메모리 파일 시스템 연구에 큰 기여를 해왔다. 메모리 파일 시스템은 파일 입출력의 고성능을 위해서 기존에 사용하는 읽기-쓰기 입출력보다 오버헤드가 적은 메모리 맵 파일 입출력을 사용하도록 제안하고 있다. 하지만 메모리 맵 파일 입출력을 사용하게 되면서 페이지 테이블을 구축할 때 발생하는 오버헤드가 전체 입출력 성능의 큰 부분을 차지하게 되었다. 또한 같은 파일이 반복적으로 접근될 때마다 페이지 테이블을 매번 삭제하기 때문에, 오버헤드가 불필요하게 중복되어서 발생한다는 점을 발견했다. 본 논문이 제안하는 매핑 캐시는 이러한 중복되는 오버헤드를 제거하기 위해서, 매핑이 해제될 때 파일의 페이지 테이블을 제거하지 않고 저장하고 있다가 다시 접근될 때 이를 재활용할 수 있도록 고안한 기법이다. 매핑 캐시는 기존 파일 입출력 성능보다 2.8배, 그리고 웹서버 전체 성능보다 12% 향상을 보였다.

3차원 구조 DRAM의 캐시 기반 재구성형 가속기 (A Cache-based Reconfigurable Accelerator in Die-stacked DRAM)

  • 김용주
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제4권2호
    • /
    • pp.41-46
    • /
    • 2015
  • 컴퓨터 사용 환경이 모바일 시장 및 소형 전자기기 시장 등으로 다양해짐에 따라 저전력 고성능 시스템에 대한 요구도 커지고 있다. 3차원 die-stacking 기술은 한정된 공간에서 DRAM의 집적도과 접근 속도를 높여 차세대 공정방식으로 많은 연구가 되고 있다. 이 논문에서는 3차원 구조의 DRAM 로직층에 재구성형 가속기를 구현하여 저전력 고성능 시스템을 구성하는 방법을 제안한다. 또한 재구성형 가속기의 지역 메모리로 캐시를 적용하고 활용하는 방법에 대해서 논의한다. DRAM의 로직층에 재구성형 가속기를 구현할 경우 위치적인 특성으로 데이터 전송 및 관리에 필요한 비용이 줄어들어 성능을 크게 향상시킬 수 있다. 제안된 시스템에서는 최대 24.8의 스피드업을 기록하였다.

고성능 프로세서를 위한 카운터 기반의 캐시 교체 알고리즘 (Cache Replacement Policy Based on Dynamic Counter for High Performance Processor)

  • 정도영;이용석
    • 전자공학회논문지
    • /
    • 제50권4호
    • /
    • pp.52-58
    • /
    • 2013
  • 캐시 메모리의 성능에 큰 영향을 미치는 요소 중 하나인 캐시 교체 알고리즘 중에서 가장 최적의 성능을 가지는 알고리즘은 LRU알고리즘이다. LRU알고리즘은 데이터의 temporal locality특성이 강한 프로그램에서 좋은 성능을 보여주지만, 그렇지 않은 프로그램에서는 많은 캐시 미스를 발생시킨다. 본 논문에서는 LRU알고리즘의 이러한 단점을 개선하기 위한 새로운 카운터 기반 교체 알고리즘인 DCR(Dynamic Counter based Replacement) 알고리즘을 제안한다. 본 논문에서는 캐시에 저장된 이후로 교체되기 전까지 다시 사용되지 않는 데이터인 zero reuse line의 발생 추이를 관찰함으로써 프로그램의 temporal locality 특성이 시간에 따라 동적으로 변화함을 보였다. 그리고 이에 착안하여 제안하는 DCR 알고리즘은 주기적으로 zero reuse line의 수를 카운트하여 프로그램의 temporal locality 변화에 대응할 수 있도록 하였다. DCR 알고리즘은 기존의 LRU알고리즘과 비교하여 최대 2.7%, 평균 0.47%의 미스율 감소를 보였다.

가시 순차적 분할 렌더링 알고리즘을 이용한 3차원 텍스쳐 기반의 볼륨 그래픽 구조 (3D Texture-Based Volume Graphic Architecture using Visibility-Ordered Division Rendering Algorithm)

  • 김정우;이원종;박우찬;김형래;한탁돈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.706-708
    • /
    • 2002
  • 3차원 텍스쳐 기반의 볼륨 렌더링 기법은 추가적인 하드웨어가 필요 없기 때문에 개발비용이 적다는 장점이 있지만 다각형 기반 렌더링에 최적화 된 범용 그래픽 하드웨어를 그대로 사용하기 때문에 성능이 낮다는 단점이 있다. 이에 본 논문에서는 병렬 구조의 고성능 볼륨 렌더링 시스템에서 사용되던 볼륨 정보 분한 기법을 범용 그래픽 하드웨어에 적용하는 새로운 3차원 텍스쳐 기반 볼륨 그래픽 구조를 제안한다. 제안하는 구조를 통해 볼륨 정보를 분할하여 처리하면, 번용 그래픽 하드웨어가 갖고 있던 물리적 메모리 크기의 한계성을 극복할 수 있다. 또한 전체 해상도의 알파 블렌딩이 아닌 분할된 볼륨 정보 하나가 차지하는 크기만큼의 작은 해상도로 알파 블렌딩을 수행함으로서 렌더링 단계와 프레임 버퍼간의 데이터 전송량을 1/30로 줄이고 픽셀 캐시의 적중률을 99.9%에 근접하게 높일 수 있다.

  • PDF