• 제목/요약/키워드: Instruction cache

검색결과 67건 처리시간 0.025초

멀티미디어 휴대 단말기용 32 비트 RISC 코어 구현 (Implementation of a 32-Bit RISC Core for Multimedia Portable Terminals)

  • 정갑천;기용철;박성모
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(2)
    • /
    • pp.226-229
    • /
    • 2000
  • In this paper, we describe implementation of 32-Bit RISC Core for portable communication/information equipment, such as cellular telephones and personal digital assistants, notebook, etc. The RISC core implements the ARM$\^$R/V4 instruction set on the basis of low power techniques in architecture level and logic level. It operates with 5-stage pipeline, and has harvard architecture to increase execution speed. The processor is modeled and simulated in RTL level using VHDL. Behavioral Cache and MMU are added to the VHDL model for instruction level verification of the processor. The core is implemented using Mentor P'||'&'||'R tools with IDEC C-631 Cell library of 0.6$\mu\textrm{m}$ CMOS 1-poly 3-metal CMOS technology.

  • PDF

Raptor의 정수처리기 설계 (Design of the Integer Processor Unit for RAPTOR)

  • 송윤섭;김도형
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.763-766
    • /
    • 1998
  • This paper describes the microarchitecture of the integer processor unit of RAPTOR which is an on-chip multiprocessor. The integer processor unit implements the 64-bit SPARC-V9 architecture and supports by hardware out-of-order instruction execution. The unit is designed to be handy so that multiple copies of the unit cn be integrated with cache memories into a single chip. The design was proceeded in a top-down manner. The hardware description and its verfication were performed using Verilog-HDL.

  • PDF

Multi-Program 벤치마크를 이용한 대칭구조 Multiprocessor의 성능평가와 분석 (Performance Evaluation and Analysis of Symmetric Multiprocessor using Multi-Program Benchmarks)

  • 정태경
    • 한국정보통신학회논문지
    • /
    • 제10권4호
    • /
    • pp.645-651
    • /
    • 2006
  • 본 논문은 컴퓨터 시스템의 성능평가와 분석을 대칭구조의 멀티프로세서를 실행할 수 있는 시뮬레이터를 사용하여 살펴보았으며 또한 시스템 분석을 하는데 있어서 멀티프로세서를 위한 멀티프로그램 벤치마크의 집합체인 SPLASH-2를 이행하여 대칭구조의 운영체제 IRIX5.3 탑재한 멀티프로세서의 행위범위의 연구를 수행하기 위하여 멀티프로세서의 시스템 분석을 실시 하였다. 또한 대칭구조의 멀티프로세서의 구조와 평가방법을 보다 유효하게 하기 위해서 멀티프로세서의 확장성을 functionality-based 소프트웨어인 SimOS를 가지고 증명하였으며 본 논문을 통하여 멀티프로그램 벤치마크인 RADIX 정렬 알고리즘이나 Cholesky 인수분해 알고리즘을 이용하여 로칼 인스트럭션과 로칼 데이터 사이에서의 멀티프로세서의 Cache miss의 수 와 Stall 시간을 동시에 검사하였다.

Multicore-Aware Code Co-Positioning to Reduce WCET on Dual-Core Processors with Shared Instruction Caches

  • Ding, Yiqiang;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제6권1호
    • /
    • pp.12-25
    • /
    • 2012
  • For real-time systems it is important to obtain the accurate worst-case execution time (WCET). Furthermore, how to improve the WCET of applications that run on multicore processors is both significant and challenging as the WCET can be largely affected by the possible inter-core interferences in shared resources such as the shared L2 cache. In order to solve this problem, we propose an innovative approach that adopts a code positioning method to reduce the inter-core L2 cache interferences between the different real-time threads that adaptively run in a multi-core processor by using different strategies. The worst-case-oriented strategy is designed to decrease the worst-case WCET among these threads to as low as possible. The other two strategies aim at reducing the WCET of each thread to almost equal percentage or amount. Our experiments indicate that the proposed multicore-aware code positioning approaches, not only improve the worst-case performance of the real-time threads but also make good tradeoffs between efficiency and fairness for threads that run on multicore platforms.

4-Way 캐쉬의 선택된 Element를 이용한 향상된 동적 분기 예측기 구현 (An Improved Dynamic Branch Predictor by Selective Access of a Specific Element in 4-Way Cache)

  • 황인성;황선영
    • 한국통신학회논문지
    • /
    • 제38A권12호
    • /
    • pp.1094-1101
    • /
    • 2013
  • 본 논문은 4-Way 캐쉬의 선택된 element만을 사용하여 어플리케이션 수행 사이클을 줄인 향상된 동적 분기 예측기를 제안한다. 제안된 동적 분기 예측기는 분기명령어가 페치되면 MRU 버퍼를 참조하여 4-Way 캐쉬의 선택된 element에서 타깃 주소를 얻으므로, 모든 element에 접근하는 기존의 동적 분기 예측기보다 제한된 전력하에서 BTAC entry 수를 증가시킬 수 있어 분기 예측 성공률과 어플리케이션의 수행속도가 상당히 향상된다. 제안된 동적 분기 예측기의 효율성을 SMDL 시스템에 의해 생성된 코어가 벤치마크 어플리케이션을 수행하여 검증한다. 실험결과 동적 분기 예측기가 없는 코어에 비해 생성된 코어의 어플리케이션 수행 사이클은 평균 10.1% 감소하고 어플리케이션의 전력소모는 7.4% 증가한다. 기존 동적 분기 예측기를 사용하는 코어에 비해 수행 사이클은 평균 4.1% 줄어든다.

Exploiting Hardware Events to Reduce Energy Consumption of HPC Systems

  • Lee, Yongho;Kwon, Osang;Byeon, Kwangeun;Kim, Yongjun;Hong, Seokin
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.1-11
    • /
    • 2021
  • 본 논문에서는 HPC 시스템의 에너지 효율을 향상시키기 위해 Event-driven Uncore Frequency Scaler (eUFS)라는 새로운 전력관리 메커니즘을 제안한다. eUFS는 LAPI (LLC accesses Per Instructions) 및 CPI (Clock Cycles Per Instruction)와 같은 하드웨어 이벤트를 활용하여 언코어 주파수를 동적으로 조정한다. 기준 시간을 주기로 해당 하드웨어 이벤트를 취합하고, 취합한 이벤트와 이전 언코어 주파수를 이용해 목표 언코어 주파수를 결정한다. NPB 벤치마크를 사용한 실험을 통해 본 논문에서 제안하는 UFS 메커니즘은 C/D class NPB 벤치마크에 대해 평균 6%의 에너지 소비를 감소시키는 것으로 확인되었고 실행시간 증가는 평균 2% 수준인 것으로 확인되었다.

정확하고 효율적인 간접 분기 예측기 설계 (Design of Accurate and Efficient Indirect Branch Predictor)

  • 백경호;김은성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.1083-1086
    • /
    • 2005
  • Modern superscalar processors exploit Instruction Level Parallelism to achieve high performance by speculative techniques such as branch prediction. The indirect branch target prediction is very difficult compared to the prediction of direct branch target and branch direction, since it has dynamically polymorphic target. We present a accurate and hardware-efficient indirect branch target predictor. It can reduce the tags which has to be stored in the Indirect Branch Target Cache without a sacrifice of the prediction accuracy. We implement the proposed scheme on SimpleScalar and show the efficiency running SPEC95 benchmarks.

  • PDF

휴대단말기 저장매체인 플래시 메모리 특성 분석 (Analysis of flash memory characteristics as storage medium of mobile equipments)

  • 정보성;이정훈
    • 정보통신설비학회논문지
    • /
    • 제10권4호
    • /
    • pp.115-120
    • /
    • 2011
  • Recently flash memory is widely used in various mobile devices as storage medium. Nonvolatile memory can be divided into two categories: NAND- and NOR-type flash memory. NOR flash memory is mainly used to store instruction codes for operation; while NAND for data storage. However, NAND does show more economical benefits, that is, it is approximately 30~40% cheaper than NOR flash. Therefore it can be useful to improve NAND flash performance by replacing NOR flash with NAND flash combining with various buffer systems.

  • PDF

임베디드 프로세서를 위한 에너지 효율의 명령어 캐쉬 계층 구조 (Energy-Efficient Instruction Cache Hierarchy for Embedded Processors)

  • 강진구;이인환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (A)
    • /
    • pp.257-260
    • /
    • 2006
  • 계층적 메모리 구조는 성능 향상 이외에도 하위 캐쉬로의 접근을 줄임으로서 전체적인 소비 전력 효율을 높이는 방법으로 사용될 수 있다. 본 논문에서는 임베디드 프로세서의 대표적인 StrongARM의 단일 계층 구조를 대상으로 프로세서에 근접한 명령어 캐쉬를 새로 추가하여 첫 번째와 두 번째 계층의 명령어 캐쉬 크기에 따라 변화하는 소비 전력을 모의실험을 통해 측정하고 두 계층의 명령어 캐쉬 크기에 따른 상호 관계에 대해 알아본다. 직접 사상과 32B의 블록 크기를 갖는 L0 명령어 캐쉬를 삽입하여 에너지 효율이 가장 높은 크기를 찾아보고 효율적 크기에서 소비전력을 측정한 결과 온 칩 구조로 가정한 프로세서 전체의 소비 전력이 최대 약 65%로 감소됨을 볼 수 있으며, L1 명령어 캐쉬가 두 배씩 증가함에 따라 에너지 효율적인 L0 명령어 캐쉬의 크기 또한 두 배씩 증가함을 알 수 있다.

  • PDF

다중 TMS320C31 DSP를 사용한 3-D 비젼센서 Implementation (A 3-D Vision Sensor Implementation on Multiple DSPs TMS320C31)

  • V.옥센핸들러;A.벤스하이르;P.미셰;이상국
    • 센서학회지
    • /
    • 제7권2호
    • /
    • pp.124-130
    • /
    • 1998
  • 독립적인 로보트나 자동차 제어 응용을 위하여 고속 3-D 비젼시스템들은 매우 중요하다. 이 논문은 다음과 같은 세가지 과정으로 구성되는 stereo vision process 개발에 대하여 논술한다 : 왼쪽과 오른쪽 이미지의 edges 추출, matching coresponding edges와 3-D map의 계산. 이 process는 VME 150/40 Imaging Technology vision system에서 이루어졌다. 이것은 display, acqusition, 4Mbytes image frame memory와 세 개의 연산 카드로 구성되는 modular system이다. 40 MHz로 작동하는 프로그래머불 연산 모듈은 $64{\times}32$ bit instruction cache와 두개의 $1024{\times}32$ bit RAM을 가진 TMS320C31 DSP에 기초를 두고 있다. 그것들은 각각 512 Kbyte static RAM, 4 Mbyte image memory, 1 Mbyte flash EEPROM과 하나의 직렬 포트로 구성되어있다. 모듈간의 데이터 전송과 교환은 8 bit globalvideo bus와 세 개의 local configurable pipeline 8 bit video bus에 의하여 이루어졌고, system management를 위하여 VME bus가 쓰였다. 두 개의 DSP는 왼쪽 및 오른쪽 이미지 edges 검출을 위하여 쓰였고 마지막 processor는 matching process와 3-D 연산에 사용되었다. $512{\times}512$픽셀 이미지에서 이 센서는 scene complexity에 따라 1Hz정도의 조밀한 3-D map을 생성했다. 특수목적의 multiprocessor card들을 사용하면 결과를 향상시킬 수 있을 것이다.

  • PDF