• 제목/요약/키워드: superscalar architecture

검색결과 39건 처리시간 0.021초

멀티코어 비순차 수퍼스칼라 프로세서의 성능 연구 (A Performance Study of Multi-core Out-of-Order Superscalar Processor Architecture)

  • 이종복
    • 전기학회논문지
    • /
    • 제61권10호
    • /
    • pp.1502-1507
    • /
    • 2012
  • In order to overcome the hardware complexity and power consumption problems, recently the multi-core architecture has been prevalent. For hardware simplicity, usually RISC processor is adopted as the unit core processor. However, if the performance of unit core processor is enhanced, the overall performance of the multi-core processor architecture can be further increased. In this paper, out-of-order superscalar processor is utilized for the multi-core processor architecture. Using SPEC 2000 benchmarks as input, the trace-driven simulation has been performed for the out-of-order superscalar cores between 2 and 16 extensively. As a result, the 16-core out-of-order superscalar processor for the window size of 16 resulted in 17.4 times speed up over the single-core out-of-order superscalar processor, and 50 times speed up over the single core RISC processor. When compared for the same number of cores on the average, the multi-core out-of-order superscalar processor performance achieved 3.2 times speed up over the multi-core RISC processor and 1.6 times speed up over the multi-core in-order superscalar processor.

멀티코어 순차 수퍼스칼라 프로세서의 성능 연구 (Performance Study of Multi-core In-Order Superscalar Processor Architecture)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권5호
    • /
    • pp.123-128
    • /
    • 2012
  • 최근에 이르러 디지털 시스템의 성능을 극대화하기 위하여, 멀티코어 프로세서가 상용화 되어 널리 이용되고 있다. 이러한 멀티코어 프로세서를 구성하는 단위 코어의 성능을 높이면, 적은 개수의 코어를 가지고 시스템의 성능을 크게 향상시킬 수가 있다. 본 논문에서는 순차실행 방식의 수퍼스칼라를 단위 코어로 하는 멀티코어 프로세서 아키텍쳐를 제안하였다. 그리고, 윈도우 크기가 4에서 16이고 2-코어에서 16-코어로 구성되는 멀티코어 수퍼스칼라 프로세서에 대하여, SPEC 2000 벤치마크를 입력으로 하는 광범위한 모의실험을 수행하였다. 모의실험 결과, 윈도우의 크기가 16일 때 16-코어 수퍼스칼라 프로세서는 1-코어 수퍼스칼라 프로세서보다 8.4배의 성능 향상을 가져왔다. 또한, 같은 코어 개수를 가진 멀티 코어 수퍼스칼라 프로세서의 성능이 멀티코어 RISC 프로세서의 성능의 2 배를 기록하였다.

슈퍼스칼라 구조를 갖지 않는 고성능 Stream Processor 설계 (A Design of a High Performance Stream Processor without Superscalar Architecture)

  • 이관호;김치용
    • 전기전자학회논문지
    • /
    • 제21권1호
    • /
    • pp.77-80
    • /
    • 2017
  • 본 논문에서는 기존의 superscalar GP-GPU 구조와 달리 superscalar issue를 제거하여 GP-GPU성능을 향상하는 방법을 제안한다. superscalar issue를 제거하기 위해 stream processor의 구조를 단순화했다. stream processor의 구조가 단순화 됨에 따라 하드웨어의 크기를 크게 늘리지 않고 thread 개 수가 늘려 성능을 개선하였다. thread 개수가 늘어남에 따라 thread의 묶음인 warp을 관리하는 warp scheduler 구조를 새롭게 제안하였다. 제안하는 warp scheduler는 superscalar issue가 제거 되어 있기 때문에 warp 활성화 정보를 통해 라운드 로빈 스케쥴링을 통해 활성화 된 warp에게 명령어를 전달한다. 성능 비교는 가우시안 필터링 연산을 사용하였으며 기존의 GP-GPU의 비해 7.89배의 성능향상을 보였다.

ARM-SMI용 Load/store Unit(LSU) 설계 (Design of a Load/store Unit for ARM-SMI Microprocessors)

  • 김재억;이용석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1387-1390
    • /
    • 2003
  • The superscalar architecture shows limit in performance improvement recently. While, SMT(Simultaneous Multi-Threading) architecture is receiving remark. The purpose of SMT architecture is to improve the performance of superscalar microprocessors by executing multi threads at the same time. In this paper, a load/store unit(LSU) suitable for ARM-compatible SMT microprocessors is presented. This LSU supports load instructions and store instructions of ARM ISA. This LSU keeps away the degradation of SMT by cache miss.

  • PDF

다중블럭을 실행하는 멀티코어 비순차 수퍼스칼라 프로세서의 성능 분석 (Performance Analysis of Multicore Out-of-Order Superscalar Processor with Multiple Basic Block Execution)

  • 이종복
    • 한국멀티미디어학회논문지
    • /
    • 제16권2호
    • /
    • pp.198-205
    • /
    • 2013
  • 본 논문에서는 다중블럭 실행을 이용하는 멀티코어 비순차 수퍼스칼라 프로세서 아키텍쳐의 성능을 분석하였다. 이것을 위하여 SPEC 2000 벤치마크를 입력으로 하며, 윈도우 크기가 32와 64이고 1개에서 4개의 다중블럭을 실행하는 멀티코어 비순차 수퍼스칼라 프로세서에 대하여 1 코어에서 16 코어까지 광범위한 모의실험을 수행하였다. 모의실험 결과, 4개의 다중블럭을 실행하는 멀티코어 비순차 수퍼스칼라 프로세서는 같은 사양에서 단일 블럭을 실행할 때보다 평균 22.0%의 성능 향상을 가져왔다.

독립시행의 정리를 이용하는 수퍼스칼라 프로세서의 다중 분기 예측 성능 모델 (The Analytic Performance Model of the Superscalar Processor Using Multiple Branch Prediction)

  • 이종복
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.1009-1012
    • /
    • 1999
  • An analytical performance model that can predict the performance of a superscalar processor employing multiple branch prediction is introduced. The model is based on the conditional independence probability and the basic block size of instructions, with the degree of multiple branch prediction, the fetch rate, and the window size of a superscalar architecture. Trace driven simulation is performed for the subset of SPEC integer benchmarks, and the measured IPCs are compared with the results derived from the model. As the result, our analytic model could predict the performance of the superscalar processor using multiple branch prediction within 6.6 percent on the average.

  • PDF

한정된 연산유닛에서 명령어 종속성을 이용하는 수퍼스칼라 프로세서의 이론적 성능 모델 (A Theoretical Superscalar Microprocessor Performance Model with Limited Functional Units Using Instruction Dependencies)

  • 이종복
    • 전기학회논문지
    • /
    • 제59권2호
    • /
    • pp.423-428
    • /
    • 2010
  • In the initial design phase of superscalar microprocessors, a performance model is necessary. A theoretic performance model is very useful since performance for various architecture parameters can be obtained by simply computing equations, without repeating simulations, Previous studies established theoretic performance models using the relation between the instruction window size and the issue width, with the penalties due to branch mispredictions and cache misses. However, the study was intended for unlimited number of functional units, which is insufficient for the real case application. This paper proposes a superscalar microprocessor theoretical performance model which also works for the limited functional units. To enhance the accuracy of our limited functional unit model, instruction dependency rates are employed. By using trace-driven data of SPEC 2000 integer programs as input, this paper shows that the theoretically computed performance of superscalar microprocessor with limited number of functional units is quite similar to the measured performance.

수퍼스칼라 디지털 신호처리 프로세서에 대한 통계적 모의실험 (Statistical Simulation for Superscalar DSP Processors)

  • 이종복
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.1217-1220
    • /
    • 2005
  • In this paper, statistical simulation is applied to a superscalar digital signal processor architecture using DSP kernel and DSP application benchmarks. As a result, the performance of a digital signal processor with several microarchitecture configurations can be estimated with the relative error of 3.7 ${\backslash}%$ on the average.

  • PDF

다중 명령어 처리 DSP 설계 (A Design of Superscalar Digital Signal Processor)

  • 박성욱
    • 한국지능시스템학회논문지
    • /
    • 제18권3호
    • /
    • pp.323-328
    • /
    • 2008
  • 본 논문에서는 연산 중심의 DSP 작업에 대한 성능을 유지하면서 제어 작업을 효과적으로 수행할 수 있는 프로세서 구조를 제안하고 구현하였다. 전통적으로 DSP작업은 직렬 연결된 연산기로 구현되지만, 제안한 프로세서에서는 곱셈기, 2개의 ALU, 읽기/쓰기 유닛 등 4개의 실행 유닛이 병렬로 배치되어 있고 수퍼스칼라 방식으로 제어되므로 동시에 처리된다. 제안된 프로세서를 사용하여 AC-3 오디오 복호화기를 구현하여 성능이 37.8% 향상됨을 확인하였다. 이와 같은 연구는 기존의 고성능 DSP를 사용할 수 없는 저가격의 가전기기용 부품제작에 활용이 가능하다.

개인용 정보 단말장치를 위한 내장형 멀티스레딩 프로세서 구조 (Embedded Multithreading Processor Architecture for Personal Information Devices)

  • 정하영;정원영;이용석
    • 대한전자공학회논문지SD
    • /
    • 제47권9호
    • /
    • pp.7-13
    • /
    • 2010
  • 본 논문은 스마트폰, 타블렛 PC와 같은 개인용 정보 단말장치 응용에 적합한 프로세서 구조를 제안한다. 고성능 내장형 프로세서 개발은 아키텍쳐의 변화가 필요하고, 오버헤드가 크기 때문에, 업계에서는 높은 동작 주파수의 고성능 내장형 프로세서의 개발에 전념하고 있다. 고성능 프로세서 구조 중 비순차 슈퍼스칼라(out-of-order superscalar)는 하드웨어 복잡도가 과도하게 증가하며, 그에 비해 성능 향상이 적으므로 내장형 응용에 적합하지 않다. 따라서 하드웨어 복잡도가 낮은 고성능 내장형 프로세서 구조의 개발이 필요하다. 본 논문에서는 스칼라, 슈퍼스칼라, 멀티프로세서 방식에 비하여 복잡도가 낮은 새로운 SMT(Simultaneous Multi-Threading) 구조를 제안한다. 최근의 개인용 정보단말기는 많은 작업을 동시에 수행하기 때문에, SMT나 CMP는 이에 적합한 구조라 할 수 있다. 또한, 시뮬레이션 결과 SMT는 여러 프로세서 구조 중 가장 효율이 높은 프로세서로 보인다.