• 제목/요약/키워드: superscalar processor

검색결과 58건 처리시간 0.019초

멀티코어 비순차 수퍼스칼라 프로세서의 성능 연구 (A Performance Study of Multi-core Out-of-Order Superscalar Processor Architecture)

  • 이종복
    • 전기학회논문지
    • /
    • 제61권10호
    • /
    • pp.1502-1507
    • /
    • 2012
  • In order to overcome the hardware complexity and power consumption problems, recently the multi-core architecture has been prevalent. For hardware simplicity, usually RISC processor is adopted as the unit core processor. However, if the performance of unit core processor is enhanced, the overall performance of the multi-core processor architecture can be further increased. In this paper, out-of-order superscalar processor is utilized for the multi-core processor architecture. Using SPEC 2000 benchmarks as input, the trace-driven simulation has been performed for the out-of-order superscalar cores between 2 and 16 extensively. As a result, the 16-core out-of-order superscalar processor for the window size of 16 resulted in 17.4 times speed up over the single-core out-of-order superscalar processor, and 50 times speed up over the single core RISC processor. When compared for the same number of cores on the average, the multi-core out-of-order superscalar processor performance achieved 3.2 times speed up over the multi-core RISC processor and 1.6 times speed up over the multi-core in-order superscalar processor.

슈퍼스칼라 구조를 갖지 않는 고성능 Stream Processor 설계 (A Design of a High Performance Stream Processor without Superscalar Architecture)

  • 이관호;김치용
    • 전기전자학회논문지
    • /
    • 제21권1호
    • /
    • pp.77-80
    • /
    • 2017
  • 본 논문에서는 기존의 superscalar GP-GPU 구조와 달리 superscalar issue를 제거하여 GP-GPU성능을 향상하는 방법을 제안한다. superscalar issue를 제거하기 위해 stream processor의 구조를 단순화했다. stream processor의 구조가 단순화 됨에 따라 하드웨어의 크기를 크게 늘리지 않고 thread 개 수가 늘려 성능을 개선하였다. thread 개수가 늘어남에 따라 thread의 묶음인 warp을 관리하는 warp scheduler 구조를 새롭게 제안하였다. 제안하는 warp scheduler는 superscalar issue가 제거 되어 있기 때문에 warp 활성화 정보를 통해 라운드 로빈 스케쥴링을 통해 활성화 된 warp에게 명령어를 전달한다. 성능 비교는 가우시안 필터링 연산을 사용하였으며 기존의 GP-GPU의 비해 7.89배의 성능향상을 보였다.

멀티코어 순차 수퍼스칼라 프로세서의 성능 연구 (Performance Study of Multi-core In-Order Superscalar Processor Architecture)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권5호
    • /
    • pp.123-128
    • /
    • 2012
  • 최근에 이르러 디지털 시스템의 성능을 극대화하기 위하여, 멀티코어 프로세서가 상용화 되어 널리 이용되고 있다. 이러한 멀티코어 프로세서를 구성하는 단위 코어의 성능을 높이면, 적은 개수의 코어를 가지고 시스템의 성능을 크게 향상시킬 수가 있다. 본 논문에서는 순차실행 방식의 수퍼스칼라를 단위 코어로 하는 멀티코어 프로세서 아키텍쳐를 제안하였다. 그리고, 윈도우 크기가 4에서 16이고 2-코어에서 16-코어로 구성되는 멀티코어 수퍼스칼라 프로세서에 대하여, SPEC 2000 벤치마크를 입력으로 하는 광범위한 모의실험을 수행하였다. 모의실험 결과, 윈도우의 크기가 16일 때 16-코어 수퍼스칼라 프로세서는 1-코어 수퍼스칼라 프로세서보다 8.4배의 성능 향상을 가져왔다. 또한, 같은 코어 개수를 가진 멀티 코어 수퍼스칼라 프로세서의 성능이 멀티코어 RISC 프로세서의 성능의 2 배를 기록하였다.

완전한 파이프라인 방식의 비순차실행 수퍼스칼라 프로세서의 VHDL 설계 (VHDL Design for Out-of-Order Superscalar Processor of A Fully Pipelined Scheme)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.99-105
    • /
    • 2021
  • 오늘날 멀티코어 프로세서, 시스템 반도체, 그래픽처리장치를 막론하고 그것을 구성하는 기본 단위 또는 필수적으로 투입되는 CPU의 기본단위는 수퍼스칼라 프로세서이다. 따라서, 고성능의 비순차실행 수퍼스칼라 프로세서가 채택되어야만 위에서 거론된 시스템의 성능을 극대화할 수 있다. 수퍼스칼라 프로세서는 완전한 파이프라인 방식으로 재배열버퍼와 예약스테이션을 이용하여 명령어를 동적 스케줄링 함으로써, 매 싸이클 당 복수 개의 명령어를 인출, 발행, 실행 및 기록한다. 본 논문에서는 예측실행 기능이 있는 완전한 파이프라인 방식의 비순차실행 수퍼스칼라 프로세서를 VHDL로 설계하고, GHDL로 검증하였다. 모의실험 결과, ARM 명령어로 구성된 프로그램에 대한 연산을 성공적으로 수행할 수 있었다.

다중블럭을 실행하는 멀티코어 비순차 수퍼스칼라 프로세서의 성능 분석 (Performance Analysis of Multicore Out-of-Order Superscalar Processor with Multiple Basic Block Execution)

  • 이종복
    • 한국멀티미디어학회논문지
    • /
    • 제16권2호
    • /
    • pp.198-205
    • /
    • 2013
  • 본 논문에서는 다중블럭 실행을 이용하는 멀티코어 비순차 수퍼스칼라 프로세서 아키텍쳐의 성능을 분석하였다. 이것을 위하여 SPEC 2000 벤치마크를 입력으로 하며, 윈도우 크기가 32와 64이고 1개에서 4개의 다중블럭을 실행하는 멀티코어 비순차 수퍼스칼라 프로세서에 대하여 1 코어에서 16 코어까지 광범위한 모의실험을 수행하였다. 모의실험 결과, 4개의 다중블럭을 실행하는 멀티코어 비순차 수퍼스칼라 프로세서는 같은 사양에서 단일 블럭을 실행할 때보다 평균 22.0%의 성능 향상을 가져왔다.

독립시행의 정리를 이용하는 수퍼스칼라 프로세서의 다중 분기 예측 성능 모델 (The Analytic Performance Model of the Superscalar Processor Using Multiple Branch Prediction)

  • 이종복
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.1009-1012
    • /
    • 1999
  • An analytical performance model that can predict the performance of a superscalar processor employing multiple branch prediction is introduced. The model is based on the conditional independence probability and the basic block size of instructions, with the degree of multiple branch prediction, the fetch rate, and the window size of a superscalar architecture. Trace driven simulation is performed for the subset of SPEC integer benchmarks, and the measured IPCs are compared with the results derived from the model. As the result, our analytic model could predict the performance of the superscalar processor using multiple branch prediction within 6.6 percent on the average.

  • PDF

The Performance Potential of Data Dependent Computation on Asynchronous Superscalar Processor

  • Kim, Suk-Jin;Park, Byung-Soo;Park, Chan-Ho;Lee, Dong-Ik
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -1
    • /
    • pp.414-416
    • /
    • 2000
  • We investigate potential advantages and problems when a superscalar processor is designed and implemented using asynchronous design methods. Conventional techniques of superscalar processing are applied and data dependent adder is considered as an asynchronous component. Intensive simulations on SPEC INT95 benchmark suites are made for the purpose of performance comparison between a synchronous and an asynchronous superscalar processor, respectively. The simulation results show about 5% speedup with asynchronous design methods in the sense of Issue Rate.

  • PDF

다중 명령어 처리 DSP 설계 (A Design of Superscalar Digital Signal Processor)

  • 박성욱
    • 한국지능시스템학회논문지
    • /
    • 제18권3호
    • /
    • pp.323-328
    • /
    • 2008
  • 본 논문에서는 연산 중심의 DSP 작업에 대한 성능을 유지하면서 제어 작업을 효과적으로 수행할 수 있는 프로세서 구조를 제안하고 구현하였다. 전통적으로 DSP작업은 직렬 연결된 연산기로 구현되지만, 제안한 프로세서에서는 곱셈기, 2개의 ALU, 읽기/쓰기 유닛 등 4개의 실행 유닛이 병렬로 배치되어 있고 수퍼스칼라 방식으로 제어되므로 동시에 처리된다. 제안된 프로세서를 사용하여 AC-3 오디오 복호화기를 구현하여 성능이 37.8% 향상됨을 확인하였다. 이와 같은 연구는 기존의 고성능 DSP를 사용할 수 없는 저가격의 가전기기용 부품제작에 활용이 가능하다.

파이프라인식 비순차실행 수퍼스칼라 프로세서의 FPGA 설계 및 구현 (FPGA Design and Implementation of A Pipelined Out-of-Order Superscalar Processor)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권3호
    • /
    • pp.153-158
    • /
    • 2023
  • 국내에서 시스템반도체 설계의 중요성이 대두되고 있으며, 메모리 반도체 설계 기술과의 균형있는 발전을 도모해야 한다. Xilinx에서 제공하는 Vivado 통합 환경 도구를 이용하여 짧은 시간에 큰 비용을 들이지 않고 프로세서를 Xilinx FPGA 반도체 칩에 구현할 수 있다. 본 논문에서는 레코드 자료구조를 지원하여 효율적으로 디지털 시스템을 설계할 수 있는 VHDL을 이용하여 32 비트 ARM 명령어를 실행할 수 있는 파이프라인식 비순차실행 수퍼스칼라 프로세서를 설계하였다. Vivado에서 광범위한 시뮬레이션을 수행한 후에, Xilinx FPGA로 합성, 구현 및 로직아날라이저로 검증하였다. 그 결과, 파이프라인식 비순차실행 수퍼스칼라 프로세서가 FGPA에서 성공적으로 동작하였다.

80μW/MHz 0.68V Ultra Low-Power Variation-Tolerant Superscalar Dual-Core Application Processor

  • Kwon, Youngsu;Lee, Jae-Jin;Shin, Kyoung-Seon;Han, Jin-Ho;Byun, Kyung-Jin;Eum, Nak-Woong
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제4권2호
    • /
    • pp.71-77
    • /
    • 2015
  • Upcoming ground-breaking applications for always-on tiny interconnected devices steadily demand two-fold features of processor cores: aggressively low power consumption and enhanced performance. We propose implementation of a novel superscalar low-power processor core with a low supply voltage. The core implements intra-core low-power microarchitecture with minimal performance degradation in instruction fetch, branch prediction, scheduling, and execution units. The inter-core lockstep not only detects malfunctions during low-voltage operation but also carries out software-based recovery. The chip incorporates a pair of cores, high-speed memory, and peripheral interfaces to be implemented with a 65nm node. The processor core consumes only 24mW at 350MHz and 0.68V, resulting in power efficiency of $80{\mu}W/MHz$. The operating frequency of the core reaches 850MHz at 1.2V.