• Title/Summary/Keyword: Processor Core

Search Result 397, Processing Time 0.029 seconds

PDA를 위한 32비트 RISC 코어의 설계 (A design of 32-bit RISC core for PDA)

  • 곽승호;최병윤;이문기
    • 한국통신학회논문지
    • /
    • 제22권10호
    • /
    • pp.2136-2149
    • /
    • 1997
  • 본 논문에서는 PDA나 PCS와 같은 내장형 응용을 위한 RISC 코어를 설계하였다. 이 RISC 프로세서는 내장형 응용의 중요한 특성인 빠른 인터럽트 핸들링, 빠른 컨텍스트 스위칭과 저전력 소모를 지원한다. 또한 조건부로 수행 가능한 명령어 군과 블럭 전송 명령 그리고 곱셈 명령을 이용하여 프로세서의 성능을 향상시켰다. 3단 파이프라인을 이용하였으며 2-phase 클럭을 사용한 단일 사이클 명령어 수행이 가능하다. 이 프로세서는 $5.0{\times}5.0mm^2$의 면적에 약 88,000개의 트랜지스터가 집적되었으며 $0.6{\mu}\textrm{m}$ 삼중 금속 단일 폴리 공정을 이용하여 레이아웃 되었다. 최대 동작 주파수는 40MHz이며 예상 전력 소비는 179mW이다.

  • PDF

Selecting a Synthesizable RISC-V Processor Core for Low-cost Hardware Devices

  • Gookyi, Dennis Agyemanh Nana;Ryoo, Kwangki
    • Journal of Information Processing Systems
    • /
    • 제15권6호
    • /
    • pp.1406-1421
    • /
    • 2019
  • The Internet-of-Things (IoT) has been deployed in almost every facet of our day to day activities. This is made possible because sensing and data collection devices have been given computing and communication capabilities. The devices implement System-on-Chips (SoCs) that incorporate a lot of functionalities, yet they are severely constrained in terms of memory capacitance, hardware area, and power consumption. With the increase in the functionalities of sensing devices, there is a need for low-cost synthesizable processors to handle control, interfacing, and error processing. The first step in selecting a synthesizable processor core for low-cost devices is to examine the hardware resource utilization to make sure that it fulfills the requirements of the device. This paper gives an analysis of the hardware resource usage of ten synthesizable processors that implement the Reduced Instruction Set Computer Five (RISC-V) Instruction Set Architecture (ISA). All the ten processors are synthesized using Vivado v2018.02. The maximum frequency, area, and power reports are extracted and a comparison is made to determine which processor is ideal for low-cost hardware devices.

칩 멀티 프로세서 구조에서 온칩 유휴 캐시의 효과적인 활용 방안 (Efficient On-Chip Idle Cache Utilization Technique in Chip Multi-Processor Architecture)

  • 곽종욱
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권10호
    • /
    • pp.13-21
    • /
    • 2013
  • 최근 들어 칩 멀티 프로세서 상의 코어 개수는 지속적으로 증가하는데 반해, 이를 효율적으로 뒷받침하기 위한 멀티 프로그래밍 혹은 멀티 쓰레딩 기법은 부족한 실정이다. 이로 인해 실제 작업을 수행하지 않는 유휴 코어가 발생하였고, 해당 코어가 소유한 자원들 중 개별 캐시 부분은 유휴 캐시로 낭비되었다. 본 논문에서는 유휴 개별 캐시의 발생이 불가피함을 인지함과 동시에 그것을 칩 내 메모리 공간으로써 효율적으로 활용할 수 있는 기법을 제안한다. 제안된 기법은 유휴 캐시를 희생 캐시로 활용하는 방법이며, 이를 위해 요구되는 새로운 시스템 구성 및 캐시 일관성 프로토콜의 세부 동작을 소개한다. 본 논문에서 제시된 기법은 유휴 캐시를 사용하지 않을 때와 비교하여 4-코어 및 16-코어 기반 칩 멀티 프로세서 환경에서 각각 19.4%와 10.2%의 IPC 향상을 가져왔다.

멀티코어 프로세서 기반 ARM TrustZone 환경에서의 게스트 운영체제 간 통신 (Inter-GuestOS Communications in Multicore-based ARM TrustZone)

  • 전무웅;김세원;유혁
    • 정보과학회 논문지
    • /
    • 제42권5호
    • /
    • pp.551-557
    • /
    • 2015
  • ARM TrustZone을 이용한 기술은 새로운 임베디드 시스템의 가상화 연구로 관심을 끌고 있다. ARM TrustZone은 secure world와 normal world라는 두 개의 가상 실행 환경을 정의한다. 소프트웨어의 기능을 확장하기 위한 방법으로 ARM TrustZone 환경에서 world 간 통신은 중요하다. 그러나 현재의 모니터 모드의 소프트웨어는 world 간 통신을 충분히 지원하지 않고 있다. 본 논문에서는 ARM TrustZone을 이용한 각 world에서 구동되는 게스트 운영체제 간의 새로운 통신 메커니즘을 제시한다. 제안한 통신 메카니즘은 싱글코어와 멀티코어에서 양방향 world 간 통신을 지원한다. 본 논문에서는 ARM Cortex-A9 MPCore 기반의 NVIDIA Tegra3 processor를 사용하였고, 30MB/s이상의 통신 성능을 보여주었다.

다중블럭을 실행하는 멀티코어 비순차 수퍼스칼라 프로세서의 성능 분석 (Performance Analysis of Multicore Out-of-Order Superscalar Processor with Multiple Basic Block Execution)

  • 이종복
    • 한국멀티미디어학회논문지
    • /
    • 제16권2호
    • /
    • pp.198-205
    • /
    • 2013
  • 본 논문에서는 다중블럭 실행을 이용하는 멀티코어 비순차 수퍼스칼라 프로세서 아키텍쳐의 성능을 분석하였다. 이것을 위하여 SPEC 2000 벤치마크를 입력으로 하며, 윈도우 크기가 32와 64이고 1개에서 4개의 다중블럭을 실행하는 멀티코어 비순차 수퍼스칼라 프로세서에 대하여 1 코어에서 16 코어까지 광범위한 모의실험을 수행하였다. 모의실험 결과, 4개의 다중블럭을 실행하는 멀티코어 비순차 수퍼스칼라 프로세서는 같은 사양에서 단일 블럭을 실행할 때보다 평균 22.0%의 성능 향상을 가져왔다.

SoC FPGA 기반 실시간 객체 인식 및 추적 시스템 구현 (An Implementation of SoC FPGA-based Real-time Object Recognition and Tracking System)

  • 김동진;주연정;박영석
    • 대한임베디드공학회논문지
    • /
    • 제10권6호
    • /
    • pp.363-372
    • /
    • 2015
  • Recent some SoC FPGA Releases that integrate ARM processor and FPGA fabric show better performance compared to the ASIC SoC used in typical embedded image processing system. In this study, using the above advantages, we implement a SoC FPGA-based Real-Time Object Recognition and Tracking System. In our system, the video input and output, image preprocessing process, and background subtraction processing were implemented in FPGA logics. And the object recognition and tracking processes were implemented in ARM processor-based programs. Our system provides the processing performance of 5.3 fps for the SVGA video input. This is about 79 times faster processing power than software approach based on the Nios II Soft-core processor, and about 4 times faster than approach based the HPS processor. Consequently, if the object recognition and tracking system takes a design structure combined with the FPGA logic and HPS processor-based processes of recent SoC FPGA Releases, then the real-time processing is possible because the processing speed is improved than the system that be handled only by the software approach.

Easily Adaptable On-Chip Debug Architecture for Multicore Processors

  • Xu, Jing-Zhe;Park, Hyeongbae;Jung, Seungpyo;Park, Ju Sung
    • ETRI Journal
    • /
    • 제35권2호
    • /
    • pp.301-310
    • /
    • 2013
  • Nowadays, the multicore processor is watched with interest by people all over the world. As the design technology of system on chip has developed, observing and controlling the processor core's internal state has not been easy. Therefore, multicore processor debugging is very difficult and time-consuming. Thus, we need a reliable and efficient debugger to find the bugs. In this paper, we propose an on-chip debug architecture for multicore processors that is easily adaptable and flexible. It is based on the JTAG standard and supports monitoring mode debugging, which is different from run-stop mode debugging. Compared with the debug architecture that supports the run-stop mode debugging, the proposed architecture is easily applied to a debugger and has the advantage of having a desirable gate count and execution cycle. To verify the on-chip debug architecture, it is applied to the debugger of the prototype multicore processor and is tested by interconnecting it with a software debugger based on GDB and configured for the target processor.

An Industrial Case Study of the ARM926EJ-S Power Modeling

  • Kim, Hyun-Suk;Kim, Seok-Hoon;Lee, Ik-Hwan;Yoo, Sung-Joo;Chung, Eui-Young;Choi, Kyu-Myung;Kong, Jeong-Taek;Eo, Soo-Kwan
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제5권4호
    • /
    • pp.221-228
    • /
    • 2005
  • In this work, our goal is to develop a fast and accurate power model of the ARM926EJ-S processor in the industrial design environment. Compared with existing work on processor power modeling which focuses on the power states of processor core, our model mostly focuses on the cache power model. It gives more than 93% accuracy and 1600 times speedup compared with post-layout gate-level power estimation. We also address two practical issues in applying the processor power model to the real design environment. One is to incorporate the power model into an existing commercial instruction set simulator. The other is the re-characterization of power model parameters to cope with different gate-level netlists of the processor obtained from different design teams and different fabrication technology.

완전한 파이프라인 방식의 비순차실행 수퍼스칼라 프로세서의 VHDL 설계 (VHDL Design for Out-of-Order Superscalar Processor of A Fully Pipelined Scheme)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.99-105
    • /
    • 2021
  • 오늘날 멀티코어 프로세서, 시스템 반도체, 그래픽처리장치를 막론하고 그것을 구성하는 기본 단위 또는 필수적으로 투입되는 CPU의 기본단위는 수퍼스칼라 프로세서이다. 따라서, 고성능의 비순차실행 수퍼스칼라 프로세서가 채택되어야만 위에서 거론된 시스템의 성능을 극대화할 수 있다. 수퍼스칼라 프로세서는 완전한 파이프라인 방식으로 재배열버퍼와 예약스테이션을 이용하여 명령어를 동적 스케줄링 함으로써, 매 싸이클 당 복수 개의 명령어를 인출, 발행, 실행 및 기록한다. 본 논문에서는 예측실행 기능이 있는 완전한 파이프라인 방식의 비순차실행 수퍼스칼라 프로세서를 VHDL로 설계하고, GHDL로 검증하였다. 모의실험 결과, ARM 명령어로 구성된 프로그램에 대한 연산을 성공적으로 수행할 수 있었다.

Parallel Implementation Strategy for Content Based Video Copy Detection Using a Multi-core Processor

  • Liao, Kaiyang;Zhao, Fan;Zhang, Mingzhu
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권10호
    • /
    • pp.3520-3537
    • /
    • 2014
  • Video copy detection methods have emerged in recent years for a variety of applications. However, the lack of efficiency in the usual retrieval systems restricts their use. In this paper, we propose a parallel implementation strategy for content based video copy detection (CBCD) by using a multi-core processor. This strategy can support video copy detection effectively, and the processing time tends to decrease linearly as the number of processors increases. Experiments have shown that our approach is successful in speeding up computation and as well as in keeping the performance.