• 제목/요약/키워드: High-performance processor

검색결과 618건 처리시간 0.032초

정규표현식 프로세서를 위한 호스트 인터페이스 설계 및 구현 (Design and Implementation of a Host Interface for a Regular Expression Processor)

  • 김종현;윤상균
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권2호
    • /
    • pp.97-103
    • /
    • 2017
  • 정규표현식 패턴 매칭을 고속으로 수행하기 위하여 하드웨어 기반의 정규표현식 매칭 회로들이 제시되었으며, 특히 보통 프로세서처럼 정규표현식에 대한 프로그램을 실행하여 패턴 매칭을 수행하는 정규표현식 프로세서가 제시되었다. 정규표현식 프로세서가 패턴 매칭을 수행하기 위해서는 명령어 메모리에 정규표현식 패턴에 대한 명령어가, 데이터 메모리에는 매칭 대상이 되는 데이터가 미리 저장되어야 한다. 정규표현식 프로세서를 호스트의 보조프로세서로 사용하려면 호스트에서 정규표현식 프로세서의 명령어 메모리와 데이터 메모리를 초기화하는 기능을 제공해야 하며 이를 위한 호스트 인터페이스가 필요하다. 본 논문에서는 Altera사의 DE1-SoC 보드에서 호스트와 정규표현식 프로세서 간의 인터페이스를 설계하였고, 이를 사용하기 위한 응용 프로그램 인터페이스도 구현하였다. 응용 프로그램에서 응용프로그램 인터페이스를 사용하여 정규표현식 프로세서를 이용한 패턴 매칭을 수행하여 호스트 인터페이스의 동작을 확인하였다.

스마트카드용 고성능 SEED 프로세서의 구현 (Implementation of a High Performance SEED Processor for Smart Card Applications)

  • 최홍묵;최명렬
    • 정보보호학회논문지
    • /
    • 제14권5호
    • /
    • pp.37-47
    • /
    • 2004
  • 스마트카드의 응용 분야가 점차 확대됨에 따라 개인 정보에 대한 보안을 어떻게 유지할 것인가의 문제가 최근 가장 큰 이슈가 되고 있다. 스마트카드의 보안 기술은 암호 알고리즘을 이용한다. 빠른 속도의 암호화와 보다 안전한 암호화 처리를 위해 암호 알고리즘의 하드웨어화가 절실히 요구되고 있다. 본 논문에서는 스마트카드 칩 설계 시 가장 중요하게 고려되어야 할 칩 면적을 최소화하기 위하여 라운드 키 레지스터를 사용하지 않는 라운드 키 생성 블록과 한 개의 라운드 함수 블록을 반복 사용하는 구조를 이용하였다. SEED의 F함수와 라운드 키 생성에 사용되는 총 5개의 G 함수를 1개의 G함수로 구현하여 순차적으로 이용하도록 하였다. 따라서 본 논문에서 제안한 SEED 프로세서는 1라운드의 동작을 7개의 부분 라운드로 나누고, 클럭마다 하나의 부분라운드를 수행하는 구조를 갖는다. 제안한 SEED 프로세서는 기능적 시뮬레이션을 통해 한국정보보호진흥원에서 제공한 테스트 벡터와 동일한 결과를 출력됨을 확인하였으며, 합성 및 FPGA 테스트 보드를 이용하여 기존 SEED 프로세서와의 성능을 비교한 결과 면적이 최대 40% 감소하였음을 알 수 있었다.

FPGA를 이용한 32-Bit RISC-V 프로세서 설계 및 평가 (Design and Evaluation of 32-Bit RISC-V Processor Using FPGA)

  • 장선경;박상우;권구윤;서태원
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권1호
    • /
    • pp.1-8
    • /
    • 2022
  • RISC-V는 오픈 소스 명령어 집합 구조로, 간단한 기본 구조를 가지며 목적에 따라 명령어 집합을 유연하게 확장할 수 있다. 본 논문에서는 소형, 저전력 32-bit RISC-V 프로세서를 설계하여 RISC-V 임베디드 시스템 연구를 위한 기반을 마련하고자 하였다. 설계한 프로세서는 2단계 파이프라인으로 구성하였고, RISC-V ISA 중 FENCE, EBREAK 명령어를 제외한 32-bit 정수형 ISA 및 인터럽트 처리를 위한 특권 ISA를 지원한다. Vivado Design Suite를 이용하여 합성한 결과 Xilinx Zynq-7000 FPGA에서 1895개의 LUT 및 1195개의 플립플롭을 사용하였고, 0.001W의 전력을 소모하였다. 이를 GPIO, UART, 타이머와 함께 시스템을 구성하여 합성하였고, FPGA 상에서 FreeRTOS를 포팅하여 16MHz에서의 동작을 검증하였다. Dhrystone, Coremark 벤치마크를 통해 성능을 측정하여 목적에 따라 확장 가능한 저전력 고효율 프로세서임을 보였다.

진화 시스템을 위한 유전자 알고리즘 프로세서의 구현 (Implementation of an Adaptive Genetic Algorithm Processor for Evolvable Hardware)

  • 정석우;김현식;김동순;정덕진
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제53권4호
    • /
    • pp.265-276
    • /
    • 2004
  • Genetic Algorithm(GA), that is shown stable performance to find an optimal solution, has been used as a method of solving large-scaled optimization problems with complex constraints in various applications. Since it takes so much time to execute a long computation process for iterative evolution and adaptation. In this paper, a hardware-based adaptive GA was proposed to reduce the serious computation time of the evolutionary process and to improve the accuracy of convergence to optimal solution. The proposed GA, based on steady-state model among continuos generation model, performs an adaptive mutation process with consideration of the evolution flow and the population diversity. The drawback of the GA, premature convergence, was solved by the proposed adaptation. The Performance improvement of convergence accuracy for some kinds of problem and condition reached to 5-100% with equivalent convergence speed to high-speed algorithm. The proposed adaptive GAP(Genetic Algorithm Processor) was implemented on FPGA device Xilinx XCV2000E of EHW board for face recognition.

정적 포워딩에 의한 VLIW 프로세서의 데이터 hazard 처리 (Static forwardin: an approach to reduce data hazards in VLIW processor)

  • 박형준;김이섭
    • 전자공학회논문지C
    • /
    • 제35C권2호
    • /
    • pp.1-9
    • /
    • 1998
  • To achieve high performance in VLIW processors, they must exploit the parallelism on application programs. Data dependency makes it difficult to find the instruction-level parallelism. Among the three kinds of data dependency, true dependency causes RAW(Read After Wirte) hazards that occur most frequently in VILW processors. Forwarding is a widely used technique to reduce the performance degradation caused by RAW hazards. However, forwarding requires too much area of the chip when it is applied to VLIW processors. In this paper, static forwarding is proposed to reduce the hardware cost of forwarding circuits. It needs an extended compiler to detect RAW hazards and control the proposed forwarding scheme via instruction. And it uses the modified register file to shrink the area of forwarding path. VLIW Processor Model is also designed to verify static forwarding. This paper describes the operation of static forwarding and the comparison with the conventional forwarding.

  • PDF

새로운 Auto-Tuning PI 제어 방법을 이용한 선형 추진 브러시리스 직류 전동기에 대한 위치 제어기 설계 (The Design of a Position Controller for the Linear Brushless D.C. Motor Using New Auto-tuning PI control Method)

  • 최중경;박승엽;전인효
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.1121-1124
    • /
    • 1999
  • Linear motor is able to produce line movement without rotary-to-line converter at the system required line moving. Thus Linear motor has no gear, screw, belt for line movement. Therefore it has some advantage which decrease friction loss, noise, vibration, maintenance effort and prevent decay of control performance due to backlash. This paper proposes the estimation method of unknown parameters from the BLDC Linear motor and determine the PI controller gain through this estimation. Each control movement that is current, speed, position control, and PWM wave generation is performed on Processor, which is DSP(Digital Signal Processor), having high speed performance. PI theory is adopted to each for controller for control behavior More fast convergence to command position is accomplished by applying the new velocity locus which derived from position error.

  • PDF

Accelerating the Sweep3D for a Graphic Processor Unit

  • Gong, Chunye;Liu, Jie;Chen, Haitao;Xie, Jing;Gong, Zhenghu
    • Journal of Information Processing Systems
    • /
    • 제7권1호
    • /
    • pp.63-74
    • /
    • 2011
  • As a powerful and flexible processor, the Graphic Processing Unit (GPU) can offer a great faculty in solving many high-performance computing applications. Sweep3D, which simulates a single group time-independent discrete ordinates (Sn) neutron transport deterministically on 3D Cartesian geometry space, represents the key part of a real ASCI application. The wavefront process for parallel computation in Sweep3D limits the concurrent threads on the GPU. In this paper, we present multi-dimensional optimization methods for Sweep3D, which can be efficiently implemented on the finegrained parallel architecture of the GPU. Our results show that the overall performance of Sweep3D on the CPU-GPU hybrid platform can be improved up to 4.38 times as compared to the CPU-based implementation.

그리드 환경하의 효율적 해석을 위한 작업 분할 기법 연구 (Load Balancing for the Efficient Parallelization in the Grid)

  • 고순흠;정명우;김종암;노오현;이상산
    • 한국전산유체공학회:학술대회논문집
    • /
    • 한국전산유체공학회 2003년도 추계 학술대회논문집
    • /
    • pp.63-68
    • /
    • 2003
  • The Grid[1] is a communication service that collaborates dispersed high performance computers so that those can be shared and worked together. So, the Grid enables a researcher to analyze a huge-sized problem which was impossible by using local resources. However, diverse communication speeds among computing resources and heterogeneity of computing resources can reduce parallel efficiency in the Grid, The present paper focuses on the development of an efficient load balancing algorithm suitable for the Grid. Proposed algorithm classifies the whole processors into several groups with relatively faster communication speeds. Computational domain is firstly partitioned to each group and then to the processor level considering the performance of each processor. Developed algorithm is validated in the homogeneous system by comparing the present result with the result of equally partitioned meshes and then applied to the heterogeneous system. Additionally, the present algorithm is expanded to be able to solve the decomposed domains and applied to some problems.

  • PDF

프로세서 노드 상황을 고려하는 효율적인 메시지 스캐터 및 개더 알고리즘 (Efficient Message Scattering and Gathering Based on Processing Node Status)

  • Park, Jongsu
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.637-640
    • /
    • 2022
  • To maximize performance in a high-performance multicore processor system. it is essential to enable effective data communication between processing cores. Data communication between processor nodes can be broadly classified into collective and point-to-point communications. Collective communication comprises scattering and gathering. This paper presents a efficient message scattering and gathering based on processing node status. In the proposed algorithms, the transmission order is changed according to the data size of the pre-existing communication, to reduce the waiting time required until the collective communications begin. From the simulation, the performances of the proposed message scattering and gathering algorithms were improved by approximately 71.41% and 69.84%.

멀티미디어 프로세서 구현에 사용되는 메모리를 줄이기 위한 저 복잡도의 영상 압축 알고리즘 (A Low-Complexity Image Compression Method Which Reduces Memories Used in Multimedia Processor Implementation)

  • 정수운;김이랑;이동호
    • 전자공학회논문지CI
    • /
    • 제41권1호
    • /
    • pp.9-18
    • /
    • 2004
  • 본 논문은 최근 많은 관심이 되고 있는 멀티미디어 프로세서 구현에 사용되는 메모리를 줄일 수 있는 성능이 우수하면서 하드웨어적으로 쉽게 구현이 가능한 영상 압축 알고리즘을 제안한다. 특히 고화질 영상을 처리하는 멀티미디어 프로세서는 영상 프레임을 저장하기 위하여 외부에 많은 양의 프레임 메모리를 사용하며, 또한 대부분의 프로세서에서 저 대역 필터와 같은 선형 필터를 구현하기 위하여 많은 양의 라인 메모리를 프로세서 안에 포함한다 이러한 메모리들은 멀티미디어 프로세서를 구현하는데 있어서 많은 비중을 차지하기 때문에, 만약 화질의 손상이 없으면서 이러한 메모리를 대폭 줄일 수 있다면 프로세서의 경쟁력을 높일 수가 있다. 기존의 JPEG과 같은 표준 압축 방법은 2차원 블록 단위로 처리하고 구현하기에 복잡하기 때문에 멀티미디어 프로세서에서 요구하는 래스터 스캔 입출력을 갖는 용도에는 적합하지가 않다. 본 논문에서는 래스터 스캔의 입출력을 위해 1${\times}$8 블록 단위로 처리하고 하드웨어적으로 쉽게 구현하고 압축 효율을 높이기 위해 Hadamard 변환을 이용하고, 변환된 계수의 특성을 분석하여 그에 따라 적응적으로 thresholding을 적용한 후 양자화를 하였다. 모의실험을 통해 메모리를 반으로 줄였을 때 기존의 압축 방법과 성능을 비교하였으며, 하드웨어의 구현을 통해 멀티미디어 프로세서를 구현하는데 있어서 어느 정도 경쟁력을 높일 수 있는 지를 분석하였다.