• 제목/요약/키워드: Instruction set design

검색결과 120건 처리시간 0.021초

제약 반복적인 정규표현식 패턴 매칭의 효율적인 방법에 관한 연구 (A study on the efficient method of constrained iterative regular expression pattern matching)

  • 서병석
    • Design & Manufacturing
    • /
    • 제16권3호
    • /
    • pp.34-38
    • /
    • 2022
  • Regular expression pattern matching is widely used in applications such as computer virus vaccine, NIDS and DNA sequencing analysis. Hardware-based pattern matching is used when high-performance processing is required due to time constraints. ReCPU, SMPU, and REMP, which are processor-based regular expression matching processors, have been proposed to solve the problem of the hardware-based method that requires resynthesis whenever a pattern is updated. However, these processor-based regular expression matching processors inefficiently handle repetitive operations of regular expressions. In this paper, we propose a new instruction set to improve the inefficient repetitive operations of ReCPU and SMPU. We propose REMPi, a regular expression matching processor that enables efficient iterative operations based on the REMP instruction set. REMPi improves the inefficient method of processing a particularly short sub-pattern as a repeat operation OR, and enables processing with a single instruction. In addition, by using a down counter and a counter stack, nested iterative operations are also efficiently processed. REMPi was described with Verilog and synthesized on Intel Stratix IV FPGA.

멀티링 설계규칙검사를 위한 효과적인 하드웨어 가속기 (MultiRing An Efficient Hardware Accelerator for Design Rule Checking)

  • 노길수;경종민
    • 대한전자공학회논문지
    • /
    • 제24권6호
    • /
    • pp.1040-1048
    • /
    • 1987
  • We propose a hardware architecture called Multiring which is applicable for various geometrical operations on rectilinear objects such as design rule checking in VLSI layout and many image processing operations including noise suppression and coutour extraction. It has both a fast execution speed and extremely high flexibility. The whole architecture is mainly divided into four parts` I/O between host and Multiring, ring memory, linear processor array and instruction decoder. Data transmission between host and Multiring is bit serial thereby reducing the bandwidth requirement for teh channel and the number of external pins, while each row data in the bit map stored in ring memory is processed in the corresponding processor in full parallelism. Each processor is simultaneously configured by the instruction decoder/controller to perform one of the 16 basic instructions such as Boolean (AND, OR, NOT, and Copy), geometrical(Expand and Shrink), and I/O operations each ring cycle, which gives Multiring maximal flexibility in terms of design rule change or the instruction set enhancement. Correct functional behavior of Multiring was confirmed by successfully running a software simulator having one-to-one structural correspondence to the Multiring hardware.

  • PDF

응용프로그램에 특화된 명령어를 통한 고정 소수점 오디오 코덱 최적화를 위한 ADL 기반 컴파일러 사용 (Using a H/W ADL-based Compiler for Fixed-point Audio Codec Optimization thru Application Specific Instructions)

  • 안민욱;백윤흥;조정훈
    • 정보처리학회논문지A
    • /
    • 제13A권4호
    • /
    • pp.275-288
    • /
    • 2006
  • 빠른 디자인 공간 탐색 (Design space exploration)은 응용 프로그램의 동작을 구현하기 위한 임베디드 시스템을 디자인하는데 매우 중요하다. Time-to-market이 디자인의 주관심사가 되어감에 따라 ASIP(Application specific instruction-set processor)에 기반한 접근 방식이 디자인 방법론적으로 중요한 대안이 되고 있다. 이러한 접근 방식에서는 타깃 프로세서의 ISA(Instruction set architecture)를 코드 크기와 실행 속도 측면에서 응용 프로그램에 가장 적합하도록 변경한다. 본 논문의 목적은 우리의 새로운 재겨냥성 컴파일러를 소개하고, 많이 알려진 디지털 신호 처리용 응용 프로그램을 위한 ASIP 기반 디자인 공간 탐색에서 컴파일러가 어떻게 활용될 수 있는지 설명하고자 하는 것이다. 새롭게 개발된 재겨냥성 컴파일러는 이전의 재겨냥성 컴파일러의 기능을 제공할 뿐만 아니라 application 프로그램의 특징을 시각화하고 application 프로그램의 프로파일된 결과를 제공하므로 application의 성능을 증가시키기 위해 어떤 명령어들을 넣어야 하는지를 결정하는데 도움을 준다. 재겨냥성 컴파일러의 ADL(Architecture description language)를 이용하여 타깃 프로세서의 초기 RISC-style ISA을 기술하고, 컴파일러가 응용 프로그램을 위한 어셈블리 코드를 더 최적화할 수 있도록 응용 프로그램에 특화된 명령어를 ISA에 점진적으로 추가해 나간다. AC3 오디오 codec을 위한 실험 결과로부터 우리는 32%의 성능 증가와 20%의 프로그램 크기 감소를 얻을 수 있는 6개의 새로운 특화 명령어를 빠르게 찾을 수 있었다. 따라서 우리는 고성능의 재겨냥성 컴파일러는 특정 응용 프로그램을 위한 새로운 ASIP의 빠른 디자인을 하기 위한 중요한 핵심이라는 것을 확인할 수 있었다.

휴대 멀티미디어 응용을 위한 DSP 칩 설계 및 구현 (Design and Implementation of a DSP Chip for Portable Multimedia Applications)

  • 윤성현;선우명훈
    • 전자공학회논문지C
    • /
    • 제35C권12호
    • /
    • pp.31-39
    • /
    • 1998
  • 본 논문은 휴대 멀티미디어 응용을 위한 고정 소수점 DSP(Multimedia Fixed-point DSP : MDSP) 칩 설계 및 구현에 관해 기술한다. MDSP는 멀티미디어 처리에 효율적인 명령어 집합을 가지며 SIMD, 벡터프로세싱의 병렬처리 기술과 DSP 기술의 장점을 접목하여 설계되었다. MDSP는 한 개의 데이터 경로가 목적에 따라 여러 개로 분할될 때 8, 16, 32, 40 비트 등의 다양한 데이터 형태의 처리가 가능하며, 멀티미디어 응용영역에서 핵심적인 역할을 하는 MAC 연산을 한 사이클에 2개를 수행하여 성능을 향상시킨다. 새롭게 제안된 스위칭 네트워크와 Packing 네트워크는 MPEG 디코딩, 인코딩, 콘볼루션 등의 알고리즘 처리시 연산과 데이터 변환을 중첩시켜 성능을 향상시킨다. Verilog HDL 모델을 구현하였고 0.6 ㎛ SOG 라이브러리(KG75000)를 이용하여 논리합성 및 시뮬레이션 하였다. 전체 게이트 수는 68,831개이며 MDSP는 30MHz에 동작한다.

  • PDF

Design of Chip Set for CDMA Mobile Station

  • Yeon, Kwang-Il;Yoo, Ha-Young;Kim, Kyung-Soo
    • ETRI Journal
    • /
    • 제19권3호
    • /
    • pp.228-241
    • /
    • 1997
  • In this paper, we present a design of modem and vocoder digital signal processor (DSP) chips for CDMA mobile station. The modem chip integrates CDMA reverse link modulator, CDMA forward link demodulator and Viterbi decoder. This chip contains 89,000 gates and 29 kbit RAMs, and the chip size is $10 mm{\times}10.1 mm$ which is fabricated using a $0.8{\mu}m$ 2 metal CMOs technology. To carry out the system-level simulation, models of the base station modulator, the fading channel, the automatic gain control loop, and the microcontroller were developed and interfaced with a gate-level description of the modem application specific integrated circuit (ASIC). The Modem chip is now successfully working in the real CDMA mobile station on its first fab-out. A new DSP architecture was designed to implement the Qualcomm code exited linear prediction (QCELP) vocoder algorithm in an efficient way. The 16 bit vocoder DSP chip has an architecture which supports direct and immediate addressing modes in one instruction cycle, combined with a RISC-type instruction set. This turns out to be effective for the implementation of vocoder algorithm in terms of performance and power consumption. The implementation of QCELP algorithm in our DSP requires only 28 million instruction per second (MIPS) of computation and 290 mW of power consumption. The DSP chip contains 32,000 gates, 32K ($2k{\times}16\;bit$) RAM, and 240k ($10k{\times}24\;bit$) ROM. The die size is $8.7\;mm{\times}8.3\;mm$ and chip is fabricated using $0.8\;{\mu}m$ CMOS technology.

  • PDF

Porting LLVM Compiler to a Custom Processor Architecture Using Synopsys Processor Designer

  • Jung, Hyungyun;Shin, Jangseop;Heo, Ingoo;Paek, Yunheung
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.53-56
    • /
    • 2014
  • Application specific instruction-set processor (ASIP) is a suitable design choice for system designers who seek both flexibility to handle various applications in the domain together with the performance. Successful development of an ASIP, however, requires a software development kit (SDK) to be provided along with the processor. Synopsys Processor Designer is an ASIP development tool, which takes as input a set of files written in a high-level architecture description language called LISA (Language for Instruction Set Architecture), and generates SDK as well as RTL. Recently, they have added support for the generation of LLVM compiler backend, though some manual work is required. In this paper, we introduce some details in porting LLVM compiler to a custom processor architecture in Synopsys Processor Designer.

AMEX: 16비트 Thumb 명령어 집합 구조의 주소 지정 방식 확장 (AMEX: Extending Addressing Mode of 16-bit Thumb Instruction Set Architecture)

  • 김대환
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권11호
    • /
    • pp.1-10
    • /
    • 2012
  • 본 논문에서는 16비트 Thumb 명령어 집합 구조를 개선하기 위하여 주소 지정 방식을 확장하는 기법을 제시한다. 제시된 방법의 핵심 아이디어는 사용 빈도가 낮은 명령어들의 레지스터필 드의 너비를 감소시키고 이를 통해 절약한 비트들을 이용하여 사용 빈도가 높은 명령어들에 새로운 주소 지정 방식을 도입하는 것이다. 제시된 기법은 16 비트 Thumb 구조의 상위 집합인 32비트 ARM 구조에서 사용되는 유용한 주조 지정 방식들을 채택한다. 데이터 리스트에 대한 접근 속도를 향상시키기 위하여 크기가 조정된 레지스터 오프셋 주소 지정 방식과 사후 인덱스 주소 지정 방식이 로드와 저장 명령어에 도입된다. 실험결과, 제시된 방법은 전통적인 방식과 비교하여 평균 8.5%의 성능을 향상시킨다.

H.264/AVC 표준의 디블록킹 필터를 가속하기 위한 ASIP 설계 (An ASIP Design for Deblocking Filter of H.264/AVC)

  • 이형표;이용석
    • 전자공학회논문지CI
    • /
    • 제45권3호
    • /
    • pp.142-148
    • /
    • 2008
  • 복호된 영상의 블록 경계에서 발생하는 왜곡을 보정하기 위해 사용된 H.264/AVC 표준의 디블록킹 필터는 개선된 품질의 영상을 제공하지만, 이에 사용되는 복잡한 필터링 연산은 복호기의 처리 시간을 지연시키는 주된 요인이 되고 있다. 본 논문에서는 이러한 필터링 연산을 더 빠르게 수행할 수 있는 명령어를 제안하고 ASIP을 구성하여 디블록킹 필터를 가속하였다. LISA를 이용하여 MIPS 기반의 기준 프로세서를 설계하고 디블록킹 필터 모델을 시뮬레이션하여 제안하는 명령어 적용에 따른 실행 사이클의 성능 향상을 비교하였으며, 설계된 기준 프로세서를 CoWare의 Processor Designer를 통해 HDL을 생성하고 Synopsys의 Design Compiler를 이용하여 TSMC 0.25um 공정으로 합성하고 제안하는 명령어를 추가할 경우에 대해 면적 및 동작 지연시간 등을 비교하였다. 합성 결과, 제안하는 명령어 셋을 적용함에 따라 면적 및 동작 지연시간에서 각각 7.5%와 3.2%의 증가를 보였으며, 이로 인해 실행 사이클 면에서는 평균 18.18%의 성능 향상을 보였다.

Signed Integer Division 명령어를 추가한 ARM7 Core 설계 (Design of an ARM7 Core with a Singed Integer Division Instruction)

  • 오민석;조태헌;남기훈;이광엽
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1391-1394
    • /
    • 2003
  • 본 논문은 ARM7 TDMI 마이크로프로세서의 연산기능 중 구현되지 알은 나눗셈 연산 기능을 추가로 구현하였다. 이를 위해 ARM ISA(Instruction Set Architecture)에 부호를 고려한 나눗셈 명령어인 'SDIV' 명령어를 추가로 정의하였으며, 나눗셈 알고리즘 Signed Nonrestoring Division을 수행할 수 있도록 ARM7 TDMI 마이크로프로세서의 Data Path를 재 설계하였다. 제안된 방법의 타당성을 검증하기 위하여 현재 ARM7 TDMI 마이크로프로세서의 정수 나눗셈 연산처리 방법과 제안된 구조에서의 정수 나눗셈 연산 처리 방법을 비교하였으며, 그 겉과 수행 cycle의 수가 40%로 감소되는 것을 확인하였다

  • PDF

AE32000 호환 32-비트 EISC 마이크로프로세서 설계 (Design of an AE32000-compatible 32-bit EISC Microprocessor)

  • 곽기영;박진국;이두영;이범근;정연모
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.700-702
    • /
    • 2002
  • 본 논문은 16-비트 고정된 명령어 형식을 갖는 32-비트 EISC(Extendable Instruction Set Computer) 코어 구현에 대하여 기술하였다. EISC구조는 코드 밀도가 높은 확장 오퍼랜드(operand) 형식을 사용하여 메모리 크기를 줄일 수 있으므로 ASIC 구현시 저전력 시스템 및 소형화된 임베디드 시스템을 위한 프로세서 구현을 가능하게 한다. 설계된 프로세서는 AE32000 명령어 셋과 호환이 가능하도록 설계되었으며 5단 파이프라인을 적용하여 프로세서의 성능을 높였다. 또한 BTB(Branch Target Buffer)를 사용하여 분기 지연을 줄여 낮은 CPI(Clock Per Instruction)을 유지하게 하였다.