• 제목/요약/키워드: instruction set architecture

검색결과 88건 처리시간 0.021초

응용프로그램에 특화된 명령어를 통한 고정 소수점 오디오 코덱 최적화를 위한 ADL 기반 컴파일러 사용 (Using a H/W ADL-based Compiler for Fixed-point Audio Codec Optimization thru Application Specific Instructions)

  • 안민욱;백윤흥;조정훈
    • 정보처리학회논문지A
    • /
    • 제13A권4호
    • /
    • pp.275-288
    • /
    • 2006
  • 빠른 디자인 공간 탐색 (Design space exploration)은 응용 프로그램의 동작을 구현하기 위한 임베디드 시스템을 디자인하는데 매우 중요하다. Time-to-market이 디자인의 주관심사가 되어감에 따라 ASIP(Application specific instruction-set processor)에 기반한 접근 방식이 디자인 방법론적으로 중요한 대안이 되고 있다. 이러한 접근 방식에서는 타깃 프로세서의 ISA(Instruction set architecture)를 코드 크기와 실행 속도 측면에서 응용 프로그램에 가장 적합하도록 변경한다. 본 논문의 목적은 우리의 새로운 재겨냥성 컴파일러를 소개하고, 많이 알려진 디지털 신호 처리용 응용 프로그램을 위한 ASIP 기반 디자인 공간 탐색에서 컴파일러가 어떻게 활용될 수 있는지 설명하고자 하는 것이다. 새롭게 개발된 재겨냥성 컴파일러는 이전의 재겨냥성 컴파일러의 기능을 제공할 뿐만 아니라 application 프로그램의 특징을 시각화하고 application 프로그램의 프로파일된 결과를 제공하므로 application의 성능을 증가시키기 위해 어떤 명령어들을 넣어야 하는지를 결정하는데 도움을 준다. 재겨냥성 컴파일러의 ADL(Architecture description language)를 이용하여 타깃 프로세서의 초기 RISC-style ISA을 기술하고, 컴파일러가 응용 프로그램을 위한 어셈블리 코드를 더 최적화할 수 있도록 응용 프로그램에 특화된 명령어를 ISA에 점진적으로 추가해 나간다. AC3 오디오 codec을 위한 실험 결과로부터 우리는 32%의 성능 증가와 20%의 프로그램 크기 감소를 얻을 수 있는 6개의 새로운 특화 명령어를 빠르게 찾을 수 있었다. 따라서 우리는 고성능의 재겨냥성 컴파일러는 특정 응용 프로그램을 위한 새로운 ASIP의 빠른 디자인을 하기 위한 중요한 핵심이라는 것을 확인할 수 있었다.

고급 언어에서 ASIP을 위한 전용 부호 생성 기술 연구 (A Custom Code Generation Technique for ASIPs from High-level Language)

  • 알람 삼술;최광석
    • 디지털산업정보학회논문지
    • /
    • 제11권3호
    • /
    • pp.31-43
    • /
    • 2015
  • In this paper, we discuss a code generation technique for custom transport triggered architecture (TTA) from a high-level language structure. This methodology is implemented by using TTA-based Co-design Environment (TCE) tool. The results show how the scheduler exploits instruction level parallelism in the custom target architecture and source program. Thus, the scheduler generates parallel TTA instructions using lower cycle counts than the sequential scheduling algorithm. Moreover, we take Tensilica tool to make a comparison with TCE. Because of the efficiency of TTA, TCE takes less execution cycles compared to Tensilica configurations. Finally, this paper shows that it requires only 7 cycles to generate the parallel TTA instruction set for implementing Cyclic Redundancy Check (CRC) applications as an input design, and presents the code generation technique to move complexity from the processor software to hardware architecture. This method can be applicable lots of channel Codecs like CRC and source Codecs like High Efficiency Video Coding (HEVC).

멀티미디어 데이타 처리를 위한 그래픽 프로세서 설계 (Design of a Graphic Processor for Multimedia Data Processing)

  • 고익상;한우종;선우명동
    • 전자공학회논문지C
    • /
    • 제36C권10호
    • /
    • pp.56-65
    • /
    • 1999
  • 본 논문은 그래픽 프로세서(Graphic Coprocessor: GCP)의 설계 및 구현에 대해 기술한다. 설계된 그래픽 프로세서는 멀티미디어 서버용 프로세서의 그래픽 전용 프로세서로 사용 가능하다. GCP 명령어 집합은 멀티미디어 데이타의 병렬성을 이용하기 쉬운 SIMD 및 Superscalar 등의 병렬 아키텍쳐 개념을 적용하여 설계하였다. 설계된 GCP는 4개의 주 프로세서에 의해 공유되는 형태이며 공유에 따른 명령어의 병목현상을 해결하기 위한 스케줄러와 연산을 위한 4개의 기능 유니트를 내장하고 있다. 최대 4개 명령어의 동시 수행이 가능한 GCP는 Verilog HDL로 모델링하고 논리 합성하였다 약 56,000개의 게이트로 구성되는 GCP는 SOG 라이브러리의 제약으로 인하여 30 ㎒로 동작하며 CIF 영상 규격에 대해 초당 63 프레임의 DCT 연산 및 초당 21 프레임의 FBMA 연산을 수행 할 수 있다.

  • PDF

Design of Chip Set for CDMA Mobile Station

  • Yeon, Kwang-Il;Yoo, Ha-Young;Kim, Kyung-Soo
    • ETRI Journal
    • /
    • 제19권3호
    • /
    • pp.228-241
    • /
    • 1997
  • In this paper, we present a design of modem and vocoder digital signal processor (DSP) chips for CDMA mobile station. The modem chip integrates CDMA reverse link modulator, CDMA forward link demodulator and Viterbi decoder. This chip contains 89,000 gates and 29 kbit RAMs, and the chip size is $10 mm{\times}10.1 mm$ which is fabricated using a $0.8{\mu}m$ 2 metal CMOs technology. To carry out the system-level simulation, models of the base station modulator, the fading channel, the automatic gain control loop, and the microcontroller were developed and interfaced with a gate-level description of the modem application specific integrated circuit (ASIC). The Modem chip is now successfully working in the real CDMA mobile station on its first fab-out. A new DSP architecture was designed to implement the Qualcomm code exited linear prediction (QCELP) vocoder algorithm in an efficient way. The 16 bit vocoder DSP chip has an architecture which supports direct and immediate addressing modes in one instruction cycle, combined with a RISC-type instruction set. This turns out to be effective for the implementation of vocoder algorithm in terms of performance and power consumption. The implementation of QCELP algorithm in our DSP requires only 28 million instruction per second (MIPS) of computation and 290 mW of power consumption. The DSP chip contains 32,000 gates, 32K ($2k{\times}16\;bit$) RAM, and 240k ($10k{\times}24\;bit$) ROM. The die size is $8.7\;mm{\times}8.3\;mm$ and chip is fabricated using $0.8\;{\mu}m$ CMOS technology.

  • PDF

멀티링 설계규칙검사를 위한 효과적인 하드웨어 가속기 (MultiRing An Efficient Hardware Accelerator for Design Rule Checking)

  • 노길수;경종민
    • 대한전자공학회논문지
    • /
    • 제24권6호
    • /
    • pp.1040-1048
    • /
    • 1987
  • We propose a hardware architecture called Multiring which is applicable for various geometrical operations on rectilinear objects such as design rule checking in VLSI layout and many image processing operations including noise suppression and coutour extraction. It has both a fast execution speed and extremely high flexibility. The whole architecture is mainly divided into four parts` I/O between host and Multiring, ring memory, linear processor array and instruction decoder. Data transmission between host and Multiring is bit serial thereby reducing the bandwidth requirement for teh channel and the number of external pins, while each row data in the bit map stored in ring memory is processed in the corresponding processor in full parallelism. Each processor is simultaneously configured by the instruction decoder/controller to perform one of the 16 basic instructions such as Boolean (AND, OR, NOT, and Copy), geometrical(Expand and Shrink), and I/O operations each ring cycle, which gives Multiring maximal flexibility in terms of design rule change or the instruction set enhancement. Correct functional behavior of Multiring was confirmed by successfully running a software simulator having one-to-one structural correspondence to the Multiring hardware.

  • PDF

제약 반복적인 정규표현식 패턴 매칭의 효율적인 방법에 관한 연구 (A study on the efficient method of constrained iterative regular expression pattern matching)

  • 서병석
    • Design & Manufacturing
    • /
    • 제16권3호
    • /
    • pp.34-38
    • /
    • 2022
  • Regular expression pattern matching is widely used in applications such as computer virus vaccine, NIDS and DNA sequencing analysis. Hardware-based pattern matching is used when high-performance processing is required due to time constraints. ReCPU, SMPU, and REMP, which are processor-based regular expression matching processors, have been proposed to solve the problem of the hardware-based method that requires resynthesis whenever a pattern is updated. However, these processor-based regular expression matching processors inefficiently handle repetitive operations of regular expressions. In this paper, we propose a new instruction set to improve the inefficient repetitive operations of ReCPU and SMPU. We propose REMPi, a regular expression matching processor that enables efficient iterative operations based on the REMP instruction set. REMPi improves the inefficient method of processing a particularly short sub-pattern as a repeat operation OR, and enables processing with a single instruction. In addition, by using a down counter and a counter stack, nested iterative operations are also efficiently processed. REMPi was described with Verilog and synthesized on Intel Stratix IV FPGA.

움직임 추정 전용 프로세서를 위한 효율적인 루프 가속기 (Efficient Loop Accelerator for Motion Estimation Specific Instruction-set Processor)

  • 하재명;정호선;선우명훈
    • 전자공학회논문지
    • /
    • 제50권7호
    • /
    • pp.159-166
    • /
    • 2013
  • 본 논문은 움직임 추정 전용 프로세서를 위한 효율적인 루프 가속기를 제안한다. 실제로 움직임 추정 알고리즘은 복잡하고 다양한 순환 명령어들을 포함하고 있다. 본 논문에서는 효율적인 하드웨어 루프 명령어들을 지원하기 위해서, 네 개의 루프 명령어와 그에 따른 하드웨어 구조를 소개한다. 검증 결과 제안된 루프 가속기가 early-termination을 이용한 움직임 추정 시 비교명령어와 조건부 점프명령어를 갖고 있는 전형적인 구현 방법과 비교했을 때 평균 명령어 사이클 수를 약 29% 줄일 수 있다는 것을 보여준다. 제안된 움직임 추정 전용 프로세서 루프 가속기는 프로그램 메모리의 접근 빈도를 상당히 줄일 수 있고, 전력 소모를 많이 절약할 수 있다. 따라서, 제안된 루프 가속기는 전력 소모가 적고, 유연한 움직임 추정에 적합하다.

Signed Integer Division 명령어를 추가한 ARM7 Core 설계 (Design of an ARM7 Core with a Singed Integer Division Instruction)

  • 오민석;조태헌;남기훈;이광엽
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1391-1394
    • /
    • 2003
  • 본 논문은 ARM7 TDMI 마이크로프로세서의 연산기능 중 구현되지 알은 나눗셈 연산 기능을 추가로 구현하였다. 이를 위해 ARM ISA(Instruction Set Architecture)에 부호를 고려한 나눗셈 명령어인 'SDIV' 명령어를 추가로 정의하였으며, 나눗셈 알고리즘 Signed Nonrestoring Division을 수행할 수 있도록 ARM7 TDMI 마이크로프로세서의 Data Path를 재 설계하였다. 제안된 방법의 타당성을 검증하기 위하여 현재 ARM7 TDMI 마이크로프로세서의 정수 나눗셈 연산처리 방법과 제안된 구조에서의 정수 나눗셈 연산 처리 방법을 비교하였으며, 그 겉과 수행 cycle의 수가 40%로 감소되는 것을 확인하였다

  • PDF

RISC 프로세서의 프로그램 카운터 부(PCU)의 설계 (The Design of A Program Counter Unit for RISC Processors)

  • 홍인식;임인칠
    • 대한전자공학회논문지
    • /
    • 제27권7호
    • /
    • pp.1015-1024
    • /
    • 1990
  • This paper proposes a program counter unit(PCU) on the pipelined architecture of RISC (Reduced Instruction Set Computer) type high performance processors, PCU is used for supplying instruction addresses to memory units(Instruction Cache) efficiently. A RISC processor's PCU has to compute the instruction address within required intervals continnously. So, using the method of self-generated incrementor, is more efficient than the conventional one's using ALU or private adder. The proposed PCU is designed to have the fast +4(Byte Address) operation incrementor that has no carry propagation delay. Design specifications are taken by analyzing the whole data path operation of target processor's default and exceptional mode instructions. CMOS and wired logic circuit technologic are used in PCU for the fast operation which has small layout area and power dissipation. The schematic capture and logic, timing simulation of proposed PCU are performed on Apollo W/S using Mentor Graphics CAD tooks.

  • PDF

임베디드 시스템을 위한 저비용 SIMD MAC/MAS 블록 설계 (The Design of low-cost SIMD MAC/MAS for Embedded Systems)

  • 이용주;정진우;이웅석
    • 한국통신학회논문지
    • /
    • 제29권10C호
    • /
    • pp.1460-1468
    • /
    • 2004
  • 본 논문에서는 실생활에 많이 사용되는 멀티미디어의 연산에 꼭 필요한 명령어를 수행할 수 있는 저면적의 저전력 SIMD MAC/MAS(Single Instruction Multiple Data Multiply and ACcumulate/Multiply And Subtract)를 개발하였다. 개발의 목적이 이전에 개발된 64-bit의 고면적, 고성능 MAC/MAS를 저면적, 저비용화하면서 성능 저하를 최소화 하는 것이었기 때문에 이전에 개발된 구조와 비교함으로써 이번 연구의 성과를 판단하였다. 본 논문의 내용은 크게 SIMD MAC의 설계에 대한 내용, 본 설계가 이전의 설계와의 차별성, 그리고 합성 결과 및 결론으로 이루어져 있다. 설계 결과, 이전에 설계되었던 고성능의 64비트 SIMD MAC/班AS에 비해 전체적인 하드웨어의 크기는 32%로 축소되었다. 이는 임베디드 DS(Digital Signal Processor)에 적합하도록 ISA(Instruction Set Architecture)를 개선하였고, 내부 데이터의 대역폭을 32비트로 줄였으며 하드웨어를 보다 최적화하여 설계하였기 때문으로 판단된다.