• 제목/요약/키워드: Systolic Parallel Processing

검색결과 34건 처리시간 0.026초

역전파 알고리즘의 전방향, 역방향 동시 수행을 위한 스스톨릭 배열의 설계 (Design of a systolic array for forward-backward propagation of back-propagation algorithm)

  • 장명숙;유기영
    • 전자공학회논문지B
    • /
    • 제33B권9호
    • /
    • pp.49-61
    • /
    • 1996
  • Back-propagation(BP) algorithm needs a lot of time to train the artificial neural network (ANN) to get high accuracy level in classification tasks. So there have been extensive researches to process back-propagation algorithm on parallel processors. This paper prsents a linear systolic array which calculates forward-backward propagation of BP algorithm at the same time using effective space-time transformation and PE structure. First, we analyze data flow of forwared and backward propagations and then, represent the BP algorithm into data dapendency graph (DG) which shows parallelism inherent in the BP algorithm. Next, apply space-time transformation on the DG of ANN is turn with orthogonal direction projection. By doing so, we can get a snakelike systolic array. Also we calculate the interval of input for parallel processing, calculate the indices to make the right datas be used at the right PE when forward and bvackward propagations are processed in the same PE. And then verify the correctness of output when forward and backward propagations are executed at the same time. By doing so, the proposed system maximizes parallelism of BP algorithm, minimizes th enumber of PEs. And it reduces the execution time by 2 times through making idle PEs participate in forward-backward propagation at the same time.

  • PDF

완전탐색에 의한 움직임 추정기 시스토릭 어레이 구조 (Systolic arry archtecture for full-search mothion estimation)

  • 백종섭;남승현;이문기
    • 전자공학회논문지B
    • /
    • 제31B권12호
    • /
    • pp.27-34
    • /
    • 1994
  • Block matching motion estimation is the most widely used method for motion compensated coding of image sequences. Based on a two dimensional systolic array, VLSI architecture and implementation of the full search block matching algorithm are described in this paper. The proposed architecture improves conventional array architecture by designing efficient processing elements that can control the data prodeuced by efficient search window division method. The advantages are that 1) it allows serial input to reduce pin counts for efficient composition of local memories but performs parallel processing. 2) It is flexible and can adjust to dimensional changes of search windows with simple control logic. 3) It has no idel time during the operation. 4) It can operate in real/time for low and main level in MPEG-2 standard. 5) It has modular and regular structure and thus is sutiable for VLSI implementation.

  • PDF

유한 체상의 몽고메리 알고리즘 및 하드웨어 구조 설계 (Design of Montgomery Algorithm and Hardware Architecture over Finite Fields)

  • 김기원;전준철
    • 한국산업정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.41-46
    • /
    • 2013
  • 유한체상의 곱셈기는 오류 제어 코드, 암호시스템 및 디지털 신호처리와 같은 여러 분야의 기본적인 구성 요소이다. 최근 다양한 유한체상의 곱셈기가 세미-시스톨릭 구조를 기반으로 제안되었다. 또한, 몽고메리 알고리즘은 효율적인 곱셈 연산 알고리즘으로 잘 알려져 있다. 본 논문은 유한체 상에서 다항식 표현을 사용하여 효율적인 몽고메리 곱셈 알고리즘을 유도하고 이를 기반으로 세미-시스톨릭 몽고메리 곱셈기를 제안한다. 제안한 곱셈기는 병렬 구조에 적합한 몽고메리 인자를 선택하였으며 전체 계산 구조를 두 부분으로 나누어 동시에 계산할 수 있다. 제안한 곱셈기는 기존의 곱셈기에 비해 시간 복잡도를 30%~50% 정도 줄임으로써 전체 시간 복잡도의 30% 정도를 줄였다.

유한 필드 GF(2m)상의 비트-패러럴 시스톨릭 나눗셈기 (Bit-Parallel Systolic Divider in Finite Field GF(2m))

  • 김창훈;김종진;안병규;홍춘표
    • 정보처리학회논문지A
    • /
    • 제11A권2호
    • /
    • pp.109-114
    • /
    • 2004
  • 본 논문에서는 유한 필드 GF$(2^m)$상에서 모듈러 나눗셈 A($\chi$)/B($\chi$) mod G($\chi$)을 수행하는 고속의 병렬 시스톨릭 나눗셈기를 제안한다. 제안된 나눗셈기는 이진 최대공약수(GCD) 알고리즘에 기반하며, FPGA 칩을 이용하여 구현 및 검증한다. 본 연구에서 제안된 나눗셈기는 연속적인 입력 데이터에 대해 초기 5m-2 클럭 사이클 지연후, 1 클럭 사이클 비율로 나눗셈 결과를 출력한다. 본 논문에서 제안된 나눗셈기를 기존의 병렬형 시스톨릭 나눗셈기들과 비교했을 때, 훨씬 적은 하드웨어의 사용으로 계산지연 시간을 상당히 감소 시켰다. 또한 제안된 나눗셈기는 기약다항식의 선택에 어떠한 제약도 두지 않을 뿐 아니라 매우 규칙적이고 묘듈화 하기 쉽기 때문에 필드 크기 m에 대하여 높은 확장성 및 유연성을 제공한다. 따라서 제안된 구조는 VLSI 구현에 매우 적합하다.

인공지능프로세서 기술 동향 (Trends in AI Processor Technology)

  • 이미영;정재훈;이주현;한진호;권영수
    • 전자통신동향분석
    • /
    • 제35권3호
    • /
    • pp.66-75
    • /
    • 2020
  • As the increasing expectations of a practical AI (Artificial Intelligence) service makes AI algorithms more complicated, an efficient processor to process AI algorithms is required. To meet this requirement, processors optimized for parallel processing, such as GPUs (Graphics Processing Units), have been widely employed. However, the GPU has a generalized structure for various applications, so it is not optimized for the AI algorithm. Therefore, research on the development of AI processors optimized for AI algorithm processing has been actively conducted. This paper briefly introduces an AI processor especially for inference acceleration, developed by the Electronics and Telecommunications Research Institute, South Korea., and other global vendors for mobile and server platforms. However, the GPU has a generalized structure for various applications, so it is not optimized for the AI algorithm. Therefore, research on the development of AI processors optimized for AI algorithm processing has been actively conducted.

시스톨릭 어레이에 기반한 SADCT의 효율적 VLSl 구조설계 (Design of an Efficient VLSI Architecture of SADCT Based on Systolic Array)

  • 강태준;정의윤;권순규;하영호
    • 대한전자공학회논문지SP
    • /
    • 제38권3호
    • /
    • pp.282-291
    • /
    • 2001
  • 본 논문에서는 시스톨릭 어레이에 기반한 모양 적응적 이산 여현 변환(SADCT)의 효율적 VLSI 구조를 제안한다. 모양 적응적 이산 여현 변환은 이산 여현 변환과 달리 변환 크기가 각 블록에서의 객체의 모양에 따라 가변적이므로 기존의 시간 순환구조에서는 각 처리소자의 이용도와 처리속도가 모두 저하된다. 본 논문에서는 이러한 단점을 극복하기 위해 메모리를 필요로 하지 않는 시스톨릭 어레이에 기반한 구조를 제안한다. 제안된 구조에서는 1차원 SADCT를 연속적으로 수행함으로 처리속도를 향상시키고 첫 번째 열의 처리소자들을 마지막 열의 처리소자들과 연결하고, 입력 데이터는 각각의 재배열된 블록에서의 최대 데이터 크기에 따라 각 열에 병렬로 입력하여 처리소자의 이용도를 향상시켰다. 제안된 구조는 VHDL로 기술하고 MentorTM를 이용하여 기능검증을 수행하였다. 검증결과, 하드웨어 복잡도가 다소 증가하나, 처리속도는 기존의 방법에 비해 두 배정도 향상되었다.

  • PDF

멀티미디어 통신용 병렬 아키텍쳐 고속 비터비 복호기 설계 (Implementation of a Parallel Viterbi Decoder for High Speed Multimedia Communications)

  • 이병철;선우명훈
    • 대한전자공학회논문지SD
    • /
    • 제37권2호
    • /
    • pp.78-84
    • /
    • 2000
  • 비터비 복호기는 직렬 복호 방식과 병렬 복호 방식 2 가지로 분류할 수 있다. 병렬 비터비 복호기는 직렬비터비 복호기에 비해 보다 높은 데이타율을 얻을 수 있다. 본 논문에서는 고속 멀티미디어 통신을 위한 병렬 비티비 복호기 구조를 설계하고 구현한다. 설계한 비터비 복호기는 고속 동작을 위해 64개의PE(Processing Element)를 사용해 한 클럭에 처리가 가능하도록 하였다. 또한 파이프라인 스테이지를 갖는 시스톨릭 어레이 구조의 TB(Traceback) 블럭을 설계하였다. 본 논문에서 설계한 비터비 복호기는 puncturing을 통해 부호율 1/2, 2/3, 3/4, 5/6, 7/8을 지원한다. Verilog 모델을 구현하였고 0.6㎛ Samsung KG75000 SOG 셀 라이브러리를 이용하여 논리합성을 수행하였다. 구현된 비터비 복호기는 약100,400 게이트이며 동작 속도는 worst case에서 70㎒로 기존 상용 칩들보다 빠르다.

  • PDF

여분 기저를 이용한 멀티플렉서 기반의 유한체 곱셈기 (Multiplexer-Based Finite Field Multiplier Using Redundant Basis)

  • 김기원
    • 대한임베디드공학회논문지
    • /
    • 제14권6호
    • /
    • pp.313-319
    • /
    • 2019
  • Finite field operations have played an important role in error correcting codes and cryptosystems. Recently, the necessity of efficient computation processing is increasing for security in cyber physics systems. Therefore, efficient implementation of finite field arithmetics is more urgently needed. These operations include addition, multiplication, division and inversion. Addition is very simple and can be implemented with XOR operation. The others are somewhat more complicated than addition. Among these operations, multiplication is the most important, since time-consuming operations, such as exponentiation, division, and computing multiplicative inverse, can be performed through iterative multiplications. In this paper, we propose a multiplexer based parallel computation algorithm that performs Montgomery multiplication over finite field using redundant basis. Then we propose an efficient multiplexer based semi-systolic multiplier over finite field using redundant basis. The proposed multiplier has less area-time (AT) complexity than related multipliers. In detail, the AT complexity of the proposed multiplier is improved by approximately 19% and 65% compared to the multipliers of Kim-Han and Choi-Lee, respectively. Therefore, our multiplier is suitable for VLSI implementation and can be easily applied as the basic building block for various applications.

파이프라인 재귀적인 기술을 이용한 면적 효율적인 Reed-Solomon 복호기의 설계 (Design of an Area-Efficient Reed-Solomon Decoder using Pipelined Recursive Technique)

  • 이한호
    • 대한전자공학회논문지SD
    • /
    • 제42권7호
    • /
    • pp.27-36
    • /
    • 2005
  • 본 논문은 무선 및 초고속 광통신등 다양한 통신 시스템에서 사용되는 고속 Reed-Solomon (RS) 복호기의 하드웨어 면적을 줄인 새로운 구조를 소개한다. 특히 folding 기술을 이용하여 높은 처리율(throughput)과 적은 하드웨어 복잡도(hardware complexity)를 가지고 있는 새로운 PrME (Pipelined recursive Modified Euclidean) 구조를 제안한다 제안된 PrME 구조는 일반적으로 사용되는 systolic-array 그리고 완전한 병렬(fully-parallel) 구조와 비교하여 하드웨어 복잡도를 약 80$\%$정도 줄일 수 있다. 제안된 RS 복호기는 1.2 V의 공급전압과 0.13-um CMOS 기술을 사용하여 설계하고 구현하였는데, 총 24,600개의 게이트수, 5-Gbit/s의 데이터 처리율과 클락 주파수 625 MHz에서 동작함을 보여준다. 제안된 면적 효율적인 PrME 구조에 기반한 RS 복호기는 초고속 광통신뿐만 아니라 무선통신을 위한 차세대 FEC구조 등에 바로 적용될 수 있을 것이다.

가변 적응형 사전을 이용한 텍스트 압축방식의 병렬 처리를 위한 VLSI 구조 (A Novel VLSI Architecture for Parallel Adaptive Dictionary-Base Text Compression)

  • 이용두;김희철;김중규
    • 한국정보처리학회논문지
    • /
    • 제4권6호
    • /
    • pp.1495-1507
    • /
    • 1997
  • 컴퓨터 통신망의 발달로 다량의 텍스트(Text) 또는 영상(Image) 정보의 전달이 이루어 지고 있다. 텍스트 압축과정에서 주어진 어휘를 이전에 나타난 같은 어휘를 가리키는 포인터로 대치시키는 원리에 준하여 설계된 LZ77 알고리즘은 가변적응형(adaptive) 사전을 이용한 텍스트 압축 방식으로 실제적으로 가장 많이 사용되는 알고리즘이다. 본 논문은 LZ77의 병렬 처리를 위해 LZ77의 Parallelism에 대한 분석 결과를 보여주며, 그 분석 결과를 적용한 병렬 LZ77 알고리즘의 설계, 그리고 그러한 병렬 LZ77 알고리즘을 처리하도록 고안된 VLSI 시스템 구조에 관한 연구 내용을 기술한다. 이전의 유사한 연구 내용과 비교하여, 본 논문에서 제안된 VLSI 시스템은 사전 윈도우(dictionary window)의 크기에 제한이 없으므로 확장성이 뛰어난 장점을 갖으며, 입력 텍스트의 길이가 (N)일때, 사전 윈도우의 크기에 관계없이 그 처리속도가 O(N)이며 VLSI 구현시 다른 유사한 시스템보다 향상된 집적도를 갖는다.

  • PDF