• 제목/요약/키워드: systolic array

검색결과 144건 처리시간 0.027초

RSA 암호시스템을 위한 모듈러 지수 연산 프로세서 설계 (Design of Modular Exponentiation Processor for RSA Cryptography)

  • 허영준;박혜경;이건직;이원호;유기영
    • 정보보호학회논문지
    • /
    • 제10권4호
    • /
    • pp.3-11
    • /
    • 2000
  • 본 논문에서는 몽고메리 알고리즘을 사용하여 모듈러 곱셈을 빠르게 수행하는 선형 시스톨릭 어레이를 설계하고, 이 곱셈기와 LR 이진 제곱 곱셈 알고리즘을 사용하여 n 비트 메시지 블록에 대해 모듈러 지수 연산을 수행하는 지수 연산 프로세서를 설계한다 이 프로세서는 제어장치, 입출력 시프트 레지스터, 지수 연산 장치 등 3개의 영역으로 나 누어진다. 설계된 지수 연산 프로세서의 동작을 검증하기 위해 VHDL를 사용하여 모델링하고 MAX+PLUS II를 사용하여 시뮬레이션 한다. 메시지 블록의 길이 n=512일 때 설계된 지수 연산 프로세서의 지연 시간은 59.5ms이다. 설계된 모듈러 지수 연산 프로세서는 RSA 칩(chip)에 이용될 수 있을 것이다.

깊이별 분리 합성곱을 위한 다중 스레드 오버랩 시스톨릭 어레이 (Multithreaded and Overlapped Systolic Array for Depthwise Separable Convolution)

  • 윤종호;이승규;강석형
    • 반도체공학회 논문지
    • /
    • 제2권1호
    • /
    • pp.1-8
    • /
    • 2024
  • 깊이별 분리 합성곱 (Depthwise Separable Convolution)을 처리할 때, processing element (PE)의 저활용성은 시스톨릭 어레이 (SA)의 한계점 중 하나이다. 본 연구에서는 깊이별 합성곱의 처리량을 극대화하기 위한 새로운 SA 아키텍처를 제안한다. 더불어, 제안된 SA 는 깊이별 합성곱 계산 중에 유휴 PE 에서 후속 점별 합성곱 (pointwise convolution)을 수행하여 활용도를 증가시킨다. 모든 깊이별 합성곱 연산 후에는 모든 PE 를 활용하여 나머지 점별 합성곱 연산의 속도를 향상시킨다. 결과적으로, 제안된 128×128 SA 는 MobileNetV3 연산 시, 기본 SA 및 RiSA 와 비교하여 속도가 4.05 배, 1.75 배 향상되고, 에너지 소비량을 각각 66.7 %, 25.4 % 감소한다.

시스톨릭 어레이에 기반한 SADCT의 효율적 VLSl 구조설계 (Design of an Efficient VLSI Architecture of SADCT Based on Systolic Array)

  • 강태준;정의윤;권순규;하영호
    • 대한전자공학회논문지SP
    • /
    • 제38권3호
    • /
    • pp.282-291
    • /
    • 2001
  • 본 논문에서는 시스톨릭 어레이에 기반한 모양 적응적 이산 여현 변환(SADCT)의 효율적 VLSI 구조를 제안한다. 모양 적응적 이산 여현 변환은 이산 여현 변환과 달리 변환 크기가 각 블록에서의 객체의 모양에 따라 가변적이므로 기존의 시간 순환구조에서는 각 처리소자의 이용도와 처리속도가 모두 저하된다. 본 논문에서는 이러한 단점을 극복하기 위해 메모리를 필요로 하지 않는 시스톨릭 어레이에 기반한 구조를 제안한다. 제안된 구조에서는 1차원 SADCT를 연속적으로 수행함으로 처리속도를 향상시키고 첫 번째 열의 처리소자들을 마지막 열의 처리소자들과 연결하고, 입력 데이터는 각각의 재배열된 블록에서의 최대 데이터 크기에 따라 각 열에 병렬로 입력하여 처리소자의 이용도를 향상시켰다. 제안된 구조는 VHDL로 기술하고 MentorTM를 이용하여 기능검증을 수행하였다. 검증결과, 하드웨어 복잡도가 다소 증가하나, 처리속도는 기존의 방법에 비해 두 배정도 향상되었다.

  • PDF

Optimized and Portable FPGA-Based Systolic Cell Architecture for Smith-Waterman-Based DNA Sequence Alignment

  • Shah, Hurmat Ali;Hasan, Laiq;Koo, Insoo
    • Journal of information and communication convergence engineering
    • /
    • 제14권1호
    • /
    • pp.26-34
    • /
    • 2016
  • The alignment of DNA sequences is one of the important processes in the field of bioinformatics. The Smith-Waterman algorithm (SWA) performs optimally for aligning sequences but is computationally expensive. Field programmable gate array (FPGA) performs the best on parameters such as cost, speed-up, and ease of re-configurability to implement SWA. The performance of FPGA-based SWA is dependent on efficient cell-basic implementation-unit design. In this paper, we present an optimized systolic cell design while avoiding oversimplification, very large-scale integration (VLSI)-level design, and direct mapping of iterative equations such as previous cell designs. The proposed design makes efficient use of hardware resources and provides portability as the proposed design is not based on gate-level details. Our cell design implementing a linear gap penalty resulted in a performance improvement of 32× over a GPP platform and surpassed the hardware utilization of another implementation by a factor of 4.23.

GF($2^m$)상의 효율적인 비트-시리얼 시스톨릭 곱셈기 (An Efficient Bit-serial Systolic Multiplier over GF($2^m$))

  • 이원호;유기영
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권1_2호
    • /
    • pp.62-68
    • /
    • 2006
  • 현대 통신 분야에서 많이 응용되고 있는 유한 필드상의 중요한 연산근 곱셈과 지수승 연산 등이 있다. 유한 필드에서 지수 연산은 이진 방법을 이용하여 곱셈과 제곱을 반복함으로서 구현될 수 있다. 그래서 이러한 연산들을 위한 빠른 알고리즘과 효율적인 하드웨어 구조 개발이 중요하다. 본 논문에서는 GF($2^m$)상의 MSB-우선 곱셈 연산을 위한 효율적인 비트-시리얼 시스톨릭 곱셈기를 구현하였다. 제안된 곱셈기는 지수 연산기의 핵심 회로로 사용될 수 있으며 기존의 곱셈기들과 비교하여 보다 적은 입력-단자의 수와 공간-시간 복잡도를 가진다. 그리고 제안된 구조는 정규성과 모듈성, 단 방향 자료 흐름을 가지기 때문에 VLSI 칩과 같은 하드웨어로 보다 쉽게 구현할 수 있다.

유한체상의 자원과 시간에 효율적인 다항식 곱셈기 (Resource and Delay Efficient Polynomial Multiplier over Finite Fields GF (2m))

  • 이건직
    • 디지털산업정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.1-9
    • /
    • 2020
  • Many cryptographic and error control coding algorithms rely on finite field GF(2m) arithmetic. Hardware implementation of these algorithms needs an efficient realization of finite field arithmetic operations. Finite field multiplication is complicated among the basic operations, and it is employed in field exponentiation and division operations. Various algorithms and architectures are proposed in the literature for hardware implementation of finite field multiplication to achieve a reduction in area and delay. In this paper, a low area and delay efficient semi-systolic multiplier over finite fields GF(2m) using the modified Montgomery modular multiplication (MMM) is presented. The least significant bit (LSB)-first multiplication and two-level parallel computing scheme are considered to improve the cell delay, latency, and area-time (AT) complexity. The proposed method has the features of regularity, modularity, and unidirectional data flow and offers a considerable improvement in AT complexity compared with related multipliers. The proposed multiplier can be used as a kernel circuit for exponentiation/division and multiplication.

고속 움직임 추정 알고리즘에 적합한 VLSI 구조 연구 (A VLSI architecture for fast motion estimation algorithm)

  • 이재헌;라종범
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 하계종합학술대회논문집
    • /
    • pp.717-720
    • /
    • 1998
  • In this paper, we propose a VLSI architecture for implementing a crecently proposed fast block matching algorithm, which is called the HSBMA3S. The proposed architecture consists of a systolic array based basic unit and two shift register arrays. And it covers a search range of -32 ~+31. By using a basic unit repeatedly, we can redcue the number of gates. To implement the basic unit, we can select one among various conventional systolic arrays by trading-off between speed and hardware cost. In this paper, the architecture for the basic unit is selected so that the hardware cost can be minimized. The proposed architecture is fast enough for low bit-rate applications (frame size of 352x288, 30 frames/sec) and can be implemented by less than 20,000 gates. Moreover, by simply modifying the basic unit, the architecture can be used for the higher bit-rate application of the frame size of 720*480 and 30 frames/sec.

  • PDF

패킷 스케줄러를 위한 빠르고 확장성 있는 우선순위 큐의 하드웨어 구조 (A Fast and Scalable Priority Queue Hardware Architecture for Packet Schedulers)

  • 김상균;문병인
    • 대한전자공학회논문지SD
    • /
    • 제44권10호
    • /
    • pp.55-60
    • /
    • 2007
  • 본 논문에서는 QoS를 보장하면서 빠른 네트워크 속도를 지원해 줄 수 있는 우선순위 큐의 구조를 제안한다. 제안한 큐의 구조는 하나의 큐로 여러 개의 출력부에 출력을 보낼 수 있어 면적을 줄일 수 있고, 제어 블록을 추가함으로써 기존의 multiple systolic way 우선순위 큐보다 더 빠른 속도로 동작할 수 있기 때문에 높은 패킷 처리 속도를 요구하는 패킷 스케줄러 등에 적합한 구조이다. 또한, 이 구조는 높은 확장성을 지원한다.

데이터 재사용에 의한 고속 프랙탈 영상압축을 위한 시스토릭 어레이의 설계 ((Design of Systolic Away for High-Speed Fractal Image Compression by Data Reusing))

  • 우종호;이희진;이수진;성길영
    • 전자공학회논문지SC
    • /
    • 제39권3호
    • /
    • pp.220-227
    • /
    • 2002
  • 프랙탈 영상압축의 고속처리를 위한 일차원 VLSI 어레이를 설계하였다. 기존의 제안된 일차원 VLSI 어레이에서 중첩되는 이웃의 정의역블럭의 데이터들을 재사용하므로서 전체 연산에 필요한 데이터의 총입력 횟수를 감소시키고, 이로 인한 전체 처리시간을 줄였다. 어레이로 입력되는 데이터의존관계를 고려하여, 입력순서가 적절히 조정되었으며, 이에 따라 처리요소들을 설계하였다. 몇몇 처리요소에는 데이터의 저장 및 경로설정을 위한 레지스터와 멀티플렉서들이 추가되었다. 따라서 영상의 크기가 N이고 블럭의 크기가 B인 경우, 이 설계는 적은 하드웨어를 추가하여 기존의 어레이보다 처리속도가 (N-4B)/4(N-B)배 향상되었다.

Efficient Semi-systolic AB2 Multiplier over Finite Fields

  • Kim, Keewon
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.37-43
    • /
    • 2020
  • 본 논문에서는 유한체상의 SPB(shifted polynomial basis)를 사용한 효율적인 AB2 곱셈 알고리즘을 제안한다. SPB의 특징을 이용하여, AB2 곱셈을 위한 수식을 두 부분으로 분할하였다. 분할된 두 수식은 동시에 실행가능하며, 이를 병렬로 처리하는 알고리즘을 도출하였다. 그리고 제안한 알고리즘을 기반으로 효율적인 세미-시스톨릭(semi-systolic) AB2 곱셈기를 제안한다. 제안한 곱셈기는 기존의 곱셈기에 비해 낮은 공간-시간 복잡도(area-time complexity)를 가진다. 기존의 구조들과 비교하면, 제안한 AB2 곱셈기는 공간-시간 복잡도면에서 Wei, Wang-Guo, Kim-Lee, 및 Choi-Lee의 곱셈기들의 약 94%, 87%, 86%, 및 83% 가량이 감소되었다. 따라서 제안한 곱셈기는 VLSI(very large scale integration) 구현에 적합하며 다양한 응용의 기초적인 구성 요소로 쉽게 적용할 수 있다.