• 제목/요약/키워드: Parallel Optimal Implementation

검색결과 43건 처리시간 0.022초

EFFICIENT PARALLEL GAUSSIAN NORMAL BASES MULTIPLIERS OVER FINITE FIELDS

  • Kim, Young-Tae
    • 호남수학학술지
    • /
    • 제29권3호
    • /
    • pp.415-425
    • /
    • 2007
  • The normal basis has the advantage that the result of squaring an element is simply the right cyclic shift of its coordinates in hardware implementation over finite fields. In particular, the optimal normal basis is the most efficient to hardware implementation over finite fields. In this paper, we propose an efficient parallel architecture which transforms the Gaussian normal basis multiplication in GF($2^m$) into the type-I optimal normal basis multiplication in GF($2^{mk}$), which is based on the palindromic representation of polynomials.

Parallel Implementation of the Recursive Least Square for Hyperspectral Image Compression on GPUs

  • Li, Changguo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권7호
    • /
    • pp.3543-3557
    • /
    • 2017
  • Compression is a very important technique for remotely sensed hyperspectral images. The lossless compression based on the recursive least square (RLS), which eliminates hyperspectral images' redundancy using both spatial and spectral correlations, is an extremely powerful tool for this purpose, but the relatively high computational complexity limits its application to time-critical scenarios. In order to improve the computational efficiency of the algorithm, we optimize its serial version and develop a new parallel implementation on graphics processing units (GPUs). Namely, an optimized recursive least square based on optimal number of prediction bands is introduced firstly. Then we use this approach as a case study to illustrate the advantages and potential challenges of applying GPU parallel optimization principles to the considered problem. The proposed parallel method properly exploits the low-level architecture of GPUs and has been carried out using the compute unified device architecture (CUDA). The GPU parallel implementation is compared with the serial implementation on CPU. Experimental results indicate remarkable acceleration factors and real-time performance, while retaining exactly the same bit rate with regard to the serial version of the compressor.

Implementing Distributed Optimal Power Flow Using the Alternating Direction Method

  • Chung Koohyung;Kim Balho H.;Song Kyung-Bin
    • KIEE International Transactions on Power Engineering
    • /
    • 제5A권4호
    • /
    • pp.412-415
    • /
    • 2005
  • The recent requirement for faster and more frequent solutions has encouraged the consideration of parallel implementations using decentralized processors. Distributed multi-processor environments can potentially greatly increase the available computational capacity and decrease the communication burden, allowing for faster Optimal Power Flow (OPF) solutions. This paper presents a mathematical approach to implementing distributed OPF using the alternating direction method (ADM) to parallelize the OPF. Several IEEE Reliability Test Systems were adopted to demonstrate the proposed algorithm.

다중 컴퓨터 시스템을 이용한 최적화 신경회로망의 최적 병렬구현 (Optimal Parallel Implementation of an Optimization Neural Network by Using a Multicomputer System)

  • 김진호;최흥문
    • 전자공학회논문지B
    • /
    • 제28B권12호
    • /
    • pp.75-82
    • /
    • 1991
  • We proposed an optimal parallel implementation of an optimization neural network with linear increase of speedup by using multicomputer system and presented performance analysis model of the system. We extracted the temporal-and the spatial-parallelism from the optimization neural network and constructed a parallel pipeline processing model using the parallelism in order to achieve the maximum speedup and efficiency on the CSP architecture. The results of the experiments for the TSP using the Transputer system, show that the proposed system gives linear increase of speedup proportional to the size of the optimization neural network for more than 140 neurons, and we can have more than 98% of effeciency upto 16-node system.

  • PDF

An Efficient Implementation of Decentralized Optimal Power Flow

  • Kim, Balho H.
    • Journal of Electrical Engineering and Technology
    • /
    • 제2권3호
    • /
    • pp.335-341
    • /
    • 2007
  • In this study, we present an approach to parallelizing OPF that is suitable for distributed implementation and is applicable to very large inter-connected power systems. The approach could be used by utilities for optimal economy interchange without disclosing details of their operating costs to competitors. It could also be used to solve several other computational tasks, such as state estimation and power flow, in a distributed manner. The proposed algorithm was demonstrated with several case study systems.

Design and Implementation of 256-Point Radix-4 100 Gbit/s FFT Algorithm into FPGA for High-Speed Applications

  • Polat, Gokhan;Ozturk, Sitki;Yakut, Mehmet
    • ETRI Journal
    • /
    • 제37권4호
    • /
    • pp.667-676
    • /
    • 2015
  • The third-party FFT IP cores available in today's markets do not provide the desired speed demands for optical communication. This study deals with the design and implementation of a 256-point Radix-4 100 Gbit/s FFT, where computational steps are reconsidered and optimized for high-speed applications, such as radar and fiber optics. Alternative methods for FFT implementation are investigated and Radix-4 is decided to be the optimal solution for our fully parallel FPGA application. The algorithms that we will implement during the development phase are to be tested on a Xilinx Virtex-6 FPGA platform. The proposed FFT core has a fully parallel architecture with a latency of nine clocks, and the target clock rate is 312.5 MHz.

최적정규기저를 갖는 유한체위에서의 저 복잡도 비트-병렬 곱셈기 (A Low Complexity Bit-Parallel Multiplier over Finite Fields with ONBs)

  • 김용태
    • 한국전자통신학회논문지
    • /
    • 제9권4호
    • /
    • pp.409-416
    • /
    • 2014
  • 유한체의 H/W 구현에는 정규기저를 사용하는 것이 효과적이며, 특히 최적 정규기저를 갖는 유한체의 H/W 구현이 가장 효율적이다. 타입 I 최적 정규기저를 갖는 유한체 $GF(2^m)$은 m 이 짝수이기 때문에 어떤 암호계에는 응용되지 못하는 단점이 있다. 그러나 타입 II 최적 정규기저를 갖는 유한체의 경우는 NIST에서 제안한 ECDSA 의 권장 커브가 주어진 $GF(2^{233})$이 타입 II 최적 정규 기저를 갖는 등 여러 응용분야에 적용 되므로, 이에 대한 효율적인 구현에 관한 연구가 활발하게 진행되고 있다. 본 논문에서는 타입 II 최적 정규기저를 갖는 유한체 $GF(2^m)$의 연산을 정규기저를 이용하여 표현하여 확대체 $GF(2^{2m})$의 원소로 표현하여 연산을 하는 새로운 비트-병렬 곱셈기를 제안하였으며, 기존의 가장 효율적인 곱셈기들보다 블록 구성방법이 용이하며, XOR gate 수가 적은 저 복잡도 곱셈기이다.

64-bit ARM 프로세서 상에서의 블록암호 PIPO 병렬 최적 구현 (Optimized Implementation of Block Cipher PIPO in Parallel-Way on 64-bit ARM Processors)

  • 엄시우;권혁동;김현준;장경배;김현지;박재훈;송경주;심민주;서화정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권8호
    • /
    • pp.223-230
    • /
    • 2021
  • ICISC'20에서 발표된 경량 블록암호 PIPO는 비트 슬라이스 기법 적용으로 효율적인 구현이 되었으며, 부채널 내성을 지니기에 안전하지 않은 환경에서도 안정적으로 사용 가능한 경량 블록암호이다. 본 논문에서는 ARM 프로세서를 대상으로 PIPO의 병렬 최적 구현을 제안한다. 제안하는 구현물은 8평문, 16평문의 병렬 암호화가 가능하다. 구현에는 최적의 명령어 활용, 레지스터 내부 정렬, 로테이션 연산 최적화 기법을 사용하였다. 또한 레지스터 내부 정렬을 매 라운드마다 진행하는 구현물과, 정렬을 최소화하는 구현물 두 종류로 구분하여 구현한다. 구현은 A10x fusion 프로세서를 대상으로 한다. 대상 프로세서 상에서, 기존 레퍼런스 PIPO 코드는 64/128, 64/256 규격에서 각각 34.6 cpb, 44.7 cpb의 성능을 가지나, 제안하는 기법 중, 일반 구현물은 8평문 64/128, 64/256 규격에서 각각 12.0 cpb, 15.6 cpb, 16평문 64/128, 64/256 규격에서 각각 6.3 cpb, 8.1 cpb의 성능을 보여준다. 이는 기존 대비 각 규격별로 8평문 병렬 구현물은 약 65.3%, 66.4%, 16평문 병렬 구현물은 약 81.8%, 82.1% 더 좋은 성능을 보인다. 레지스터 최소 정렬 구현물은 8평문 64/128, 64/256 규격에서 각각 8.2 cpb, 10.2 cpb, 16평문 64/128, 64/256 규격에서 각각 3.9 cpb, 4.8 cpb의 성능을 보여준다. 이는 기존 레퍼런스 코드 구현물 대비 각 규격별로 8평문 병렬 구현물은 약 76.3%, 77.2%, 16평문 병렬 구현물은 약 88.7% 89.3% 더 향상된 성능을 가진다.

타입 II 최적 정규기저를 갖는 유한체의 새로운 병렬곱셈 연산기 (A New Parallel Multiplier for Type II Optimal Normal Basis)

  • 김창한;장상운;임종인;지성연
    • 정보보호학회논문지
    • /
    • 제16권4호
    • /
    • pp.83-89
    • /
    • 2006
  • 유한체의 H/W 구현에는 정규기저를 사용하는 것이 효과적이며, 특히 최적 정규기저를 갖는 유한체의 H/W구현이 가장 효율적이다. 타입 I 최적 정규기저를 갖는 유한체 GF($2^m$)은 m이 짝수이므로 암호학적으로 응용되지 못하는 단점이 있다. 그러나 타입 II 최적 정규기저를 갖는 유한체의 경우는 NIST에서 제안한 ECDSA의 권장 커브 중 GF($2^{233}$)위에 주어진 것이 있으며, 이 유한체가 타입 II 최적 정규기저를 갖는 등 여러 응용분야에 적용 되는바 효율적인 구현에 관한 연구가 활발하게 진행되고 있다. 본 논문에서는 타입 II 최적 정규기저를 갖는 유한체 GF($2^m$)의 연산을 정규기저로 표현하여 확대체 GF($2^{2m}$)의 원소로 나타내어 연산을 하는 새로운 병렬곱셈 연산기를 제안하였으며, 제안한 연산기는 기존의 가장 효율적인 결과들과 동일한 공간 및 시간 복잡도를 갖는 효율적인 연산기이다.

병렬 연산을 이용한 최적 확장체의 효율적 구현 (Efficient Implementation of Optimal Extension Fields Using Parallel Computation)

  • 이문규;박근수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.269-271
    • /
    • 2003
  • 본 논문에서는 타원 곡선 암호의 성능을 향상시키기 위한 효율적인 최적 확장체 연산 알고리즘을 제안한다. 제안하는 알고리즘은 CPU에서 제공되는 정수 곱셈 명령 1회 실행에 두 개의 하위체 연산을 병렬적으로 수행하도록 함으로써 최적 확장체에서의 곱셈, 제곱, 역원 연산의 속도를 향상시킨다.

  • PDF