• 제목/요약/키워드: 64-bit ARM Processor

검색결과 5건 처리시간 0.021초

32비트 3단 파이프라인을 가진 RISC 프로세서에 최적화된 Multiplier 구조에 관한 연구 (A Study on Multiplier Architectures Optimized for 32-bit RISC Processor with 3-Stage Pipeline)

  • 정근영;박주성;김석찬
    • 대한전자공학회논문지SD
    • /
    • 제41권11호
    • /
    • pp.123-130
    • /
    • 2004
  • 본 논문에서는 32비트 3단 파이프라인을 가진 RISC 프로세서에 최적화된 곱셈기 구조의 연구에 대해 다룬다. 대상 프로세서인 ARM7은 3단의 파이프라인 구조로 되어 있으며 이 프로세서의 곱셈기는 파이프라인 상의 실행 단계에서 최대 7사이클이 소요된다. 내장된 곱셈기는 기능적으로 부스 알고리즘을 적용하여 32×32 곱셈 연산과 덧셈 연산을 하여 64비트 결과를 낼 수 있는 MAC(Multiplier-Accumulator) 구조로 되어 있으며 6가지 세부 명령어를 실행할 수 있다. ARM7의 파이프라인 및 ALU와 shifter 구조에 적합한 radix4-32×8 및 radix4-32×16 과 radix8-32×32의 곱셈기 구조를 비교 분석하였으며 면적, 사이클 지연시간, 수행 사이클 수를 성능 기준으로 최적화된 곱셈기를 결정하여 설계하였다. 프로세서 코어에 내장된 곱셈기의 동작을 검증하기 위해 다양한 오디오 알고리즘을 이용하여 시뮬레이션을 수행하였다.

64-bit ARM 프로세서 상에서의 블록암호 PIPO 병렬 최적 구현 (Optimized Implementation of Block Cipher PIPO in Parallel-Way on 64-bit ARM Processors)

  • 엄시우;권혁동;김현준;장경배;김현지;박재훈;송경주;심민주;서화정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권8호
    • /
    • pp.223-230
    • /
    • 2021
  • ICISC'20에서 발표된 경량 블록암호 PIPO는 비트 슬라이스 기법 적용으로 효율적인 구현이 되었으며, 부채널 내성을 지니기에 안전하지 않은 환경에서도 안정적으로 사용 가능한 경량 블록암호이다. 본 논문에서는 ARM 프로세서를 대상으로 PIPO의 병렬 최적 구현을 제안한다. 제안하는 구현물은 8평문, 16평문의 병렬 암호화가 가능하다. 구현에는 최적의 명령어 활용, 레지스터 내부 정렬, 로테이션 연산 최적화 기법을 사용하였다. 또한 레지스터 내부 정렬을 매 라운드마다 진행하는 구현물과, 정렬을 최소화하는 구현물 두 종류로 구분하여 구현한다. 구현은 A10x fusion 프로세서를 대상으로 한다. 대상 프로세서 상에서, 기존 레퍼런스 PIPO 코드는 64/128, 64/256 규격에서 각각 34.6 cpb, 44.7 cpb의 성능을 가지나, 제안하는 기법 중, 일반 구현물은 8평문 64/128, 64/256 규격에서 각각 12.0 cpb, 15.6 cpb, 16평문 64/128, 64/256 규격에서 각각 6.3 cpb, 8.1 cpb의 성능을 보여준다. 이는 기존 대비 각 규격별로 8평문 병렬 구현물은 약 65.3%, 66.4%, 16평문 병렬 구현물은 약 81.8%, 82.1% 더 좋은 성능을 보인다. 레지스터 최소 정렬 구현물은 8평문 64/128, 64/256 규격에서 각각 8.2 cpb, 10.2 cpb, 16평문 64/128, 64/256 규격에서 각각 3.9 cpb, 4.8 cpb의 성능을 보여준다. 이는 기존 레퍼런스 코드 구현물 대비 각 규격별로 8평문 병렬 구현물은 약 76.3%, 77.2%, 16평문 병렬 구현물은 약 88.7% 89.3% 더 향상된 성능을 가진다.

SHA-3 해시 함수의 최적화된 하드웨어 구현 (An Optimized Hardware Implementation of SHA-3 Hash Functions)

  • 김동성;신경욱
    • 전기전자학회논문지
    • /
    • 제22권4호
    • /
    • pp.886-895
    • /
    • 2018
  • 본 논문에서는 NIST에서 발표한 Secure Hash Algorithm(SHA) 표준의 최신 버전인 SHA-3 해시 함수의 하드웨어 구현과 함께 보안 SoC 응용을 위한 ARM Cortex-M0 인터페이스 구현에 대해 기술한다. 최적화된 설계를 위해 5 가지 하드웨어 구조에 대해 하드웨어 복잡도와 성능의 교환조건을 분석하였으며, 분석 결과를 토대로 라운드 블록의 데이터패스를 1600-비트로 결정하였다. 또한, 라운드 블록과 64-비트 인터페이스를 갖는 패더를 하드웨어로 구현하였다. SHA-3 해시 프로세서, Cortex-M0 그리고 AHB 인터페이스를 집적하는 SoC 프로토타입을 Cyclone-V FPGA 디바이스에 구현하여 하드웨어/소프트웨어 통합 검증을 수행하였다. SHA-3 프로세서는 Virtex-5 FPGA에서 1,672 슬라이스를 사용하였으며, 최대 289 Mhz의 클록 주파수로 동작하여 5.04 Gbps의 처리율을 갖는 것으로 예측되었다.

ARMv8 환경에서 NIST LWC SPARKLE 효율적 구현 (Efficient Implementation of NIST LWC SPARKLE on 64-Bit ARMv8)

  • 신한범;김규상;이명훈;김인성;김선엽;권동근;김성겸;서석충;홍석희
    • 정보보호학회논문지
    • /
    • 제33권3호
    • /
    • pp.401-410
    • /
    • 2023
  • 본 논문에서는 NIST LWC 최종후보 중 하나인 SPARKLE을 64-비트 ARMv8 프로세서 상에서 최적화하는 방안에 대해 제안한다. 제안 방법은 두 가지로서 ARM A64 명령어를 이용한 구현과 NEON ASIMD 명령어를 이용한 구현이다. A64 기반 제안구현은 ARMv8 상에서 가용한 레지스터를 효율적으로 사용할 수 있도록 레지스터 스케줄링을 수행하여 최적화한다. 최적화된 A64 기반 제안구현을 활용할 경우 Raspberry Pi 4B에서 C언어 참조구현보다 1.69~1.81배 빠른 속도를 얻을 수 있다. 두 번째로, ASIMD 기반 제안구현은 하나의 벡터명령어를 통해 3개 이상의 ARX-box를 병렬적으로 수행하도록 데이터를 병렬적으로 구성하여 최적화한다. 최적화된 ASIMD 기반 제안구현은 A64 기반 제안구현보다 일반적인 속도는 떨어지지만, SPARKLE256에서 SPARKLE512로 블록 크기가 증가할 때 A64 기반 제안구현에서는 속도가 2.1배 느려지는 것에 비해 ASIMD 기반제안구현에서는1.2배밖에 느려지지 않다는 장점이 있다. 따라서 기존 SPARKLE보다 더 큰 블록 크기를 갖는 SPARKLE 변형 블록 암호 또는 순열 설계 시 ASIMD 기반 제안구현이 더 효율적이므로 유용한 자료로써 활용 가능하다.

PREEMPT_RT Linux에서 SOEM을 이용하는 임베디드 EtherCAT 마스터 성능 평가 (Performance Evaluation of an Embedded EtherCAT Master with SOEM on PREEMPT_RT Linux)

  • 강성진;김외철
    • 반도체디스플레이기술학회지
    • /
    • 제21권3호
    • /
    • pp.26-32
    • /
    • 2022
  • EtherCAT is an Ethernet-based fieldbus system standardized in IEC 61158 and SEMI, and widely used in the fields of factory automation, semiconductor equipment and robotics. In this paper, an EtherCAT master is implemented on an embedded board with Arm based 64-bit quad-core processor and its jitter performance is evaluated at the output of the network interface to include all the effects of the entire system in the results. For the EtherCAT master system, an open source EtherCAT master stack, Simple Open EtherCAT Master (SOEM), is installed on PREEMPT_RT patched Linux operating system for real-time operation. The results show that the jitter performance is comparable to that of Xenomai-based master and the EtherCAT master with two master instances has similar jitter performance to the EtherCAT master with one master instance.