• 제목/요약/키워드: Processor Core

검색결과 396건 처리시간 0.027초

PREEMPT_RT Linux에서 SOEM을 이용하는 임베디드 EtherCAT 마스터 성능 평가 (Performance Evaluation of an Embedded EtherCAT Master with SOEM on PREEMPT_RT Linux)

  • 강성진;김외철
    • 반도체디스플레이기술학회지
    • /
    • 제21권3호
    • /
    • pp.26-32
    • /
    • 2022
  • EtherCAT is an Ethernet-based fieldbus system standardized in IEC 61158 and SEMI, and widely used in the fields of factory automation, semiconductor equipment and robotics. In this paper, an EtherCAT master is implemented on an embedded board with Arm based 64-bit quad-core processor and its jitter performance is evaluated at the output of the network interface to include all the effects of the entire system in the results. For the EtherCAT master system, an open source EtherCAT master stack, Simple Open EtherCAT Master (SOEM), is installed on PREEMPT_RT patched Linux operating system for real-time operation. The results show that the jitter performance is comparable to that of Xenomai-based master and the EtherCAT master with two master instances has similar jitter performance to the EtherCAT master with one master instance.

Development of a flux emergence simulation using parallel computing

  • 이환희;마가라 테츠야
    • 천문학회보
    • /
    • 제44권2호
    • /
    • pp.71.1-71.1
    • /
    • 2019
  • The solar magnetic field comes from the solar interior and is related to various phenomena on the Sun. To understand this process, many studies have been conducted to produce its evolution using a single flux rope. In this study, we are interested in the emergence of two flux ropes and their evolution, which takes longer than the emergence of a single flux rope. To construct it, we develop a flux emergence simulation by applying a parallel computing to reduce a computation time in a wider domain. The original simulation code had been written in Fortran 77. We modify it to a version of Fortran 90 with Message Passing Interface (MPI). The results of the original and new simulation are compared on the NEC SX-Aurora TSUBASA which is a vector engine processor. The parallelized version is faster than running on a single core and it shows a possibility to handle large amounts of calculation. Based on this model, we can construct a complex flux emergence system, such as an evolution of two magnetic flux ropes.

  • PDF

법용 연합 처리 시스템에서의 전역배선 병렬화 기법 (Parallel algorithm of global routing for general purpose associative processign system)

  • 박태근
    • 전자공학회논문지A
    • /
    • 제32A권4호
    • /
    • pp.93-102
    • /
    • 1995
  • This paper introduces a general purpose Associative Processor(AP) which is very efficient for search-oriented applications. The proposed architecture consists of three main functional blocks: Content-Addressable Memory(CAM) arry, row logic, and control section. The proposed AP is a Single-Instruction, Multiple-Data(SIMD) device based on a CAM core and an array of high speed processors. As an application for the proposed hardware, we present a parallel algorithm to solve a global routing problem in the layout process utilizing the processing capabilities of a rudimentary logic and the selective matching and writing capability of CAMs, along with basic algorithms such a minimum(maximum) search, less(greater) than search and parallel arithmetic. We have focused on the simultaneous minimization of the desity of the channels and the wire length by sedking a less crowded channel with shorter wire distance. We present an efficient mapping technique of the problem into the CAM structure. Experimental results on difficult examples, on randomly generated data, and on benchmark problems from MCNC are included.

  • PDF

MPI 노드 내 통신 성능 향상을 위한 매니코어 프로세서의 온-패키지 메모리 활용 (Using the On-Package Memory of Manycore Processor for Improving Performance of MPI Intra-Node Communication)

  • 조중연;진현욱;남덕윤
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.124-131
    • /
    • 2017
  • 고성능 컴퓨팅 환경을 위해서 최근 등장한 차세대 매니코어 프로세서는 전통적인 구조의 메모리와 함께 고대역 온-패키지 메모리를 장착하고 있다. Intel Xeon Phi Knights Landing(KNL) 프로세서의 온-패키지 메모리인 Multi-Channel DRAM(MCDRAM)은 기존의 DDR4 메모리보다 이론적으로 네 배 높은 대역폭을 제공한다. 본 논문에서는 MCDRAM을 이용하여 MPI 노드 내 통신 성능을 향상시키기 위한 방안을 제안한다. 실험 결과, 제안된 기법을 사용할 경우 DDR4를 사용하는 경우와 비교해서 MPI 노드 내 통신 성능을 최대 272% 향상시킬 수 있음을 보인다. 또한 MCDRAM 활용 방법에 따른 성능 영향뿐만 아니라 프로세스의 코어 친화도에 따른 성능 영향을 보인다.

AES-128/192/256 Rijndael 블록암호 알고리듬용 암호 프로세서 (A Cryptoprocessor for AES-128/192/256 Rijndael Block Cipher Algorithm)

  • 안하기;박광호;신경욱
    • 한국정보통신학회논문지
    • /
    • 제6권3호
    • /
    • pp.427-433
    • /
    • 2002
  • 차세대 블록 암호 표준인 AES(Advanced Encryption Standard) Rijndael(라인달) 암호 프로세서를 설계하였다. 단일 라운드 블록을 사용하여 라운드 변환을 반복 처리하는 구조를 체택하여 하드웨어 복잡도를 최소화하였다. 또한, 라운드 변환블록 내부에 서브 파이프라인 단계를 삽입하여 현재 라운드의 후반부 연산과 다음 라운드의 전반부 연산이 동시에 처리되도록 하였으며, 이를 통하여 암.복호 처리율이 향상되도록 설계함으로써, 면적과 전력소모가 최소화되도록 하였다. 128-b/192-b/256-b의 마스터 키 길이에 대해 라운드 변환의 전반부 4클록 주기에 on-the-fly 방식으로 라운드 키를 생성할 수 있는 효율적인 키 스케줄링 회로를 고안하였다. Verilog HDL로 모델링된 암호 프로세서는 FPGA로 구현하여 정상 동작함을 확인하였다. 0.35-$\mu\textrm{m}$ CMOS 셀 라이브러리로 합성한 결과 약 25.000개의 게이트로 구현되었으며, 2.5-V 전원전압에서 220-MHz 클록으로 동작하여 약 520-Mbits/sec의 성능을 갖다.

64비트 블록암호 알고리듬 HIGHT의 효율적인 하드웨어 구현 (An efficient hardware implementation of 64-bit block cipher algorithm HIGHT)

  • 박해원;신경욱
    • 한국정보통신학회논문지
    • /
    • 제15권9호
    • /
    • pp.1993-1999
    • /
    • 2011
  • 한국기술표준원(KATS)과 국제표준화기구(ISO/IEC)에 의해 표준으로 채택된 블록암호 알고리듬 HIGHT용 저면적/저전력 암호/복호 코어를 설계하였다. HIGHT 알고리듬은 USN, RFID와 같은 유비쿼터스 환경에 적합하도록 개발되었으며, 128 비트 마스터 키를 사용하여 64 비트 평문을 64 비트 암호문으로, 또는 그 역으로 변환한다. 저면적과 저전력 구현을 위해 암호화 및 복호화를 위한 라운드 변환 블록과 키 스케줄러의 하드웨어 자원이 공유되도록 설계를 최적화하였다. 0.35-${\mu}m$ CMOS 표준 셀 라이브러리를 이용한 합성결과, HIGHT64 코어는 3,226 게이트로 구현되었으며, 80-MHz@2.5-V로 동작하여 150-Mbps의 성능을 갖는 것으로 평가되었다.

컨텐츠 보호를 위한 DTCP용 타원곡선 암호(ECC) 연산기의 구현 (Design of a ECC arithmetic engine for Digital Transmission Contents Protection (DTCP))

  • 김의석;정용진
    • 한국통신학회논문지
    • /
    • 제30권3C호
    • /
    • pp.176-184
    • /
    • 2005
  • 본 논문에서는 디지털 컨텐츠 보호를 위해 표준으로 제정된 DTCP(Digital Transmission Contents Protection)용 타원 곡선 암호(ECC) 연산기의 구현에 대해 기술한다. 기존의 시스템이 유한체 GF(2/sup m/)를 사용하는 것과는 달리 DTCP에서는 소수체인 GF(p)에서 타원 곡선을 정의하여 인증 및 키 교환을 위해 ECC 암호 알고리즘을 사용하고 있다. 본 논문에서는 ECC 알고리즘의 핵심 연산인 GF(p) 상에서의 스칼라 곱셈 연산기를 구현하였으며, 이 중 가장 많은 시간과 자원을 필요로 하는 나눗셈 연산을 제거하기 위하여 투영 좌표 변환 방법을 이용하였다. 또한, 효율적인 모듈러 곱셈 연산을 위하여 몽고메리 알고리즘을 이용하였으며, 곱셈기의 처리 속도를 빠르게 하기 위해 CSA(Carry Save Adder)와 4-레벨의 CLA(Carry Lookahead Adder)를 사용하였다. 본 논문에서 설계한 스칼라 곱셈기는 삼성전자 0.18 un CMOS 라이브러리를 이용하여 합성하였을 경우 64,559 게이트의 크기에 최대 98 MHz까지 동작이 가능하며 이 때 데이터 처리속도는 29.6 kbps로 160-blt 프레임당 5.4 ms 걸린다. 본 성능은 실시간 환경에서 DTCP를 위한 디지털 서명, 암호화 및 복호화, 그리고 키 교환 등에 효율적으로 적용될 수 있다.

바다물결 모형의 합성 및 GPU를 이용한 시뮬레이션 (Synthesis of Ocean Wave Models and Simulation Using GPU)

  • 이동민;이성기
    • 정보처리학회논문지A
    • /
    • 제14A권7호
    • /
    • pp.421-434
    • /
    • 2007
  • 컴퓨터 그래픽스로 재현되는 많은 자연현상 중의 하나인 바다는 주변 환경에 의해 계속해서 움직이며 복잡한 형태를 나타낼 뿐만 아니라 그 규모가 거대하기 때문에 만족스러운 영상을 얻기 위해서는 많은 계산시간을 필요로 한다. 본 논문에서는 GPU를 연산유닛으로 활용하여 무한히 넓은 바다표면의 움직임을 실시간으로 빠르게 시뮬레이션하고 사실적으로 렌더링하기 위한 방법을 제안한다. 제안하는 방법은 Gerstner 모델에 의해 2차원 투사 격자에서 생성된 저해상도의 메쉬로 바다의 전체적인 구조와 큰 물결을 표현하고, 스펙트럼 모델에 의해 2차원 균일격자에서 생성된 높이 맵과 법선 맵을 사용하여 작은 물결과 자세한 수면의 모습을 표현한다. 전체 과정이 GPU에 의해 처리되기 때문에 CPU자원을 다른 연산에 양보할 수 있을 뿐만 아니라 시스템 메모리와 그래픽스 하드웨어 사이에 기하정보(geometry data)의 이동이 없어 보다 빠른 렌더링이 가능하다. 제안하는 방법은 컴퓨터 게임과 같이 계산량이 많고 빠른 처리가 요구되는 실시간 애플리케이션에 활용 가능성이 크다.

차세대 저궤도 위성의 PCI 기반의 1553B 통신 소프트웨어 설계 (Design and Development of PCI-based 1553B Communication Software for Next Generation LEO On-Board Computer)

  • 최종욱;정재엽;유범수
    • 한국위성정보통신학회논문지
    • /
    • 제11권3호
    • /
    • pp.65-71
    • /
    • 2016
  • 현재 한국항공우주연구원에서 개발 중인 차세대 저궤도 위성의 탑재컴퓨터는 높은 성능을 위해 LEON2-FT/AT697F 프로세서를 사용하며 SpaceWire, 1553B, DMAUART, CAN Master 등의 다양한 통신을 지원하기 위해 별도의 FPGA 기반의 통신칩이 개발되었다. 프로세서와 통신칩간의 통신은 PCI 버스를 통해서 이루어지며, 탑재소프트웨어에서 직접 PCI 버스를 통해 각종 디바이스를 제어 및 통신을 수행한다. 차세대 탑재컴퓨터에서는 기존 1553B 통신을 위해 사용되었던 VASI IP1553B 컨트롤러 대신 Actel 1553BRM 코어를 사용하며 통신칩의 AMBA 버스상에 연결을 위해 Aeroflex Gaisler에서 개발 된 B1553BRM Wrapper를 사용한다. 본 논문에서는 차세대 저궤도 위성에서의 PCI기반의 1553B 통신 소프트웨어의 구조와 통신방법에 대해서 기술하고 탑재소프트웨어 레벨의 태스크를 통한 1553B 처리방식에 대해서 설명한다. 그리고 시뮬레이터 및 실제 하드웨어에서 테스트 된 결과에 대해 설명한다.

RISC 기반 DSP 프로세서 아키텍쳐의 성능 평가 (A Performance Evaluation of a RISC-Based Digital Signal Processor Architecture)

  • 강지랑;이종복;성원용
    • 전자공학회논문지C
    • /
    • 제36C권2호
    • /
    • pp.1-13
    • /
    • 1999
  • 디지털 신호처리용 응용 프로그램의 복잡도가 증가햐면서, 효율적인 컴파일러를 지원하는 DSP 프로세서 구조의 필요성이 증대되고 있다. 많은 범용 레지스터와 직교적(orthogonal)인 명령어 집합을 가지는 RISC프로세서 구조에 메모리 오퍼랜드, 전용 어드레스 계산 유닛, 단일 사이클 MAC 명령어, zero-overhead 하드웨어 루프 등 DSP 프로세서의 구조적 특징을 가하여 효율적인 컴파일러를 가지는 고성능의 RISC 기반 DSP를 구현할 수 있다. 본 논문에서는 이 네 가지 DSP 아키텍쳐 구성 요소를 지원하는 코드변환기를 개발하고, 이를 이용하여 각각의 DSP 아키텍쳐 구성 요소들을 보완하였을 때 성능에 미치는 영향을 정량적으로 평가하였다. 성능 평가 실험에는 C 언어로 작성된 7개의 DSP 벤치마크 프로그램과 QCELP 음성 부호화기를 이용하였으며, 평가 결과를 RISC 프로세서뿐만 아니라 Texas Instruments 사의 TMS320C3x, TMS320C54x, TMS320C5x DSP 프로세서와 비교하였다.

  • PDF