• 제목/요약/키워드: 프로세서 코어

검색결과 312건 처리시간 0.021초

128비트 경량 블록암호 LEA의 저면적 하드웨어 설계 (A Small-area Hardware Design of 128-bit Lightweight Encryption Algorithm LEA)

  • 성미지;신경욱
    • 한국정보통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.888-894
    • /
    • 2015
  • 국가보안기술연구소(NSRI)에서 개발된 경량 블록암호 알고리듬 LEA(Lightweight Encryption Algorithm)의 효율적인 하드웨어 설계에 대해 기술한다. 마스터키 길이 128비트를 지원하도록 설계되었으며, 라운드 변환블록과 키 스케줄러의 암호화 연산과 복호화 연산을 위한 하드웨어 자원이 공유되도록 설계하여 저전력, 저면적 구현을 실현했다. 설계된 LEA 프로세서는 FPGA 구현을 통해 하드웨어 동작을 검증하였다. Xilinx ISE를 이용한 합성결과 LEA 코어는 1,498 슬라이스로 구현되었으며, 135.15 MHz로 동작하여 216.24 Mbps의 성능을 갖는 것으로 평가 되었다.

임베디드 시스템에서 보안 데이터 전송의 전력 사용량 및 오버헤드 분석 (Analysis of Energy Consumption and Overhead of Secure Data Transfer over an Embedded System)

  • 이무열;이상헌;진현욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (B)
    • /
    • pp.355-360
    • /
    • 2008
  • 대부분의 임베디드 시스템들은 유선 및 무선 네트워크에 연결되어 있으며 이들이 생성하는 데이터는 개인, 기관, 또는 국가에 상당히 중요한 정보일 수 있다. 따라서 통신 시 보안에 대한 요구는 향후 더욱 크게 증가할 것으로 전망된다. 임베디드 시스템에서의 또 다른 중요한 요구사항 중의 하나는 저전력 특성이다. 따라서 중요 데이터의 안전한 전송을 위한 암호화 및 복호화 그리고 네트워크 프로토콜 스택의 수행에 따른 전력 사용량 정보는 차세대 저전력 임베디드 시스템을 설계 및 개발하기 위해서 필수적으로 요구될 것이다. 하지만 기존 연구들은 단편적인 전력 사용량만을 분석하고 있다. 본 논문은 보안 데이터를 위한 암호화, 복호화, 그리고 데이터 송수신을 위한 네트워크 프로토콜 스택의 수행에 걸리는 전력 사용량과 오버헤드를 함께 측정하고 분석한다. 측정 결과 3DES 기반의 암호화 및 복호화 작업 동안의 전력 사용량이 TCP/IP 통신을 위한 전력 사용량 보다 데이터 크기가 증가함에 따라 더욱 크게 측정되었다. 해당 작업의 수행 오버헤드 역시 유사한 성향을 보였다. 그리고 프로세서 코어의 전력 사용량은 시스템 전체 사용량의 $10{\sim}22%$ 정도를 차지하는 것으로 측정되었다. 이러한 연구 결과는 임베디드 시스템에서 저전력 보안 데이터 전송을 위해 고려할 사항들을 정량적으로 제시하여 해당 연구 분야에 기여할 수 있다.

  • PDF

래스터화 알고리즘을 위한 최적의 매니코어 프로세서 구조 탐색 (Architecture Exploration of Optimal Many-Core Processors for a Vector-based Rasterization Algorithm)

  • 손동구;김철홍;김종면
    • 대한임베디드공학회논문지
    • /
    • 제9권1호
    • /
    • pp.17-24
    • /
    • 2014
  • In this paper, we implement and evaluate the performance of a vector-based rasterization algorithm for 3D graphics by using a SIMD (single instruction multiple data) many-core processor architecture. In addition, we evaluate the impact of a data-per-processing elements (DPE) ratio that is defined as the amount of data directly mapped to each processing element (PE) within many-core in terms of performance, energy efficiency, and area efficiency. For the experiment, we utilize seven different PE configurations by varying the DPE ratio (or the number PEs), which are implemented in the same 130 nm CMOS technology with a 500 MHz clock frequency. Experimental results indicate that the optimal PE configuration is achieved as the DPE ratio is in the range from 16,384 to 256 (or the number of PEs is in the range from 16 and 1,024), which meets the requirements of mobile devices in terms of the optimal performance and efficiency.

콘텐츠 보호를 위한 시스템온칩 상에서 암호 모듈의 구현 (Implementation of Encryption Module for Securing Contents in System-On-Chip)

  • 박진;김영근;김영철;박주현
    • 한국콘텐츠학회논문지
    • /
    • 제6권11호
    • /
    • pp.225-234
    • /
    • 2006
  • 본 논문에서는 콘텐츠 보호의 암호화를 위해 ECC, MD-5, AES를 통합한 보안 프로세서를 SIP (Semiconductor Intellectual Property)로 설계하였다. 각각의 SIP는 VHDL RTL로 모델링하였으며, 논리합성, 시뮬레이션, FPGA 검증을 통해 재사용이 가능하도록 구현하였다. 또한 ARM9과 SIP들이 서로 통신이 가능하도록 AMBA AHB의 스펙에 따라 버스동작모델을 설계, 검증하였다. 플렛폼기반의 통합 보안 SIP는 ECC, AES, MD-5가 내부 코어를 이루고 있으며 각각의 SIP들은 ARM9과 100만 게이트 FPGA가 내장된 디바이스를 사용하여 검증하였으며 최종적으로 매그나칩 $0.25{\mu}m(4.7mm{\times}4.7mm$) CMOS 공정을 사용하여 MPW(Multi-Project Wafer) 칩으로 제작하였다.

  • PDF

특정목적 수행을 위한 임베디드 시스템 플랫폼의 최적 선택 (An Optimal Selection of Embedded Platform for Specific Applications)

  • 문호선;김용득
    • 전자공학회논문지 IE
    • /
    • 제47권1호
    • /
    • pp.48-55
    • /
    • 2010
  • 본 논문은 특정목적의 수행을 위해 설계될 임베디드 플랫폼의 효율적인 선택에 관하여 다룬다. 특히, 영상 및 음향 신호 처리를 통해 실시간 상황인지를 목적으로 하는 차량 시스템을 예로 들어 설명한다. 실험을 위하여 검증된 성능평가 프로그램들 중에서 응용목적에 맞는 프로그램을 선택한 후 시뮬레이터를 사용하여 ARM7, ARM9, ARM10 프로세서 코어를 기준으로 코드 및 데이터 메모리 크기, 명령어 수, 실행 사이클을 측정하였다. 이 연구에서 제안된 방법으로 특정목적을 수행하기 위한 하드웨어 최소사양이 측정 가능하였으며, 이 결과는 설계 및 구현에 많은 시간이 소요되는 임베디드 시스템의 설계단계에서 시스템의 목적 수행에 필요한 플랫폼 사양을 도출하여 효율적인 플랫폼선택의 기준을 제시하는 것이 가능함을 보였다.

HPC 환경의 대용량 유전체 분석을 위한 염기서열정렬 성능평가 (Evaluation of Alignment Methods for Genomic Analysis in HPC Environment)

  • 임명은;정호열;김민호;최재훈;박수준;최완;이규철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.107-112
    • /
    • 2013
  • 인간 유전체 지도 완성 후 NGS 기술의 발달로 대용량 유전체 데이터 분석에 대한 요구가 증대하였다. NGS 데이터는 대용량의 단편서열로 구성되므로 효과적인 분석을 위해 고성능 컴퓨팅 기술의 지원이 요구된다. 본 연구에서는 HPC 환경에서 NGS 데이터로부터 SNP를 탐색하는 유전체 분석 파이프라인을 구축하였다. 각 분석 단계의 CPU 이용률 분석을 통해 분석 단계 중 서열 정렬 단계가 연산 작업의 비율이 가장 높은 것을 확인하고, 공개된 병렬화 서열 정렬 도구들의 성능을 분석하여 유전체 분석를 위한 매니코어 프로세서의 활용 가능성을 확인하였다.

차량용 임베디드 프로세서에서 저전력 반응적 제어를 위한 이기종 멀티코어 협력적 스트리밍 온-칩 소프트웨어 구조 (Collaborative Streamlined On-Chip Software Architecture on Heterogenous Multi-Cores for Low-Power Reactive Control in Automotive Embedded Processors)

  • 권지수;박대진
    • 대한임베디드공학회논문지
    • /
    • 제17권6호
    • /
    • pp.375-382
    • /
    • 2022
  • This paper proposes a multi-core cooperative computing structure considering the heterogeneous features of automotive embedded on-chip software. The automotive embedded software has the heterogeneous execution flow properties for various hardware drives. Software developed with a homogeneous execution flow without considering these properties will incur inefficient overhead due to core latency and load. The proposed method was evaluated on an target board on which a automotive MCU (micro-controller unit) with built-in multi-cores was mounted. We demonstrate an overhead reduction when software including common embedded system tasks, such as ADC sampling, DSP operations, and communication interfaces, are implemented in a heterogeneous execution flow. When we used the proposed method, embedded software was able to take advantage of idle states that occur between heterogeneous tasks to make efficient use of the resources on the board. As a result of the experiments, the power consumption of the board decreased by 42.11% compared to the baseline. Furthermore, the time required to process the same amount of sampling data was reduced by 27.09%. Experimental results validate the efficiency of the proposed multi-core cooperative heterogeneous embedded software execution technique.

SDR(Software Defined Radio)에 적합한 네트워크 코프로세서 구조의 설계 (The Design of a Structure of Network Co-processor for SDR(Software Defined Radio))

  • 김현필;정하영;함동현;이용석
    • 한국통신학회논문지
    • /
    • 제32권2A호
    • /
    • pp.188-194
    • /
    • 2007
  • 디지털 컨버전스가 이루어지면서 무선기기들 간의 호환성은 단말기의 중요한 특성이 되었고, SDR은 가장 필요한 기술이고 표준이다. 하지만 통신 프로토콜이 다른 무선 환경에서 호환성을 갖는 단말기를 하드웨어만을 이용한 ASIC이나 SoC로 만들기는 어려운 실정이다. 그래서 본 논문은 여러 통신 프로토콜을 가속화 시킬 수 있는 코프로세서의 구조를 제안하였다. 메인 프로세서와 쉽게 연동이 되고, 네트워크의 PHY 레이어에 특화된 코프로세서가 바로 그것이다. 통신 시스템에서 가장 많이 사용하는 변조 방식인 OFDM과 CDM을 사용하는 무선 랜 표준 IEEE802.11a와 IEEE802.11b를 모델링한 C 프로그램을 ARM cross 컴파일러를 이용해 컴파일 하였고, Simplescalar-Arm 버전을 이용해 시뮬레이션 및 프로파일을 수행하였다. 프로파일 결과 비터비 연산과 부동 소수점 복소수 연산이 가장 많은 연산을 차지하였다. 프로파일 결과를 바탕으로 비터비 연산과 부동 소수점 복소수 연산을 가속화 할 수 있는 코프로세서를 제안하여 명령어를 추가했으며, 추가된 명령어는 Simplescalar-Arm 버전을 이용해 시뮬레이션 하였다. 시뮬레이션 결과 ARM 코어 하나만 사용 했을 때보다 비터비 연산은 약 4.5배, 부동 소수점 복소수 연산은 약 2배의 성능 향상을 보였다. IEEE802.11a에서는 일반 ARM 코어보다 약 3배의 성능 향상을 보였고, IEEE802.11b에서는 약 1.5배의 성능 향상의 보였다.

스마트팜 빅데이터 분석을 위한 이기종간 심층학습 기법 연구 (A Study on Deep Learning Methodology for Bigdata Mining from Smart Farm using Heterogeneous Computing)

  • 민재기;이동훈
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 2017년도 춘계공동학술대회
    • /
    • pp.162-162
    • /
    • 2017
  • 구글에서 공개한 Tensorflow를 이용한 여러 학문 분야의 연구가 활발하다. 농업 시설환경을 대상으로 한 빅데이터의 축적이 증가함과 아울러 실효적인 정보 획득을 위한 각종 데이터 분석 및 마이닝 기법에 대한 연구 또한 활발한 상황이다. 한편, 타 분야의 성공적인 심층학습기법 응용사례에 비하여 농업 분야에서의 응용은 초기 성장 단계라 할 수 있다. 이는 농업 현장에서 취득한 정보의 난해성 및 완성도 높은 생육/환경 모델링 정보의 부재로 실효적인 전과정 처리 기술 도출에 소요되는 시간, 비용, 연구 환경이 상대적으로 부족하기 때문일 것이다. 특히, 센서 기반 데이터 취득 기술 증가에 따라 비약적으로 방대해진 수집 데이터를 시간 복잡도가 높은 심층 학습 모델링 연산에 기계적으로 단순 적용할 경우 시간 효율적인 측면에서 성공적인 결과 도출에 애로가 있을 것이다. 매우 높은 시간 복잡도를 해결하기 위하여 제시된 하드웨어 가속 기능의 경우 일부 개발환경에 국한이 되어 있다. 일례로, 구글의 Tensorflow는 오픈소스 기반 병렬 클러스터링 기술인 MPICH를 지원하는 알고리즘을 공개하지 않고 있다. 따라서, 본 연구에서는 심층학습 기법 연구에 있어서, 예상 가능한 다양한 자원을 활용하여 최대한 연산의 결과를 빨리 도출할 수 있는 하드웨어적인 접근 방법을 모색하였다. 호스트에서 수행하는 일방적인 학습 알고리즘과 달리 이기종간 심층 학습이 가능하기 위해선 우선, NFS(Network File System)를 이용하여 데이터 계층이 상호 연결이 되어야 한다. 이를 위해서 고속 네트워크를 기반으로 한 NFS의 이용이 필수적이다. 둘째로 제한된 자원의 한계를 극복하기 위한 메모 공유 라이브러리가 필요하다. 셋째로 이기종간 프로세서에 최적화된 병렬 처리용 컴파일러를 이용해야 한다. 가장 중요한 부분은 이기종간의 처리 능력에 따른 작업을 고르게 분배할 수 있는 작업 스케쥴링이 수행되어야 하며, 이는 처리하고자 하는 데이터의 형태에 따라 매우 가변적이므로 해당 데이터 도메인에 대한 엄밀한 사전 벤치마킹이 수행되어야 한다. 이러한 요구조건을 대부분 충족하는 Open-CL ver1.2(https://www.khronos.org/opencl/)를 이용하였다. 최신의 Open-CL 버전은 2.2이나 본 연구를 위하여 준비한 4가지 이기종 시스템에서 모두 공통적으로 지원하는 버전은 1.2이다. 실험적으로 선정된 4가지 이기종 시스템은 1) Windows 10 Pro, 2) Linux-Ubuntu 16.04.4 LTS-x86_64, 3) MAC OS X 10.11 4) Linux-Ubuntu 16.04.4 LTS-ARM Cortext-A15 이다. 비교 분석을 위하여 NVIDIA 사에서 제공하는 Pascal Titan X 2식을 SLI로 구성한 시스템을 준비하였다. 개별 시스템에서 별도로 컴파일 된 바이너리의 이름을 통일하고, 개별 시스템의 코어수를 동일하게 균등 배분하여 100 Hz의 데이터로 입력이 되는 온도 정보와 조도 정보를 입력으로 하고 이를 습도정보에 Linear Gradient Descent Optimizer를 이용하여 Epoch 10,000회의 학습을 수행하였다. 4종의 이기종에서 총 32개의 코어를 이용한 학습에서 17초 내외로 연산 수행을 마쳤으나, 비교 시스템에서는 11초 내외로 연산을 마치는 결과가 나왔다. 기보유 하드웨어의 적절한 활용이 가능한 심층학습 기법에 대한 연구를 지속할 것이다

  • PDF

PCI Express 기반 OpenSHMEM 초기 설계 및 구현 (Design and Implementation of Initial OpenSHMEM Based on PCI Express)

  • 주영웅;최민
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제6권3호
    • /
    • pp.105-112
    • /
    • 2017
  • PCI Express는 고속, 저전력 등의 특성으로 인하여 프로세서와 주변 I/O 장치들을 연결하는 업계 표준의 버스 기술이다. PCI Express는 최근 고성능 컴퓨터나 클러스터/클라우드 컴퓨팅 등의 분야에서 시스템 인터커넥션 네트워크로서 그 활용가능성을 검증하고 있는 추세이다. PCI Express가 시스템 인터커넥션 네트워크로서 활용가능하게 된 계기는 PCI Express에 NTB(non-transparent bridge) 기술이 도입되면서부터이다. NTB 기술은 물리적으로 두 PCI Express subsystem을 연결가능하도록 하지만, 필요할 경우 논리적인 격리(isolation)를 제공하는 특징이 있다. 또한, PGAS(partitioned global address space)와 같은 공유 주소 공간(shared address space) 프로그래밍 모델은 최근 멀티코어 프로세서의 보편화로 인하여 병렬컴퓨팅 프레임워크로 각광받고 있다. 따라서, 본 논문에서는 차세대 병렬컴퓨팅 플랫폼을 위하여 PCI Express 환경에서 OpenSHMEM을 구현하기 위한 초기 OpenSHMEM API를 설계 및 구현하였다. 본 연구에서 구현한 15가지 OpenSHMEM API의 정확성을 검증하기 위해서 Github의 openshmem-example 벤치마크의 수행을 통하여 확인하였다. 현재 시중에서는 PCI Express 기반 인터커넥션 네트워크는 가격이 매우 비싸고 아직 일반인이 사용하기 용이하도록 NIC형태로 널리 보급되지 않은 실정이다. 이러한 기술개발 초기단계에서 본 연구는 PCI Express 기반 interconnection network를 RDK(evaluation board) 수준에서 실제로 동작하는 실험환경을 구축하고, 여기에 추가로 최근 각광받는 OpenSHMEM software stack를 자체적으로 구현하였다는 데 의의가 있다.