• 제목/요약/키워드: High-performance processor

검색결과 618건 처리시간 0.024초

WSN을 위한 128비트 확장된 데이터 블록을 갖는 고성능 HIGHT 설계 (High Performance HIGHT Design with Extended 128-bit Data Block Length for WSN)

  • 김승열;이제훈
    • 센서학회지
    • /
    • 제24권2호
    • /
    • pp.124-130
    • /
    • 2015
  • This paper presents a high performance HIGHT processor that can be applicable for CCM mode. In fact, HIGHT algorithm is a 64-bit block cipher. However, the proposed HIGHT extends the basic block length to 128-bit. The proposed HIGHT is operated as 128-bit block cipher and it can treat 128-bit block at once. Thus, it can be applicable for the various WSN applications that need fast and ultralight 128-bit block cipher, in particular, to be operated in CCM mode. In addition, the proposed HIGHT processor shares the common logics such as 128-bit key scheduler and control logics during encryption and decryption to reduce the area overhead caused by the extension of data block length. From the simulation results, the circuit area and power consumption of the proposed HIGHT are increases as 40% and 64% compared to the conventional 64-bit counterpart. However, the throughput of the proposed HIGHT can be up to two times as fast. Consequently, the proposed HIGHT is useful for USN and handheld devices based on battery as well as RFID tag the size of circuit is less than 5,000 gates.

Debugging of Parallel Programs using Distributed Cooperating Components

  • Mrayyan, Reema Mohammad;Al Rababah, Ahmad AbdulQadir
    • International Journal of Computer Science & Network Security
    • /
    • 제21권12spc호
    • /
    • pp.570-578
    • /
    • 2021
  • Recently, in the field of engineering and scientific and technical calculations, problems of mathematical modeling, real-time problems, there has been a tendency towards rejection of sequential solutions for single-processor computers. Almost all modern application packages created in the above areas are focused on a parallel or distributed computing environment. This is primarily due to the ever-increasing requirements for the reliability of the results obtained and the accuracy of calculations, and hence the multiply increasing volumes of processed data [2,17,41]. In addition, new methods and algorithms for solving problems appear, the implementation of which on single-processor systems would be simply impossible due to increased requirements for the performance of the computing system. The ubiquity of various types of parallel systems also plays a positive role in this process. Simultaneously with the growing demand for parallel programs and the proliferation of multiprocessor, multicore and cluster technologies, the development of parallel programs is becoming more and more urgent, since program users want to make the most of the capabilities of their modern computing equipment[14,39]. The high complexity of the development of parallel programs, which often does not allow the efficient use of the capabilities of high-performance computers, is a generally accepted fact[23,31].

유전 알고리즘 처리속도 향상을 위한 강화 프로세서 구조 (Enhanced Processor-Architecture for the Faster Processing of Genetic Algorithm)

  • 윤한얼;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제15권2호
    • /
    • pp.224-229
    • /
    • 2005
  • 일반적으로 유전 알고리즘은 전형적인 프로세서에서 수행할 경우 매우 큰 시간 공간 복잡도를 가진다. 따라서 유전 알고리즘 처리를 위해서는 고성능$\cdot$고가격의 프로세서를 필요로 하게 된다. 또한 이것은 유전 알고리즘을 소형 이동 로봇과 같이 비교적 간단한 룰을 필요로 하는 실제 하드웨어에 적용하는데 있어 큰 장벽으로 작용한다. 이러한 문제의 해결을 위해, 본 논문에서는 유전 알고리즘의 신속한 처리를 위해 강화된 프로세서 구조를 보인다. 정렬 네트워크와 residue number system (RNS)를 이용하여 일반적인 프로세서의 구조를 유전 알고리즘의 처리에 효율적이도록 강화할 수 있다. 정렬 네트워크는 유전 알고리즘에 필수적인 해들의 품질 비교를 하드웨어적으로 처리할 수 있게 하여 수행에 요구되는 시간을 줄일 수 있다. RNS는 산술 연산의 속도를 좌우하는 bit 사이즈를 줄여 전체적인 로직의 사이즈를 줄이고, 산술 연산의 처리 속도를 빠르게 할 수 있다.

PCI 기반 LEON2-FT 프로세서를 위한 시스템 소프트웨어 설계 및 시뮬레이션 (System Software Design and Simulation for LEON2-FT Processor based on PCI)

  • 최종욱;남병규
    • 한국위성정보통신학회논문지
    • /
    • 제8권1호
    • /
    • pp.54-60
    • /
    • 2013
  • 인공위성의 임무가 다양해지고 요구사항이 높아짐에 따라 탑재컴퓨터의 성능 향상이 필수적으로 대두되었으며, 인공위성 탑재컴퓨터의 활용도를 높이기 위해 표준화 설계 및 시스템 재구성이 가능한 모듈화 기반으로 개발 되고 있다. 현재 한국항공우주연구원에서 개발 중인 차세대 인공위성의 탑재컴퓨터 경우 높은 성능을 제공하기 위해 SPARC v8 기반의 LEON2-FT/ AT697F 프로세서를 채택하였으며 SpaceWire, MIL-STD-1553B, CAN 등의 다양한 통신 디바이스들을 표준화 된 통신칩으로 구성하여 프로세서에서 PCI 통신을 통해 각종 디바이스들을 제어 및 통신 할 수 있도록 개발 하고 있다. 본 논문에서 차세대 탑재컴퓨터의 LEON2-FT 프로세서와 PCI 기반에서의 시스템 소프트웨어 개발 방안에 대해서 기술하며, PCI 소프트웨어 컴포넌트 설계 및 실시간 운영체제인 VxWorks 6.5 포팅 그리고 개발 된 시스템 소프트웨어를 검증하기 위한 시뮬레이션 방안을 제시한다.

QEMU를 기반으로 한 ERC32 프로세서 에뮬레이터 개발 (Development ERC32 Processor Emulator based on QEMU)

  • 최종욱;신현규;이재승;천이진
    • 항공우주기술
    • /
    • 제10권2호
    • /
    • pp.105-113
    • /
    • 2011
  • 위성 탑재소프트웨어를 개발하는 과정에서 프로세서 에뮬레이터와 위성 시뮬레이터는 핵심툴로서, 소프트웨어 개발과 검증 단계에서 사용되며 실제 하드웨어를 대체할 수 있는 수준까지 활용이 가능하다. 현재 한국항공우주연구원에서 개발 중인 저궤도 위성의 탑재컴퓨터의 프로세서는 SPARC v7 기반의 MCM-ERC32SC 프로세서를 사용하며, 프로세서 에뮬레이터의 경우Aeroflex Gaisler에서 판매되는 TSIM-ERC32 에뮬레이터를 사용한다. 국내 인공위성 개발 시 ERC32 프로세서를 계속 사용할 경우 TSIM-ERC32의 제한 조건과 종속성을 벗어날 필요가 있으며, 추후 위성 시뮬레이터 개발 시 고성능의 프로세서 에뮬레이터가 요구되기 때문에 새로운 프로세서 에뮬레이터 개발 필요성이 지속적으로 대두되었다. 본 논문에서는 첫 번째 단계로 공개형 프로세서 에뮬레이터인 QEMU를 기반으로 ERC32 프로세서 에뮬레이터 개발 방법에 대해서 기술하며 개발 된 에뮬레이터 상에서의 소프트웨어 개발 및 디버깅 방법에 대해서 설명한다.

멀티 프로세서 시스템-온-칩(MPSoC)을 위한 버스 매트릭스 구조의 빠르고 정확한 성능 예측 기법 (Fast and Accurate Performance Estimation of Bus Matrix for Multi-Processor System-on-Chip (MPSoC))

  • 김성찬;하순회
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권11호
    • /
    • pp.527-539
    • /
    • 2008
  • 본 논문은 큐잉 이론을 이용한 멀티 프로세서 시스템-온-칩(MPSoC)의 버스 매트릭스 기반 통신 구조에 대한 성능 예측 기법을 제안한다. 버스 매트릭스 기반 통신 구조는 다양한 설계 인자를 가지고 있어 이에 대한 성능 최적화는 방대한 설계 공간의 탐색을 필요로 하지만, 현재 널리 사용되고 있는 시뮬레이션에 기반한 방법은 많은 시간을 요하기 때문에 점점 짧아지고 있는 시장 적기 출하(time-to-market) 제약 조건을 만족하기 어렵다. 이러한 문제를 해결하기 위하여 본 논문에서는 시뮬레이션보다 훨씬 빠르면서 정확하게 성능을 예측할 수 있는 기법을 개발하였다. 제안한 성능 분석 기법은 고성능의 버스 매트릭스를 위해 사용되는 버스 프로토콜인 multiple outstanding transaction을 고려한다. 또한 지수 분포(exponential distribution)를 이용하여 비현실적으로 메모리 시스템을 모델하였던 기존의 연구들과 달리 실제적인 메모리 시스템 모델을 위하여 일반 분포(general distribution)를 이용하였다. 제안한 성능 예측 기법의 정확도 및 효율성을 검증하기 위하여 무작위로 생성된 버스 트랜잭션들과 4-채널 DVR 예제에 적용하였을 때, 사이클 단위의 정확도를 갖는 시뮬레이션과 비교하여 $10^5$배 이상 빠르면서 평균 94% 이상의 정확도를 갖는 것으로 분석되었다.

슈퍼스칼라 프로세서에서 값 예측을 이용한 모험적 실행의 전력소모 측정 및 분석 (Measurement and Analysis of Power Dissipation of Value Speculation in Superscalar Processors)

  • 이상정;이명근;신화정
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권12호
    • /
    • pp.724-735
    • /
    • 2003
  • 최근의 고성능 슈퍼스칼라 프로세서에서는 명령어 수준 병렬성(Instruction-Level Parallelism, ILP)의 장애가 되는 명령어 간의 데이타 종속관계를 극복하기 위해 명령의 결과 값을 미리 예측하여 종속 명령들을 모험적으로 실행한다. 이러한 값 예측을 사용한 모험적 실행으로 성능은 향상되나 값 예측 테이블의 빈번한 참조와 갱신으로 부가적인 전력 소모를 요구한다. 본 논문에서는 값 예측으로 인한 성능향상과 부가적인 전력소모 간의 관계를 측정 분석한다. 또한 확신 카운터(confidence counter)를 사용한 값 예측 시도의 조정으로 모험적 실행의 정도를 조절하고, 예측 성공률이 높은 유용한 명령들만을 선택적으로 예측하여 성능을 유지하면서 부가 전력소모를 줄인다. 제안된 방식의 검증을 위해 사이클 수준 시뮬레이터에 전력소모 모델을 결합하여 프로세서의 기능수준 동작뿐만 아니라 프로세서의 전체 전력소모 및 사이클 당 전력소모도 측정할 수 있는 도구를 개발하여 검증한다.

확장 버퍼 캐쉬의 설계 및 성능 평가 (Design and Performance Evaluation of Expansion Buffer Cache)

  • 홍원기
    • 정보처리학회논문지A
    • /
    • 제11A권7호
    • /
    • pp.489-498
    • /
    • 2004
  • VLIW 프로세서는 간단한 하드웨어 구조로 인해 저전력 및 고성능을 제공하여 임베디드 시스템에 매우 적합한 프로세서 구조로 인식되고 있다. 그러나 VLIW 프로세서는 동시에 수행 가능한 명령어들의 집합인 명령어 패킷 길이가 일정하지 않기 때문에 메모리 접근 지연 시간이 늘어나는 문제점을 안고 있다. 이는 가변 길이의 명령어 패킷으로 인해 일부 명령어 패킷이 두개의 캐쉬 블록에 걸쳐 있게 되고(스트래들 명령어 패킷), 이러한 명령어 패킷을 읽어 오기 위해 두 번의 캐쉬 접근이 요구되기 때문이다. 본 논문에서는 명령어 인출 대역폭을 높여줄 뿐만 아니라 명령어 캐쉬의 전력 소모를 낮춰주는 확장 버퍼 캐쉬를 제안한다. 확장 버퍼 캐쉬는 메인 캐쉬와 함께 스트래들 명령어 패킷의 일부를 저장하기 위한 소량의 확장 버퍼 캐쉬를 갖고 있으며 스트래들 명령어 패킷으로 인해 추가적으로 발생하는 캐쉬 접근을 줄여준다. 실험 결과 스트래들 명령어 패킷으로 인한 캐쉬 접근을 줄여 줌으로써 확장 버퍼 캐쉬는 기존 명령어 캐쉬에 비해 약 $5{\~}9{\%}$의 성능 전력${\cdot}$비용 향상을 가져옴을 확인할 수 있었다.

ECB/CTR 운영모드를 지원하는 8.3 Gbps 파이프라인 LEA 암호/복호 프로세서 (8.3 Gbps pipelined LEA Crypto-Processor Supporting ECB/CTR Modes of operation)

  • 성미지;신경욱
    • 한국정보통신학회논문지
    • /
    • 제20권12호
    • /
    • pp.2333-2340
    • /
    • 2016
  • 128/192/256-비트의 3가지 마스터키 길이와 ECB, CTR 운영모드를 지원하는 LEA (Lightweight Encryption Algorithm) 암호/복호 프로세서를 설계하였다. 라운드 블록을 16단 파이프라인 구조와 128 비트 데이터패스로 구현하여 고속 암호/복호 처리가 이루어지도록 하였다. 마스터키 길이에 따라 12/14/16 파이프라인 스테이지를 거쳐 암호/복호화가 이루어지며, 각 파이프라인 스테이지에서는 라운드 변환이 2회 반복 수행된다. 세 가지 마스터키 길이에 대한 암호/복호 키 스케줄링의 하드웨어 자원이 공유되도록 설계를 최적화하였다. 키 스케줄러에서 생성되는 라운드키는 32개의 라운드키 레지스터에 저장되어 마스터키가 갱신될 때까지 반복적으로 사용된다. 설계된 LEA 프로세서는 FPGA 구현을 통해 하드웨어 동작을 검증하였으며, Xilinx ISE를 이용한 합성 결과로 최대 동작 주파수 130 MHz에서 8.3 Gbps의 성능을 갖는 것으로 평가되었다.

High-Performance Korean Morphological Analyzer Using the MapReduce Framework on the GPU

  • Cho, Shi-Won;Lee, Dong-Wook
    • Journal of Electrical Engineering and Technology
    • /
    • 제6권4호
    • /
    • pp.573-579
    • /
    • 2011
  • To meet the scalability and performance requirements of data analyses, which often involve voluminous data, efficient parallel or concurrent algorithms and frameworks are essential. We present a high-performance Korean morphological analyzer which employs the MapReduce framework on the graphics processing unit (GPU). MapReduce is a programming framework introduced by Google to aid the development of web search applications on a large number of central processing units (CPUs). GPUs are designed as a special-purpose co-processor. Their programming interfaces are typically formulated for graphics applications. Compared to CPUs, GPUs have greater computation power and memory bandwidth; however, GPUs are more difficult to program because of the design of their architectures. The performance of the Korean morphological analyzer using the MapReduce framework on the GPU is evaluated in comparison with the CPU-based model. The proposed Korean Morphological analyzer shows promising scalable performance on distributed computing with the GPU.