• Title/Summary/Keyword: 하드웨어 가속기

Search Result 125, Processing Time 0.027 seconds

CNN Accelerator Architecture using 3D-stacked RRAM Array (3차원 적층 구조 저항변화 메모리 어레이를 활용한 CNN 가속기 아키텍처)

  • Won Joo Lee;Yoon Kim;Minsuk Koo
    • Journal of IKEEE
    • /
    • v.28 no.2
    • /
    • pp.234-238
    • /
    • 2024
  • This paper presents a study on the integration of 3D-stacked dual-tip RRAM with a CNN accelerator architecture, leveraging its low drive current characteristics and scalability in a 3D stacked configuration. The dual-tip structure is utilized in a parallel connection format in a synaptic array to implement multi-level capabilities. It is configured within a Network-on-chip style accelerator along with various hardware blocks such as DAC, ADC, buffers, registers, and shift & add circuits, and simulations were performed for the CNN accelerator. The quantization of synaptic weights and activation functions was assumed to be 16-bit. Simulation results of CNN operations through a parallel pipeline for this accelerator architecture achieved an operational efficiency of approximately 370 GOPs/W, with accuracy degradation due to quantization kept within 3%.

An Efficient Hardware Implementation of CABAC Using H/W-S/W Co-design (H/W-S/W 병행설계를 이용한 CABAC의 효율적인 하드웨어 구현)

  • Cho, Young-Ju;Ko, Hyung-Hwa
    • Journal of Advanced Navigation Technology
    • /
    • v.18 no.6
    • /
    • pp.600-608
    • /
    • 2014
  • In this paper, CABAC H/W module is developed using co-design method. After entire H.264/AVC encoder was developed with C using reference SW(JM), CABAC H/W IP is developed as a block in H.264/AVC encoder. Context modeller of CABAC is included on the hardware to update the changed value during binary encoding, which enables the efficient usage of memory and the efficient design of I/O stream. Hardware IP is co-operated with the reference software JM of H.264/AVC, and executed on Virtex-4 FX60 FPGA on ML410 board. Functional simulation is done using Modelsim. Compared with existing H/W module of CABAC with register-level design, the development time is reduced greatly and software engineer can design H/W module more easily. As a result, the used amount of slice in CABAC is less than 1/3 of that of CAVLC module. The proposed co-design method is useful to provide hardware accelerator in need of speed-up of high efficient video encoder in embedded system.

Design and Implementation of a 3D Graphic Acceleration Device Driver for Embedded Systems (임베디드 시스템을 위한 3차원 그래픽 가속 장치 구동기의 설계 및 구현)

  • Kim, Seong-Woo;Lee, Jung-Hwa;Lee, Jong-Min
    • Journal of Korea Multimedia Society
    • /
    • v.10 no.9
    • /
    • pp.1209-1219
    • /
    • 2007
  • It is difficult to run 3D graphics based application on the embedded system with hardware constraints. Therefore, such a system must have a systematic infrastructure which can process various operations with respect to 3D graphics through any graphic acceleration module. In this paper, we present a method to implement 3D graphics acceleration device driver on Tiny X platform which provide an open source graphics windowing environment. The proposed method is to initialize the driver step by step so that the direct rendering infrastructure can use it properly. Moreover, we evaluated overall 3D graphics performance of an implemented driver through a simple but effective benchmark program.

  • PDF

Study on Multiple sparse matrix-matrix multiplication hardware accelerator (다중 희소 행렬-행렬 곱셈 하드웨어 가속기 연구)

  • Tae-Hyoung Kim;Yeong-Pil Cho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.47-50
    • /
    • 2024
  • 희소 행렬은 대부분의 요소가 0 인 행렬이다. 이러한 희소 행렬-행렬 곱셈을 수행할 경우 0 인 데이터 또한 곱셈을 수행하니 불필요한 연산이 발생한다. 이러한 문제를 해결하고자 행렬 압축 알고리즘 또는 곱셈의 부분합의 수를 줄이는 연구들이 활발히 진행 중이다. 하지만 현재의 연구들은 주로 단일 행렬 연산에 집중되어 있어 FPGA(Field Programmable Gate Array)와 특정 용도로 사용하는 가속기에서는 리소스를 충분히 활용하지 못해 비효율적이다. 본 연구는 FPGA 의 모든 리소스를 사용하여 다중 희소 행렬 곱셈을 수행하는 아키텍처를 제안한다.

A High-speed Pattern Matching Acceleration System for Network Intrusion Prevention Systems (네트워크 침입방지 시스템을 위한 고속 패턴 매칭 가속 시스템)

  • Kim Sunil
    • The KIPS Transactions:PartA
    • /
    • v.12A no.2 s.92
    • /
    • pp.87-94
    • /
    • 2005
  • Pattern matching is one of critical parts of Network Intrusion Prevention Systems (NIPS) and computationally intensive. To handle a large number of attack signature fattens increasing everyday, a network intrusion prevention system requires a multi pattern matching method that can meet the line speed of packet transfer. In this paper, we analyze Snort, a widely used open source network intrusion prevention/detection system, and its pattern matching characteristics. A multi pattern matching method for NIPS should efficiently handle a large number of patterns with a wide range of pattern lengths and case insensitive patterns matches. It should also be able to process multiple input characters in parallel. We propose a multi pattern matching hardware accelerator based on Shift-OR pattern matching algorithm. We evaluate the performance of the pattern matching accelerator under various assumptions. The performance evaluation shows that the pattern matching accelerator can be more than 80 times faster than the fastest software multi-pattern matching method used in Snort.

Novel IME Instructions and their Hardware Architecture for Fast Search Algorithm (고속 탐색 알고리즘에 적합한 움직임 추정 전용 명령어 및 구조 설계)

  • Bang, Ho-Il;SunWoo, Myung-Hoon
    • Journal of the Institute of Electronics Engineers of Korea SD
    • /
    • v.48 no.12
    • /
    • pp.58-65
    • /
    • 2011
  • This paper presents an ASIP (Application-specific Instruction Processor) for motion estimation that employs specific IME instructions and its programmable and reconfigurable hardware architecture for various video codecs, such as H.264/AVC, MPEG4, etc. With the proposed specific instructions and variable point 2D SAD hardware accelerator, it can handle the real-time processing requirement of High Definition (HD) video. With the SAD unit and its parallel operations using pattern information, the proposed IME instructions support not only full search algorithms but also other fast search algorithms. The hardware size is 25.5K gates for each Processing Element Group (PEG) which has 128 SAD Processor Elements (PEs). The proposed ASIP has been verified by the Synopsys Processor Designer and implemented by the Design Compiler using the IBM 90nm process technology. The hardware size is 453K gates for the IME unit and the operating frequency is 188MHz for 1080p@30 frame in real time. The proposed ASIP can reduce the hardware size about 26% and the number of operation cycles about 18%.

고속 디지털 포렌식 기술

  • Kim, Keon-Woo;Hong, Do-Won
    • Review of KIISC
    • /
    • v.19 no.5
    • /
    • pp.45-51
    • /
    • 2009
  • 개인용 컴퓨터의 디스크 용량 증가와 저장, 분석되어야 하는 방대한 양의 데이터는 포렌식 수집과 분석 시간을 점점 더 요구하고 있다. 이에 ETRI는 대용량 데이터에 대한 고속 수집 및 검색, 분석을 가능하게 하는 고속 포렌식 시스템을 개발하였다. 포렌식 분석은 질의어에 대한 검색의 연속된 과정이라고도 할 수 있어 고속 포렌식 시스템은 하드웨어 가속기를 이용하거나 인덱스를 구축하여 고속으로 데이터를 검색하는 기술을 제공한다. 또한, 안티포렌식 기법중 하나인 파일 암호화는 문서 열람을 불가능하게 해 증거 발견을 어렵게 한다. 이에 고속 포렌식 시스템은 제한된 수사 시간을 고려하여 고속으로 패스워드를 해독하는 기능을 제공한다.

Hardware Design of SURF-based Feature extraction and description for Object Tracking (객체 추적을 위한 SURF 기반 특이점 추출 및 서술자 생성의 하드웨어 설계)

  • Do, Yong-Sig;Jeong, Yong-Jin
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.50 no.5
    • /
    • pp.83-93
    • /
    • 2013
  • Recently, the SURF algorithm, which is conjugated for object tracking system as part of many computer vision applications, is a well-known scale- and rotation-invariant feature detection algorithm. The SURF, due to its high computational complexity, there is essential to develop a hardware accelerator in order to be used on an IP in embedded environment. However, the SURF requires a huge local memory, causing many problems that increase the chip size and decrease the value of IP in ASIC and SoC system design. In this paper, we proposed a way to design a SURF algorithm in hardware with greatly reduced local memory by partitioning the algorithms into several Sub-IPs using external memory and a DMA. To justify validity of the proposed method, we developed an example of simplified object tracking algorithm. The execution speed of the hardware IP was about 31 frame/sec, the logic size was about 74Kgate in the 30nm technology with 81Kbytes local memory in the embedded system platform consisting of ARM Cortex-M0 processor, AMBA bus(AHB-lite and APB), DMA and a SDRAM controller. Hence, it can be used to the hardware IP of SoC Chip. If the image processing algorithm akin to SURF is applied to the method proposed in this paper, it is expected that it can implement an efficient hardware design for target application.

Improvement Performance of Location Predictor Using Accelerometer and Attitude Sensor on Smart Phone (스마트폰의 가속도계 및 자세계를 활용한 위치예측기 성능 향상 방안)

  • Oh, Joon-Whan;Kim, Min-Su;Lee, Young-Jun;Chae, Jin-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06d
    • /
    • pp.293-296
    • /
    • 2010
  • 최근의 스마트폰은 UI 또는 엔터테인먼트의 목적으로 가속도계 및 자세계를 제공하고 있으며 이들 정보를 이용한 게임 등의 엔터테인먼트 어플리케이션은 물론 좌표 등의 위치 정보를 통한 위치기반 서비스도 이미 제공중이다. 늘어가는 위치정보 서비스 내에서의 공간정보 질의회수 및 예측회수 증가는 장차 위치정보 서비스 제공에 있어 서버측 인프라에 부하를 증대시킬 수 있다. 이에 이들 하드웨어가 제공하는 가속도 및 방위각을 활용하여 속도 및 진행방향 정보를 생성하고 이를 위치예측기에 활용하여 연산 속도 및 예측의 정확성 등의 성능을 향상시킬 수 있는 방안을 제시한다.

  • PDF

Functionality-based Processing-In-Memory Accelerator for Deep Neural Networks (딥뉴럴네트워크를 위한 기능성 기반의 핌 가속기)

  • Kim, Min-Jae;Kim, Shin-Dug
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.8-11
    • /
    • 2020
  • 4 차 산업혁명 시대의 도래와 함께 AI, ICT 기술의 융합이 진행됨에 따라, 유저 레벨의 디바이스에서도 AI 서비스의 요청이 실현되었다. 이미지 처리와 관련된 AI 서비스는 피사체 판별, 불량품 검사, 자율주행 등에 이용되고 있으며, 특히 Deep Convolutional Neural Network (DCNN)은 이미지의 특색을 파악하는 데 뛰어난 성능을 보여준다. 하지만, 이미지의 크기가 커지고, 신경망이 깊어짐에 따라 연산 처리에 있어 낮은 데이터 지역성과 빈번한 메모리 참조를 야기했다. 이에 따라, 기존의 계층적 시스템 구조는 DCNN 을 scalable 하고 빠르게 처리하는 데 한계를 보인다. 본 연구에서는 DCNN 의 scalable 하고 빠른 처리를 위해 3 차원 메모리 구조의 Processing-In-Memory (PIM) 가속기를 제안한다. 이를 위해 기존 3 차원 메모리인 Hybrid Memory Cube (HMC)에 하드웨어 및 소프트웨어 모듈을 추가로 구성하였다. 구체적으로, Processing Element (PE)간 데이터를 공유할 수 있는 공유 캐시 및 소프트웨어 스택, 파이프라인화된 곱셈기 및 듀얼 프리페치 버퍼를 구성하였다. 이를 유명 DCNN 알고리즘 LeNet, AlexNet, ZFNet, VGGNet, GoogleNet, RestNet 에 대해 성능 평가를 진행한 결과 기존 HMC 대비 40.3%의 속도 향상을 29.4%의 대역폭 향상을 보였다.