• 제목/요약/키워드: Deep Learning Accelerator

검색결과 18건 처리시간 0.02초

FMCW 레이다 센서 기반 사람과 사물 분류 시스템 설계 및 구현 (Design and Implementation of Human and Object Classification System Using FMCW Radar Sensor)

  • 심윤성;송승준;장선영;정윤호
    • 전기전자학회논문지
    • /
    • 제26권3호
    • /
    • pp.364-372
    • /
    • 2022
  • 본 논문에서는 FMCW(frequency modulated continuous wave) 레이다 센서를 활용한 사람과 사물을 분류하는 시스템 설계 및 구현 결과를 제시한다. 해당 시스템은 다중 객체 탐지를 위한 레이다 센서 신호처리 과정과 객체를 사람 및 사물로 분류하는 딥러닝 과정을 수행한다. 딥러닝의 경우 높은 연산량과 많은 양의 메모리를 요구하기 때문에 경량화가 필수적이다. 따라서 CNN (convolution neural network) 연산을 이진화하여 동작하는 BNN (binary neural network) 구조를 적용하였으며, 실시간 동작을 위해 하드웨어 가속기를 설계하고 FPGA 보드 상에서 구현 및 검증하였다. 성능 평가 및 검증 결과 90.5%의 다중 객체 구분 정확도, CNN 대비 96.87% 감소된 메모리 구현이 가능하며, 총 수행 시간은 5ms로 실시간 동작이 가능함을 확인하였다.

딥러닝 기반 다중 객체 추적 모델을 활용한 조식성 무척추동물 현존량 추정 기법 연구 (A Study on Biomass Estimation Technique of Invertebrate Grazers Using Multi-object Tracking Model Based on Deep Learning)

  • 박수호;김흥민;이희원;한정익;김탁영;임재영;장선웅
    • 대한원격탐사학회지
    • /
    • 제38권3호
    • /
    • pp.237-250
    • /
    • 2022
  • 본 연구에서는 딥러닝 기반 다중 객체 추적 모델을 활용하여 수중드론으로 촬영된 영상으로부터 특정 해역의 조식동물 현존량을 추정하는 방법을 제안한다. 수중드론 영상 내에 포함된 조식동물을 클래스 별로 탐지하기 위해 YOLOv5 (You Only Look Once version 5)를 활용하였으며, 개체수 집계를 위해 DeepSORT (Deep Simple Online and real-time tracking)를 활용하였다. GPU 가속기를 활용할 수 있는 워크스테이션 환경에서 두 모델의 성능 평가를 수행하였으며, YOLOv5 모델은 평균 0.9 이상의 모델의 정확도(mean Average Precision, mAP)를 보였으며, YOLOv5s 모델과 DeepSORT 알고리즘을 활용하였을 때, 4 k 해상도 기준 약 59 fps의 속도를 보이는 것을 확인하였다. 실해역 적용 결과 약 28%의 과대 추정하는 경향이 있었으나 객체 탐지 모델만 활용하여 현존량을 추정하는 것과 비교했을 때 오차 수준이 낮은 것을 확인하였다. 초점을 상실한 프레임이 연속해서 발생할 때와 수중드론의 조사 방향이 급격히 전환되는 환경에서의 정확도 향상을 위한 후속 연구가 필요하지만 해당 문제에 대한 개선이 이루어진다면, 추후 조식동물 구제 사업 및 모니터링 분야의 의사결정 지원자료 생산에 활용될 수 있을 것으로 판단된다.

차량 검출용 CNN 분류기의 실시간 처리를 위한 하드웨어 설계 (A Real-Time Hardware Design of CNN for Vehicle Detection)

  • 방지원;정용진
    • 전기전자학회논문지
    • /
    • 제20권4호
    • /
    • pp.351-360
    • /
    • 2016
  • 최근 딥 러닝을 중심으로 빠르게 발전하고 있는 기계학습 분류 알고리즘은 기존의 방법들보다 뛰어난 성능으로 인하여 주목받고 있다. 딥 러닝 중에서도 Convolutional Neural Network(CNN)는 영상처리에 뛰어나 첨단 운전자 보조 시스템(Advanced Driver Assistance System : ADAS)에서 많이 사용되고 있는 추세이다. 하지만 차량용 임베디드 환경에서 CNN을 소프트웨어로 동작시켰을 때는 각 Layer마다 연산이 반복되는 알고리즘의 특성으로 인해 수행시간이 길어져 실시간 처리가 어렵다. 본 논문에서는 임베디드 환경에서 CNN의 실시간 처리를 위하여 Convolution 연산 및 기타 연산들을 병렬로 처리하여 CNN의 속도를 향상시키는 하드웨어 구조를 제안한다. 제안하는 하드웨어의 성능을 검증하기 위하여 Xilinx ZC706 FPGA 보드를 이용하였다. 입력 영상은 $36{\times}36$ 크기이며, 동작주파수 100MHz에서 하드웨어 수행시간은 약 2.812ms로 실시간 처리가 가능함을 확인했다.

장단기 메모리 기반 노인 낙상감지에 대한 연구 (Study of fall detection for the elderly based on long short-term memory(LSTM))

  • 정승수;유윤섭
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.249-251
    • /
    • 2021
  • 본 논문에서는 노령층 인구가 도보시 일어날 수 있는 낙상상황을 텐서플로워를 이용하여 인지하기 위한 시스템에 대하여 소개한다. 낙상감지는 고령자의 몸에 착용한 가속센서 데이터에 대해서 텐서플로워를 이용하여 학습된 LSTM(long short-term memory)을 기반하여 낙상과 일상생활을 판별한다. 각각 7가지의 행동 패턴들에 대하여 학습을 실행하며, 4가지는 일상생활에서 일어나는 행동 패턴이고, 나머지 3가지는 낙상시의 패턴에 대하여 학습한다. 3축 가속도 센서의 가공하지 않은 데이터와 가공한 SVM(Sum Vector Magnitude)를 이용하여 LSTM에 적용해서 학습하였다. 이 두 가지 경우에 대해서 테스트한 결과 데이터를 혼합하여 학습하면 더 좋은 결과를 기대할 수 있을 것으로 예상된다.

  • PDF

Computational Science-based Research on Dark Matter at KISTI

  • Cho, Kihyeon
    • Journal of Astronomy and Space Sciences
    • /
    • 제34권2호
    • /
    • pp.153-159
    • /
    • 2017
  • The Standard Model of particle physics was established after discovery of the Higgs boson. However, little is known about dark matter, which has mass and constitutes approximately five times the number of standard model particles in space. The cross-section of dark matter is much smaller than that of the existing Standard Model, and the range of the predicted mass is wide, from a few eV to several PeV. Therefore, massive amounts of astronomical, accelerator, and simulation data are required to study dark matter, and efficient processing of these data is vital. Computational science, which can combine experiments, theory, and simulation, is thus necessary for dark matter research. A computational science and deep learning-based dark matter research platform is suggested for enhanced coverage and sharing of data. Such an approach can efficiently add to our existing knowledge on the mystery of dark matter.

Resolving Memory Bottlenecks in Hardware Accelerators with Data Prefetch

  • Hyein Lee;Jinoo Joung
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권6호
    • /
    • pp.1-12
    • /
    • 2024
  • 최근 다양한 분야에서 딥러닝이 사용되면서, 더 빠르고 정확한 결과를 내는 딥러닝이 더욱 중요해졌다. 이를 위해서는 많은 양의 저장 공간이 필요하고, 대용량 연산을 진행해야 한다. 이에 따라 여러 연구는 빠르고 정확하게 연산 처리가 가능한 하드웨어 가속기를 이용한다. 하지만 하드웨어 가속기는 CPU와 하드웨어 사이를 이동하면서 병목현상이 발생하게 된다. 따라서 본 논문에서는 하드웨어 가속기의 병목현상을 효율적으로 줄일 수 있는 데이터 프리패치 전략을 제안한다. 데이터 프리패치 전략의 핵심 아이디어는 Matrix Multiplication Unit(MMU)가 연산을 진행하는 동안 다음 연산에 필요한 데이터를 예측하여 로컬 메모리로 올려 병목현상을 줄인다. 또한, 이 전략은 듀얼 버퍼를 이용하여 읽고 쓰는 두 가지 동작을 동시에 진행하여 처리율을 높인다. 이를 통해 데이터 전송의 지연시간 및 실행 시간을 감소시킨다. 시뮬레이션을 통해 듀얼 버퍼를 이용한 병렬 프로세싱과 데이터 프리패치를 이용한 메모리 간 병목현상을 최대한 감소시켜 하드웨어 가속기의 성능이 24% 향상함을 알 수 있다.

GPU 가속기를 통한 비트 연산 최적화 및 DNN 응용 (Bit Operation Optimization and DNN Application using GPU Acceleration)

  • 김상혁;이재흥
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1314-1320
    • /
    • 2019
  • 본 논문에서는 소프트웨어 환경에서 비트연산을 최적화 하고 DNN으로 응용하는 방법을 제안한다. 이를 위해 비트연산 최적화를 위한 패킹 함수와 DNN으로 응용을 위한 마스킹 행렬 곱 연산을 제안한다. 패킹 함수의 경우는 32bit의 실제 가중치값을 2bit로 변환하는 연산을 수행한다. 연산을 수행할 땐, 임계값 비교 연산을 통해 2bit 값으로 변환한다. 이 연산을 수행하면 4개의 32bit값이 1개의 8bit 메모리에 들어가게 된다. 마스킹 행렬 곱 연산의 경우 패킹된 가중치 값과 일반 입력 값을 곱하기 위한 특수한 연산으로 이루어져 있다. 그리고 각각의 연산은 GPU 가속기를 이용해 병렬로 처리되게 하였다. 그 결과 HandWritten 데이터 셋에 환경에서 32bit DNN 모델에 비해 약 16배의 메모리 절약을 볼 수 있었다. 그럼에도 정확도는 32bit 모델과 비슷한 1% 이내의 차이를 보였다.

연속파 레이다를 활용한 이진 신경망 기반 사람 식별 및 동작 분류 시스템 설계 및 구현 (Design and Implementation of BNN based Human Identification and Motion Classification System Using CW Radar)

  • 김경민;김성진;남궁호정;정윤호
    • 한국항행학회논문지
    • /
    • 제26권4호
    • /
    • pp.211-218
    • /
    • 2022
  • 연속파 레이다는 카메라나 라이다와 같은 센서에 비해서 안정성과 정확성이 보장된다는 장점이 있다. 또한 이진 신경망은 다른 딥러닝 기술에 비해서 메모리 사용량과 연산 복잡도를 크게 줄일 수 있는 특징이 있다. 따라서 본 논문에서는 연속파 레이다와 이진 신경망 기반 사람 식별 및 동작 분류 시스템을 제안한다. 연속파 레이다 센서를 통해 수신된 신호를 단시간 푸리에 변환함으로써 스펙트로그램을 생성한다. 이 스펙트로그램을 기반으로 레이다를 향해 사람이 다가오는지 감지하는 알고리즘을 제안한다. 더불어, 최적화된 이진 신경망 모델을 설계하여 사람 식별 90.0%, 동작 분류 98.3%의 우수한 정확도를 지원할 수 있음을 확인하였다. 이진 신경망 연산을 가속하기 위해 FPGA (field programmable gate array)를 이용하여 이진 신경망 연산에 대한 하드웨어 가속기를 설계하였다. 해당 가속기는 1,030개의 로직, 836개의 레지스터, 334.906 Kbit의 블록 메모리를 사용하여 구현되었고, 추론에서 결과 전송까지 총 연산 시간이 6 ms로 실시간 동작이 가능함을 확인하였다.