• 제목/요약/키워드: GPU-Based Acceleration

검색결과 56건 처리시간 0.021초

실시간 SAR 영상 생성을 위한 Range Doppler Algorithm의 GPU 가속 (GPU Acceleration of Range Doppler Algorithm for Real-Time SAR Image Generation)

  • 정동민;이우경;이명진;정윤호
    • 전기전자학회논문지
    • /
    • 제27권3호
    • /
    • pp.265-272
    • /
    • 2023
  • 본 논문에서는 FMCW(Frequency Modulated Continuous Wave) SAR(Synthetic Aperture Radar) 기반 실시간 영상 형성을 위해 RDA(Range Doppler Algorithm)의 GPU 가속 커널을 개발하였다. Host와 GPU device 사이의 데이터 전송 시간을 최소화하기 위해 pinned 메모리를 사용하였고, 데이터의 전송 횟수를 최소화하기 위해 모든 RDA 연산을 GPU에서 수행하도록 커널을 구성하였다. FMCW 드론 SAR 실험을 통해 데이터셋를 획득하였고, intel i7-9700K CPU, 32GB RAM과 Nvidia RTX 3090 GPU 환경에서 GPU의 가속 효과를 측정하였다. Host-device간 데이터 전송 시간을 포함했을 경우 CPU 대비 최대 3.41배 가속된 것으로 측정되었고, 데이터 전송 시간을 포함하지 않고 연산의 가속 효과만을 측정했을 때, 최대 156배 가속 가능함을 확인할 수 있었다.

GPU 기반 임베디드 시스템에서 대용량 데이터의 안정적 수신을 위한 ECC 연산의 가속화 (Acceleration of ECC Computation for Robust Massive Data Reception under GPU-based Embedded Systems)

  • 권지수;박대진
    • 한국정보통신학회논문지
    • /
    • 제24권7호
    • /
    • pp.956-962
    • /
    • 2020
  • 최근 임베디드 시스템에서 사용되는 데이터의 크기가 증가함에 따라, 대용량의 데이터를 안전하게 수신하기 위한 ECC (Error Correction Code) 복호화 연산의 필요성이 강조되고 있다. 본 논문에서는 GPU가 내장된 임베디드 시스템에서 해밍 코드를 사용하여 ECC 복호화를 할 때, 신드롬 벡터를 계산하는 연산의 수행을 가속할 방법을 제안한다. 제안하는 가속화 방법은, 복호화 연산의 행렬-벡터 곱셈이 희소 행렬을 나타내는 자료 구조 중 하나인 CSR (Compressed Sparse Row) 형식을 사용하고, GPU의 CUDA 커널에서 병렬적으로 수행되도록 한다. 본 논문에서는 GPU가 내장된 실제 임베디드 보드를 사용하여 제안하는 방법을 검증하였고, 결과는 GPU 기반으로 가속된 ECC 복호화 연산이 CPU만을 사용한 경우에 비하여 수행 시간이 감소하는 것을 보여준다.

이동 목표물의 효율적인 위치 추정을 위한 파티클 필터 신호 처리의 GPU 기반 가속화 (GPU-based Acceleration of Particle Filter Signal Processing for Efficient Moving-target Position Estimation)

  • 김성섭;조정훈;박대진
    • 대한임베디드공학회논문지
    • /
    • 제12권5호
    • /
    • pp.267-275
    • /
    • 2017
  • Time of difference of arrival (TDOA) method using passive sonar sensor array has normally been used to estimate the location of a concealed moving target in underwater environment. Particle filter has been introduced for effective target estimation for non-Gaussian and nonlinear systems. In this paper, we propose a GPU-based acceleration of target position estimation using particle filter and propose efficient embedded system and software architecture. For the TDOA measurement from the passive sonar sensor, we use the generalized cross correlation phase transform (GCC-PHAT) method to obtain the correlation coefficient of the signal using FFT and we try to accelerate the calculation of GCC-PHAT based TDOA measurements using FFT with GPU CUDA. We also propose parallelization method of the target position estimation algorithm using the GPU CUDA to update the state of each particle for the target position estimation using the measured values. The target estimation algorithm was verified using Matlab and implemented using GPU CUDA. Then, we realized the proposed signal processing acceleration system using NVIDIA Jetson TX1 as the target board to analyze in terms of the execution time. The execution time of the algorithm is reduced by 55% to the CPU standalone-operation on the target board. Experiment results show that the proposed architecture is a feasible solution in terms of high-performance and area-efficient architecture.

광역 고해상도 홍수모의를 위한 2차원 모형의 GPU 가속기법 개발 및 실행시간 평가 (Development and run time assessment of the GPU accelerated technique of a 2-Dimensional model for high resolution flood simulation in wide area)

  • 최윤석;노희성;최천규
    • 한국수자원학회논문집
    • /
    • 제55권12호
    • /
    • pp.991-998
    • /
    • 2022
  • 본 연구의 목적은 넓은 지역의 고해상도 홍수모의를 위해서 2차원 모형의 GPU (Graphics Processing Unit) 가속 모의기법을 개발하고 이에 대한 효과를 평가하는 것이다. 음해법을 적용하고 있는 정형 사각형 격자 기반의 2차원 모형인 G2D (Grid based 2-Dimensional land surface flood model) 모형에서 CUDA를 이용하여 GPU 가속 모의 기법을 개발하였다. 개발된 기법을 진주시 홍수모의에 적용하였다. 모의 도메인의 공간해상도는 10 m × 10 m이고, 계산되는 격자의 개수는 총 5,090,611개이다. 홍수모의는 2019년 10월 태풍 미탁에 의한 홍수 기간에 대해서 수행하였다. 강우레이더 자료를 생성항으로 적용하였으며, 남강댐 일류문 계측 방류량과 진주시(옥산교) 계측 유량을 경계조건으로 적용하였다. 연구결과 진주시 남강에서의 관측수위를 재현할 수 있는 광역 2차원 홍수 모형을 구축할 수 있었다. 또한 GPU 가속 기법의 적용 결과, CPU (Central Processing Unit)를 이용한 순차계산 및 병렬계산에 비해서 빠른 홍수모의가 가능하였다. 본 연구의 결과는 음해법을 적용하고 있는 2차원 범람모형의 GPU 가속 기법의 개발과 광역 지표면 홍수해석에 대한 연구에 기여할 수 있을 것이다.

GPU 가속화를 통한 이미지 특징점 기반 RGB-D 3차원 SLAM (Image Feature-Based Real-Time RGB-D 3D SLAM with GPU Acceleration)

  • 이동화;김형진;명현
    • 제어로봇시스템학회논문지
    • /
    • 제19권5호
    • /
    • pp.457-461
    • /
    • 2013
  • This paper proposes an image feature-based real-time RGB-D (Red-Green-Blue Depth) 3D SLAM (Simultaneous Localization and Mapping) system. RGB-D data from Kinect style sensors contain a 2D image and per-pixel depth information. 6-DOF (Degree-of-Freedom) visual odometry is obtained through the 3D-RANSAC (RANdom SAmple Consensus) algorithm with 2D image features and depth data. For speed up extraction of features, parallel computation is performed with GPU acceleration. After a feature manager detects a loop closure, a graph-based SLAM algorithm optimizes trajectory of the sensor and builds a 3D point cloud based map.

Parallel Implementation of Scrypt: A Study on GPU Acceleration for Password-Based Key Derivation Function

  • SeongJun Choi;DongCheon Kim;Seog Chung Seo
    • Journal of information and communication convergence engineering
    • /
    • 제22권2호
    • /
    • pp.98-108
    • /
    • 2024
  • Scrypt is a password-based key derivation function proposed by Colin Percival in 2009 that has a memory-hard structure. Scrypt has been intentionally designed with a memory-intensive structure to make password cracking using ASICs, GPUs, and similar hardware more difficult. However, in this study, we thoroughly analyzed the operation of Scrypt and proposed strategies to maximize computational parallelism in GPU environments. Through these optimizations, we achieved an outstanding performance improvement of 8284.4% compared with traditional CPU-based Scrypt computations. Moreover, the GPU-optimized implementation presented in this paper outperforms the simple GPU-based Scrypt processing by a significant margin, providing a performance improvement of 204.84% in the RTX3090. These results demonstrate the effectiveness of our proposed approach in harnessing the computational power of GPUs and achieving remarkable performance gains in Scrypt calculations. Our proposed implementation is the first GPU implementation of Scrypt, demonstrating the ability to efficiently crack Scrypt.

비정상 ECG 진단의 에너지 효율적인 재구성 가능한 가속을 위한 OpenCL 기반 FPGA-GPU 혼합 계층 적응 처리 알고리즘 할당 (Adaptive Processing Algorithm Allocation on OpenCL-based FPGA-GPU Hybrid Layer for Energy-Efficient Reconfigurable Acceleration of Abnormal ECG Diagnosis)

  • 이동규;이승민;박대진
    • 한국정보통신학회논문지
    • /
    • 제25권10호
    • /
    • pp.1279-1286
    • /
    • 2021
  • Electrocardiogram (ECG) 신호는 심장의 이상을 조기에 진단하기 위한 좋은 지표이다. ECG 신호는 사람마다 기준이 되는 정상 신호의 형태가 다르고, 진단에 많은 데이터가 필요하다. 본 논문에서는 ECG 신호 진단을 효율적으로 가속하기 위한 OpenCL을 기반 FPGA-GPU 혼합 계층 적응형 플랫폼을 제안한다. 플랫폼에서 MIT-BIH 부정맥 신호데이터의 19870개 ECG 신호를 진단한 결과 FPGA 가속기는 진단 시간이 1.15s로 소프트웨어로 실행했을 때보다 89.94% 감소하였고, 전력 소모는 84.0% 감소하였다. GPU 가속기는 실행 시간이 소프트웨어 대비 83.56% 감소한 1.87s였으며, 전력 소모는 62.3% 감소하였다. 제안하는 FPGA-GPU 혼합 플랫폼은 FPGA 가속기보다 진단 속도가 느리지만 GPU를 이용하여 상황에 따라 유연한 알고리즘을 동작할 수 있다.

GPU-Based ECC Decode Unit for Efficient Massive Data Reception Acceleration

  • Kwon, Jisu;Seok, Moon Gi;Park, Daejin
    • Journal of Information Processing Systems
    • /
    • 제16권6호
    • /
    • pp.1359-1371
    • /
    • 2020
  • In transmitting and receiving such a large amount of data, reliable data communication is crucial for normal operation of a device and to prevent abnormal operations caused by errors. Therefore, in this paper, it is assumed that an error correction code (ECC) that can detect and correct errors by itself is used in an environment where massive data is sequentially received. Because an embedded system has limited resources, such as a low-performance processor or a small memory, it requires efficient operation of applications. In this paper, we propose using an accelerated ECC-decoding technique with a graphics processing unit (GPU) built into the embedded system when receiving a large amount of data. In the matrix-vector multiplication that forms the Hamming code used as a function of the ECC operation, the matrix is expressed in compressed sparse row (CSR) format, and a sparse matrix-vector product is used. The multiplication operation is performed in the kernel of the GPU, and we also accelerate the Hamming code computation so that the ECC operation can be performed in parallel. The proposed technique is implemented with CUDA on a GPU-embedded target board, NVIDIA Jetson TX2, and compared with execution time of the CPU.

GPU 기반의 실시간 인터렉티브 광선추적법 구현 (Implementation of Real-time Interactive Ray Tracing on GPU)

  • 배성민;홍현기
    • 한국게임학회 논문지
    • /
    • 제7권3호
    • /
    • pp.59-66
    • /
    • 2007
  • 광선추적법(ray tracing)은 빛의 반사, 투과 등을 사실적으로 표현할 수 있는 대표적인 전역조명(global illumination) 기술이지만, 복잡한 계산과정으로 인해 실시간 활용에는 많은 제약이 존재한다. 이런 문제를 해결하기 위해 최근에는 GPU(Graphics Processing Unit) 기반의 광선추적법 알고리즘이 활발하게 개발되고 있으며, 본 논문에서는 J. Purcell 등이 제안한 광선추적법 기법을 구현하였다. 그리고 구현된 알고리즘을 인터렉티브 응용분야에 활용하기 위해 렌더링 성능을 개선하는 두가지 방법을 적용하였다. 먼저, 그래픽스 하드웨어에서 지원하는 래스터라이제이션(rasterization)을 적용해 초기 광선의 교차점을 효과적으로 구했다. 또한 대상 물체를 가속화(acceleration) 구조로 구성하여 광선과 물체간의 교차연산에 소요되는 계산시간을 단축하였다. GPU 기반의 광선추적법 렌더링에서 다양한 성능 개선 알고리즘을 적용하여 향상된 렌더링 결과를 구체적으로 분석한 기존 연구가 비교적 적었으며, 본 논문에서는 각 과정에 따른 개선 결과를 제시하였다. 구현된 렌더러와 GPU 기반의 환경 맵을 비교하였으며 이동형 개인 컴퓨터와 무선 센싱 장비를 이용한 무선 원격 렌더링 시스템을 구현하였다. 제안된 시스템은 실시간 합성, 증강현실(augmented reality), 가상현실 등의 다양한 분야에서 활용될 것으로 기대된다.

  • PDF

OpenCV 내장 CPU 및 GPU 함수를 이용한 DNN 추론 시간 복잡도 분석 (Performance Analysis of DNN inference using OpenCV Built in CPU and GPU Functions)

  • 박천수
    • 반도체디스플레이기술학회지
    • /
    • 제21권1호
    • /
    • pp.75-78
    • /
    • 2022
  • Deep Neural Networks (DNN) has become an essential data processing architecture for the implementation of multiple computer vision tasks. Recently, DNN-based algorithms achieve much higher recognition accuracy than traditional algorithms based on shallow learning. However, training and inference DNNs require huge computational capabilities than daily usage purposes of computers. Moreover, with increased size and depth of DNNs, CPUs may be unsatisfactory since they use serial processing by default. GPUs are the solution that come up with greater speed compared to CPUs because of their Parallel Processing/Computation nature. In this paper, we analyze the inference time complexity of DNNs using well-known computer vision library, OpenCV. We measure and analyze inference time complexity for three cases, CPU, GPU-Float32, and GPU-Float16.