• 제목/요약/키워드: Compute unified device architecture

검색결과 61건 처리시간 0.03초

그래픽처리장치를 이용한 레이놀즈 방정식의 수치 해석 가속화 (Accelerating Numerical Analysis of Reynolds Equation Using Graphic Processing Units)

  • 명훈주;강지훈;오광진
    • Tribology and Lubricants
    • /
    • 제28권4호
    • /
    • pp.160-166
    • /
    • 2012
  • This paper presents a Reynolds equation solver for hydrostatic gas bearings, implemented to run on graphics processing units (GPUs). The original analysis code for the central processing unit (CPU) was modified for the GPU by using the compute unified device architecture (CUDA). The red-black Gauss-Seidel (RBGS) algorithm was employed instead of the original Gauss-Seidel algorithm for the iterative pressure solver, because the latter has data dependency between neighboring nodes. The implemented GPU program was tested on the nVidia GTX580 system and compared to the original CPU program on the AMD Llano system. In the iterative pressure calculation, the implemented GPU program showed 20-100 times faster performance than the original CPU codes. Comparison of the wall-clock times including all of pre/post processing codes showed that the GPU codes still delivered 4-12 times faster performance than the CPU code for our target problem.

All Phase Discrete Sine Biorthogonal Transform and Its Application in JPEG-like Image Coding Using GPU

  • Shan, Rongyang;Zhou, Xiao;Wang, Chengyou;Jiang, Baochen
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권9호
    • /
    • pp.4467-4486
    • /
    • 2016
  • Discrete cosine transform (DCT) based JPEG standard significantly improves the coding efficiency of image compression, but it is unacceptable event in serious blocking artifacts at low bit rate and low efficiency of high-definition image. In the light of all phase digital filtering theory, this paper proposes a novel transform based on discrete sine transform (DST), which is called all phase discrete sine biorthogonal transform (APDSBT). Applying APDSBT to JPEG scheme, the blocking artifacts are reduced significantly. The reconstructed image of APDSBT-JPEG is better than that of DCT-JPEG in terms of objective quality and subjective effect. For improving the efficiency of JPEG coding, the structure of JPEG is analyzed. We analyze key factors in design and evaluation of JPEG compression on the massive parallel graphics processing units (GPUs) using the compute unified device architecture (CUDA) programming model. Experimental results show that the maximum speedup ratio of parallel algorithm of APDSBT-JPEG can reach more than 100 times with a very low version GPU. Some new parallel strategies are illustrated in this paper for improving the performance of parallel algorithm. With the optimal strategy, the efficiency can be improved over 10%.

CUDA를 이용한 FDTD 알고리즘의 병렬처리 (Parallel Computation of FDTD algorithm using CUDA)

  • 이호영;박종현;김준성
    • 전자공학회논문지CI
    • /
    • 제47권4호
    • /
    • pp.82-87
    • /
    • 2010
  • CPU를 능가하는 GPU의 연산능력 향상으로 범용 계산에 그래픽 프로세서를 사용하는 GP-GPU연구가 활발히 전개되고 있으며, 그 응용분야가 확대되고 있다. 본 논문에서는 전자기학 관련 분야에서 널리 사용되는 FDTD 알고리즘을 nVIDIA에서 제공하는 소프트웨어 플랫폼인 CUDA를 사용하여 구현한다. FDTD 알고리즘의 주요 연산과정을 병렬화하고, 그래픽 카드 내각기 다른 메모리의 사용에 따라 최적화하며, 단일 프로세서에서 FDTD 알고리즘을 실행시킨 경우와 비교하여 그 성능 향상 정도를 측정한다. 실험결과 단일 프로세서로 구현하였을 때에 비해 실행시간이 45배까지 향상됨을 확인할 수 있었다.

An Improved Hybrid Approach to Parallel Connected Component Labeling using CUDA

  • Soh, Young-Sung;Ashraf, Hadi;Kim, In-Taek
    • 융합신호처리학회논문지
    • /
    • 제16권1호
    • /
    • pp.1-8
    • /
    • 2015
  • In many image processing tasks, connected component labeling (CCL) is performed to extract regions of interest. CCL was usually done in a sequential fashion when image resolution was relatively low and there are small number of input channels. As image resolution gets higher up to HD or Full HD and as the number of input channels increases, sequential CCL is too time-consuming to be used in real time applications. To cope with this situation, parallel CCL framework was introduced where multiple cores are utilized simultaneously. Several parallel CCL methods have been proposed in the literature. Among them are NSZ label equivalence (NSZ-LE) method[1], modified 8 directional label selection (M8DLS) method[2], and HYBRID1 method[3]. Soh [3] showed that HYBRID1 outperforms NSZ-LE and M8DLS, and argued that HYBRID1 is by far the best. In this paper we propose an improved hybrid parallel CCL algorithm termed as HYBRID2 that hybridizes M8DLS with label backtracking (LB) and show that it runs around 20% faster than HYBRID1 for various kinds of images.

Fundamental Function Design of Real-Time Unmanned Monitoring System Applying YOLOv5s on NVIDIA TX2TM AI Edge Computing Platform

  • LEE, SI HYUN
    • International journal of advanced smart convergence
    • /
    • 제11권2호
    • /
    • pp.22-29
    • /
    • 2022
  • In this paper, for the purpose of designing an real-time unmanned monitoring system, the YOLOv5s (small) object detection model was applied on the NVIDIA TX2TM AI (Artificial Intelligence) edge computing platform in order to design the fundamental function of an unmanned monitoring system that can detect objects in real time. YOLOv5s was applied to the our real-time unmanned monitoring system based on the performance evaluation of object detection algorithms (for example, R-CNN, SSD, RetinaNet, and YOLOv5). In addition, the performance of the four YOLOv5 models (small, medium, large, and xlarge) was compared and evaluated. Furthermore, based on these results, the YOLOv5s model suitable for the design purpose of this paper was ported to the NVIDIA TX2TM AI edge computing system and it was confirmed that it operates normally. The real-time unmanned monitoring system designed as a result of the research can be applied to various application fields such as an security or monitoring system. Future research is to apply NMS (Non-Maximum Suppression) modification, model reconstruction, and parallel processing programming techniques using CUDA (Compute Unified Device Architecture) for the improvement of object detection speed and performance.

GPGPU 를 이용한 네트워크 트래픽에서의 HTTP 패킷 추출 성능 향상 (Performance Improvement in HTTP Packet Extraction from Network Traffic using GPGPU)

  • 한상운;김효곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.718-721
    • /
    • 2011
  • 웹 서비스를 대상으로 하는 DDoS(Distributed Denial-of-Service) 공격 또는 유해 트래픽 유입을 탐지 또는 차단하기 위한 목적으로 HTTP(Hypertext Transfer Protocol) 트래픽을 실시간으로 분석하는 기능은 거의 모든 네트워크 트래픽 보안 솔루션들이 탑재하고 있는 필수적인 요소이다. 하지만, HTTP 트래픽의 실시간 데이터 측정 양이 시간이 지날수록 기하급수적으로 증가함에 따라, HTTP 트래픽을 실시간 패킷 단위로 분석한다는 것에 대한 성능 부담감은 날로 커지고 있는 실정이다. 이제는 응용 어플리케이션 차원에서는 성능에 대한 부담감을 해소할 수 없기 때문에 고비용의 소프트웨어 가속기나 하드웨어에 의존적인 전용 장비를 탑재하여 해결하려는 시도가 대부분이다. 본 논문에서는 현재 대부분의 PC 에 탑재되어 있는 그래픽 카드의 GPU(Graphics Processing Units)를 범용적으로 활용하고자 하는 GPGPU(General-Purpose computation on Graphics Processing Units)의 연구에 힘입어, NVIDIA사의 CUDA(Compute Unified Device Architecture)를 사용하여 네트워크 트래픽에서 HTTP 패킷 추출성능을 응용 어플리케이션 차원에서 향상시켜 보고자 하였다. HTTP 패킷 추출 연산만을 기준으로 GPU 의 연산속도는 CPU 에 비해 10 배 이상의 높은 성능을 얻을 수 있었다.

CUDA FORTEAN기반 확산파 강우유출모형 개발 (Development of Diffusive Wave Rainfall-Runoff Model Based on CUDA FORTRAN)

  • 김보람;김형준;윤광석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.287-287
    • /
    • 2021
  • 본 연구에서는 CUDA(Compute Unified Device Architecture) 포트란을 이용하여 확산파 강우 유출모형을 개발하였다. CUDA 포트란은 그래픽 처리 장치(Graphic Processing Unit: GPU)에서 수행하는 병렬 연산 알고리즘을 포트란 언어를 사용하여 작성할 수 있도록 하는 GPU상의 범용계산(General-Purpose Computing on Graphics Processing Units: GPGPU) 기술이다. GPU는 그래픽 처리 작업에 특화된 다수의 산술 논리 장치(Arithmetic Logic Unit: ALU)로 구성되어 있어서 중앙 처리 장치(Central Processing Unit: CPU)보다 한 번에 더 많은 연산 수행이 가능하다. 이에 따라, CUDA 포트란기반 확산파모형은 분포형 강우유출모형의 수치모의 연산시간을 단축시킬 수 있다. 분포형모형의 지배방정식은 확산파모형과 Green-Ampt모형으로 구성되었고, 확산파모형은 유한체적법을 이용하여 이산화 하였다. CUDA 포트란기반 확산파모형의 정확성은 기존 연구된 수리실험 결과 및 CPU기반 강우유출모형과 비교하였으며, 연산소요시간에 대한 효율성은 CPU기반 확산파모형과 비교하였다. 그 결과 CUDA 포트란기반 확산파모형의 결과는 수리실험 결과 및 CPU기반 강우유출모형의 결과와 유사한 결과를 나타냈다. 또한, 연산소요시간은 CPU 기반 확산파모형의 연산소요시간보다 단축되었으며, 본 연구에 사용된 장비를 기준으로 최대 100배 정도 단축되었다.

  • PDF

계층적 결합형 양방향 필터를 이용한 실시간 깊이 영상 보정 방법 (Real-time Depth Image Refinement using Hierarchical Joint Bilateral Filter)

  • 신동원;호요성
    • 방송공학회논문지
    • /
    • 제19권2호
    • /
    • pp.140-147
    • /
    • 2014
  • 본 논문에서는 결합형 양방향 필터를 이용하여 깊이 영상을 실시간으로 보정하는 방법을 제안한다. 제안한 방법은 Kinect 깊이 카메라로부터 얻은 깊이 영상의 화질을 실시간으로 향상시키기 위해 GPU 내의 상수 메모리와 2차원 영상 처리에 적합한 텍스쳐 메모리를 사용한다. 또한, 단일 화소에 대한 결합형 양방향 필터 연산을 각 GPU 쓰레드(thread)에 할당한 다음 병렬로 처리하여 계산량을 현저히 감소시킨다. 그리고 깊이 영상의 품질을 더욱 높이기 위해 CUDA를 이용해 구현한 결합형 양방향 필터를 계층형 구조로 반복적으로 수행하여 폐색 영역이 채워진 깊이 영상을 얻을 수 있다. 실험 결과를 통해, 제안한 실시간 깊이 영상 보정 방법이 깊이 영상의 주관적 화질을 향상시키고, 초당 55 화면의 속도로 동작하는 것을 확인했다.

무인 항공기를 이용한 밀집영역 자동차 탐지 (Vehicle Detection in Dense Area Using UAV Aerial Images)

  • 서창진
    • 한국산학기술학회논문지
    • /
    • 제19권3호
    • /
    • pp.693-698
    • /
    • 2018
  • 본 논문은 최근 물체탐지 분야에서 실시간 물체 탐지 알고리즘으로 주목을 받고 있는 YOLOv2(You Only Look Once) 알고리즘을 이용하여 밀집 영역에 주차되어 있는 자동차 탐지 방법을 제안한다. YOLO의 컨볼루션 네트워크는 전체 이미지에서 한 번의 평가를 통해서 직접적으로 경계박스들을 예측하고 각 클래스의 확률을 계산하고 물체 탐지 과정이 단일 네트워크이기 때문에 탐지 성능이 최적화 되며 빠르다는 장점을 가지고 있다. 기존의 슬라이딩 윈도우 접근법과 R-CNN 계열의 탐지 방법은 region proposal 방법을 사용하여 이미지 안에 가능성이 많은 경계박스를 생성하고 각 요소들을 따로 학습하기 때문에 최적화 및 실시간 적용에 어려움을 가지고 있다. 제안하는 연구는 YOLOv2 알고리즘을 적용하여 기존의 알고리즘이 가지고 있는 물체 탐지의 실시간 처리 문제점을 해결하여 실시간으로 지상에 있는 자동차를 탐지하는 방법을 제안한다. 제안하는 연구 방법의 실험을 위하여 오픈소스로 제공되는 Darknet을 사용하였으며 GTX-1080ti 4개를 탑재한 Deep learning 서버를 이용하여 실험하였다. 실험결과 YOLO를 활용한 자동차 탐지 방법은 기존의 알고리즘 보다 물체탐지에 대한 오버헤드를 감소 할 수 있었으며 실시간으로 지상에 존재하는 자동차를 탐지할 수 있었다.

Ultrahigh-Resolution Spectral Domain Optical Coherence Tomography Based on a Linear-Wavenumber Spectrometer

  • Lee, Sang-Won;Kang, Heesung;Park, Joo Hyun;Lee, Tae Geol;Lee, Eun Seong;Lee, Jae Yong
    • Journal of the Optical Society of Korea
    • /
    • 제19권1호
    • /
    • pp.55-62
    • /
    • 2015
  • In this study we demonstrate ultrahigh-resolution spectral domain optical coherence tomography (UHR SD-OCT) with a linear-wavenumber (k) spectrometer, to accelerate signal processing and to display two-dimensional (2-D) images in real time. First, we performed a numerical simulation to find the optimal parameters for the linear-k spectrometer to achieve ultrahigh axial resolution, such as the number of grooves in a grating, the material for a dispersive prism, and the rotational angle between the grating and the dispersive prism. We found that a grating with 1200 grooves and an F2 equilateral prism at a rotational angle of $26.07^{\circ}$, in combination with a lens of focal length 85.1 mm, are suitable for UHR SD-OCT with the imaging depth range (limited by spectrometer resolution) set at 2.0 mm. As guided by the simulation results, we constructed the linear-k spectrometer needed to implement a UHR SD-OCT. The actual imaging depth range was measured to be approximately 2.1 mm, and axial resolution of $3.8{\mu}m$ in air was achieved, corresponding to $2.8{\mu}m$ in tissue (n = 1.35). The sensitivity was -91 dB with -10 dB roll-off at 1.5 mm depth. We demonstrated a 128.2 fps acquisition rate for OCT images with 800 lines/frame, by taking advantage of NVIDIA's compute unified device architecture (CUDA) technology, which allowed for real-time signal processing compatible with the speed of the spectrometer's data acquisition.