• 제목/요약/키워드: GPU algorithm

검색결과 267건 처리시간 0.028초

Heterogeneous Parallel Architecture for Face Detection Enhancement

  • Albssami, Aishah;Sharaf, Sanaa
    • International Journal of Computer Science & Network Security
    • /
    • 제22권2호
    • /
    • pp.193-198
    • /
    • 2022
  • Face Detection is one of the most important aspects of image processing, it considers a time-consuming problem in real-time applications such as surveillance systems, face recognition systems, attendance system and many. At present, commodity hardware is getting more and more heterogeneity in terms of architectures such as GPU and MIC co-processors. Utilizing those co-processors along with the existing traditional CPUs gives the algorithm a better chance to make use of both architectures to achieve faster implementations. This paper presents a hybrid implementation of the face detection based on the local binary pattern (LBP) algorithm that is deployed on both traditional CPU and MIC co-processor to enhance the speed of the LBP algorithm. The experimental results show that the proposed implementation achieved improvement in speed by 3X when compared to a single architecture individually.

GPU-based Monte Carlo Photon Migration Algorithm with Path-partition Load Balancing

  • Jeon, Youngjin;Park, Jongha;Hahn, Joonku;Kim, Hwi
    • Current Optics and Photonics
    • /
    • 제5권6호
    • /
    • pp.617-626
    • /
    • 2021
  • A parallel Monte Carlo photon migration algorithm for graphics processing units that implements an improved load-balancing strategy is presented. Conventional parallel Monte Carlo photon migration algorithms suffer from a computational bottleneck due to their reliance on a simple load-balancing strategy that does not take into account the different length of the mean free paths of the photons. In this paper, path-partition load balancing is proposed to eliminate this computational bottleneck based on a mathematical formula that parallelizes the photon path tracing process, which has previously been considered non-parallelizable. The performance of the proposed algorithm is tested using three-dimensional photon migration simulations of a human skin model.

계층적 결합형 양방향 필터를 이용한 실시간 깊이 영상 보정 방법 (Real-time Depth Image Refinement using Hierarchical Joint Bilateral Filter)

  • 신동원;호요성
    • 방송공학회논문지
    • /
    • 제19권2호
    • /
    • pp.140-147
    • /
    • 2014
  • 본 논문에서는 결합형 양방향 필터를 이용하여 깊이 영상을 실시간으로 보정하는 방법을 제안한다. 제안한 방법은 Kinect 깊이 카메라로부터 얻은 깊이 영상의 화질을 실시간으로 향상시키기 위해 GPU 내의 상수 메모리와 2차원 영상 처리에 적합한 텍스쳐 메모리를 사용한다. 또한, 단일 화소에 대한 결합형 양방향 필터 연산을 각 GPU 쓰레드(thread)에 할당한 다음 병렬로 처리하여 계산량을 현저히 감소시킨다. 그리고 깊이 영상의 품질을 더욱 높이기 위해 CUDA를 이용해 구현한 결합형 양방향 필터를 계층형 구조로 반복적으로 수행하여 폐색 영역이 채워진 깊이 영상을 얻을 수 있다. 실험 결과를 통해, 제안한 실시간 깊이 영상 보정 방법이 깊이 영상의 주관적 화질을 향상시키고, 초당 55 화면의 속도로 동작하는 것을 확인했다.

CUDA 기반 영상 분할을 사용한 비사실적 렌더링 (Non-Photorealistic Rendering Using CUDA-Based Image Segmentation)

  • 윤현철;박종승
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권11호
    • /
    • pp.529-536
    • /
    • 2015
  • 비사실적 렌더링(NPR; Non-Photorealistic Rendering)은 2차원 영상과 3차원 모델을 대상으로 하는 방법이 다르며 각각의 대상에 NPR을 적용하여 두 콘텐츠를 혼합하면 이질감이 나타나는 문제점이 있다. 본 논문에서는 3차원 객체와 영상에 있어서 각각의 대상에 카툰 및 스케치와 같은 비사실적 효과를 적용하여 조화롭게 혼합하는 기법을 제시한다. 제안 기법은 2차원 영상의 데이터를 분석하여 컬러 분포 특징을 얻고 이를 이용하여 실사 영상이나 3D 객체의 컬러 수를 줄인다. 단순화된 컬러맵과 윤곽선 에지 데이터로부터 비사실적 렌더링을 실시한다. 컬러맵 정보의 추출 및 적용 과정에서 자연스러운 장면 연출을 위해서 영상분할 과정이 필요하다. 그러나 영상분할 기법은 많은 연산을 필요로 한다. 특히 크기가 큰 입력에 대해서는 비사실적 렌더링에 많은 시간이 소요된다. 처리 시간이 많은 영상분할의 고속화를 위하여 GPU(Graphics Processing Unit)를 이용한 병렬 컴퓨팅을 할 수 있는 GPGPU(General-Purpose GPU)를 사용한다. GPGPU의 사용으로 알고리즘의 수행속도를 크게 개선하였다. 또한 영상분할 후 단순화된 컬러를 추출하여 일련의 컬러맵을 생성한 뒤 3D 객체에 NPR을 적용할 때 추출해낸 컬러맵을 적용하여 2차원 영상과 3차원 객채 간의 이질감을 줄이고 조화롭게 하였다.

A CPU-GPU Hybrid System of Environment Perception and 3D Terrain Reconstruction for Unmanned Ground Vehicle

  • Song, Wei;Zou, Shuanghui;Tian, Yifei;Sun, Su;Fong, Simon;Cho, Kyungeun;Qiu, Lvyang
    • Journal of Information Processing Systems
    • /
    • 제14권6호
    • /
    • pp.1445-1456
    • /
    • 2018
  • Environment perception and three-dimensional (3D) reconstruction tasks are used to provide unmanned ground vehicle (UGV) with driving awareness interfaces. The speed of obstacle segmentation and surrounding terrain reconstruction crucially influences decision making in UGVs. To increase the processing speed of environment information analysis, we develop a CPU-GPU hybrid system of automatic environment perception and 3D terrain reconstruction based on the integration of multiple sensors. The system consists of three functional modules, namely, multi-sensor data collection and pre-processing, environment perception, and 3D reconstruction. To integrate individual datasets collected from different sensors, the pre-processing function registers the sensed LiDAR (light detection and ranging) point clouds, video sequences, and motion information into a global terrain model after filtering redundant and noise data according to the redundancy removal principle. In the environment perception module, the registered discrete points are clustered into ground surface and individual objects by using a ground segmentation method and a connected component labeling algorithm. The estimated ground surface and non-ground objects indicate the terrain to be traversed and obstacles in the environment, thus creating driving awareness. The 3D reconstruction module calibrates the projection matrix between the mounted LiDAR and cameras to map the local point clouds onto the captured video images. Texture meshes and color particle models are used to reconstruct the ground surface and objects of the 3D terrain model, respectively. To accelerate the proposed system, we apply the GPU parallel computation method to implement the applied computer graphics and image processing algorithms in parallel.

GPU를 이용한 위상 측정법의 가속화 (Acceleration of Phase Measuring Profilometry using GPU)

  • 김호중;조태훈
    • 한국정보통신학회논문지
    • /
    • 제21권12호
    • /
    • pp.2285-2290
    • /
    • 2017
  • 최근 산업의 여러 분야에서 자동화 시스템이 발전함에 따라 3D 측정에 의한 물체의 높이 검사의 필요성이 점차 대두되고 있다. 여러 3D 측정 방법 중에서 본 논문에서 다루는 방법은 위상 측정법으로, 위상 측정법이란 프린지 패턴의 위상값을 이용하여 물체의 높이를 구하는 방법이다. 위상 측정법은 연산량이 많이 필요한 알고리즘이기 때문에 이를 효율적으로 해결할 방법이 필요하다. 본 논문에서는 이를 위해 NVIDIA에서 나온 CUDA를 사용할 것을 제안했다. 또 CUDA에서 제공하는 Pinned memory와 Stream을 사용할 것을 제안하였다. 이를 통해 정확도를 유지하면서 측정 속도는 크게 향상시킬 수 있었고 실험을 통해 성능을 입증하였다.

Parallel Implementation of the Recursive Least Square for Hyperspectral Image Compression on GPUs

  • Li, Changguo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권7호
    • /
    • pp.3543-3557
    • /
    • 2017
  • Compression is a very important technique for remotely sensed hyperspectral images. The lossless compression based on the recursive least square (RLS), which eliminates hyperspectral images' redundancy using both spatial and spectral correlations, is an extremely powerful tool for this purpose, but the relatively high computational complexity limits its application to time-critical scenarios. In order to improve the computational efficiency of the algorithm, we optimize its serial version and develop a new parallel implementation on graphics processing units (GPUs). Namely, an optimized recursive least square based on optimal number of prediction bands is introduced firstly. Then we use this approach as a case study to illustrate the advantages and potential challenges of applying GPU parallel optimization principles to the considered problem. The proposed parallel method properly exploits the low-level architecture of GPUs and has been carried out using the compute unified device architecture (CUDA). The GPU parallel implementation is compared with the serial implementation on CPU. Experimental results indicate remarkable acceleration factors and real-time performance, while retaining exactly the same bit rate with regard to the serial version of the compressor.

다중코어 GPU를 위한 병렬처리 보간 알고리즘 구현 (Implementation of Parallel Processing Interpolation Algorithm for Multicore GPU)

  • 이광엽;김치용
    • 전기전자학회논문지
    • /
    • 제16권4호
    • /
    • pp.304-309
    • /
    • 2012
  • 최근 디스플레이의 해상도가 높아짐에 따라 그래픽 하드웨어가 처리해야할 데이터량과 연산량이 증가 하고 있다. 특히 레스터라이저의 데이터 처리량이 크게 증가 하고 있다. 본 논문은 높은 해상도의 많은 데이터를 빠르게 처리하기 위하여 레스터라이저를 병렬로 설계 하였다. 본 논문은 레스터라이저의 병렬화를 용이하게 하기 위하여 기존 보간 단계에서 사용하는 Bilinear 알고리즘[1] 대신 삼각형의 무게중심 좌표와 넓이를 이용하는 알고리즘을 사용하였다. 설계한 레스터라이저를 FPGA 환경에서 구현하여 기존 레스터라이저와 비교 검증 하였다. 기존 레스터라이저와 비교 결과 성능이 약 50퍼센트 상승 하였다.

Development of a Real-Time Automatic Passenger Counting System using Head Detection Based on Deep Learning

  • Kim, Hyunduk;Sohn, Myoung-Kyu;Lee, Sang-Heon
    • Journal of Information Processing Systems
    • /
    • 제18권3호
    • /
    • pp.428-442
    • /
    • 2022
  • A reliable automatic passenger counting (APC) system is a key point in transportation related to the efficient scheduling and management of transport routes. In this study, we introduce a lightweight head detection network using deep learning applicable to an embedded system. Currently, object detection algorithms using deep learning have been found to be successful. However, these algorithms essentially need a graphics processing unit (GPU) to make them performable in real-time. So, we modify a Tiny-YOLOv3 network using certain techniques to speed up the proposed network and to make it more accurate in a non-GPU environment. Finally, we introduce an APC system, which is performable in real-time on embedded systems, using the proposed head detection algorithm. We implement and test the proposed APC system on a Samsung ARTIK 710 board. The experimental results on three public head datasets reflect the detection accuracy and efficiency of the proposed head detection network against Tiny-YOLOv3. Moreover, to test the proposed APC system, we measured the accuracy and recognition speed by repeating 50 instances of entering and 50 instances of exiting. These experimental results showed 99% accuracy and a 0.041-second recognition speed despite the fact that only the CPU was used.

FPGA 상에서 OpenCL을 이용한 병렬 문자열 매칭 구현과 최적화 방향 (Parallel String Matching and Optimization Using OpenCL on FPGA)

  • 윤진명;최강일;김현진
    • 전기학회논문지
    • /
    • 제66권1호
    • /
    • pp.100-106
    • /
    • 2017
  • In this paper, we propose a parallel optimization method of Aho-Corasick (AC) algorithm and Parallel Failureless Aho-Corasick (PFAC) algorithm using Open Computing Language (OpenCL) on Field Programmable Gate Array (FPGA). The low throughput of string matching engine causes the performance degradation of network process. Recently, many researchers have studied the string matching engine using parallel computing. FPGA's vendors offer a parallel computing platform using OpenCL. In this paper, we apply the AC and PFAC algorithm on DE1-SoC board with Cyclone V FPGA, where the optimization that considers FPGA architecture is performed. Experiments are performed considering global id, local id, local memory, and loop unrolling optimizations using PFAC algorithm. The performance improvement using loop unrolling is 129 times greater than AC algorithm that not adopt loop unrolling. The performance improvements using loop unrolling are 1.1, 0.2, and 1.5 times greater than those using global id, local id, and local memory optimizations mentioned above.