• Title/Summary/Keyword: GPU algorithm

Search Result 267, Processing Time 0.036 seconds

Parallel Connected Component Labeling Based on the Selective Four Directional Label Search Using CUDA

  • Soh, Young-Sung;Hong, Jung-Woo
    • Journal of the Institute of Convergence Signal Processing
    • /
    • v.16 no.3
    • /
    • pp.83-89
    • /
    • 2015
  • Connected component labeling (CCL) is a mandatory step in image segmentation where objects are extracted and uniquely labeled. CCL is a computationally expensive operation and thus is often done in parallel processing framework to reduce execution time. Various parallel CCL methods have been proposed in the literature. Among them are NSZ label equivalence (NSZ-LE) method, modified 8 directional label selection (M8DLS) method, HYBRID1 method, and HYBRID2 method. Soh et al. showed that HYBRID2 outperforms the others and is the best so far. In this paper we propose a new hybrid parallel CCL algorithm termed as HYBRID3 that combines selective four directional label search (S4DLS) with label backtracking (LB). We show that the average percentage speedup of the proposed over M8DLS is around 60% more than that of HYBRID2 over M8DLS for various kinds of images.

OpenMP application to implement CUDA for FDTD algorithm and performance measurement (CUDA로 구현한 FDTD알고리즘의 OpenMP기술 적용 및 성능 측정)

  • Jung, Bok-Jae;Oh, Seung-Take;Lee, Cheol-Hoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2013.01a
    • /
    • pp.3-6
    • /
    • 2013
  • 반도체 공정에서 소자의 제조 비용 감소를 위해 제조 공정 검증을 위한 시뮬레이션을 수행하게 된다. 이 시뮬레이션은 반도체 소자 내부의 물리량 계산을 통해 반도체 소자 내부의 불순물의 거동을 해석하게 된다. 이를 위해 사용되는 알고리즘으로 3차원적 형상을 표현하는 물리적 미분 미분방정식을 계산하게 되는데, 정확한 계산을 위해 유한 차분 시간 영역법(이하 FDTD)과 같은 수치해석 기법을 이용한다. 실제적으로 반도체 공정의 시뮬레이션에서 FDTD연산의 실행 시간은 90% 이상을 소요하게 된다. 이러한 연산에서 더욱 빠른 성능을 확보하기 위해 본 논문에서는 기존의 CUDA(Compute Unified Device Architecture)로 구현된 FDTD알고리즘을 OpenMP를 통한 다중 GPU제어를 이용하여 연산 수행시간을 감소하고, 그 결과물을 통하여 성능 향상도를 측정한다.

  • PDF

Convolutional Neural Network with Particle Filter Approach for Visual Tracking

  • Tyan, Vladimir;Kim, Doohyun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.12 no.2
    • /
    • pp.693-709
    • /
    • 2018
  • In this paper, we propose a compact Convolutional Neural Network (CNN)-based tracker in conjunction with a particle filter architecture, in which the CNN model operates as an accurate candidates estimator, while the particle filter predicts the target motion dynamics, lowering the overall number of calculations and refines the resulting target bounding box. Experiments were conducted on the Online Object Tracking Benchmark (OTB) [34] dataset and comparison analysis in respect to other state-of-art has been performed based on accuracy and precision, indicating that the proposed algorithm outperforms all state-of-the-art trackers included in the OTB dataset, specifically, TLD [16], MIL [1], SCM [36] and ASLA [15]. Also, a comprehensive speed performance analysis showed average frames per second (FPS) among the top-10 trackers from the OTB dataset [34].

High Speed OpenMP Method in SIFT Algorithm for VR Image Stitching (VR 영상 스티칭을 위한 SIFT 알고리즘에서의 OpenMP 고속화 방법)

  • Lee, Yong-Seok;Kang, I-Seul;Seo, Young-Ho;Kim, Dong-Wook
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2016.06a
    • /
    • pp.349-351
    • /
    • 2016
  • 본 논문에서는 VR 영상의 스티칭을 위한 특징점 추출 방식의 하나인 SIFT 알고리즘의 고속화 방법을 제안한다. 이 방법은 SIFT 의 각 단계 모두에 최적화 방법을 적용하여 CPU 에 최적화된 알고리즘을 구축하였다. 그리고 비독립적인 과정들로 이루어진 SIFT 특징점 추출 연산을 병렬화하기 위한 방법으로, 영상 분할 방법을 제시하며 SIFT 의 새로운 병렬화 방법을 제안한다. 특히 최적화 과정을 통해 Scale-space Extrema Detection 과 Orientation Assignment 과정에서 큰 시간 단축 효과를 보여 총 75.5%의 시간을 단축하였다. 이를 OpenMP 와 영상 분할 방법을 활용한 CPU 병렬화로 FullHD($1920{\times}1080$)해상도 영상에서 약 4000 개의 특징점을 추출하는 데 평균 91ms 의 성능을 보이며 기존 GPU 고속화 논문 대비 약 30%의 성능 개선 효과를 보였다.

  • PDF

CUDA Optimization of Super-Resolution Algorithm using ELBP Classifier (ELBP 분류기를 이용한 초해상도 기법의 CUDA 최적화)

  • Choi, Ji Hoon;Song, Byung Cheol
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2016.06a
    • /
    • pp.92-94
    • /
    • 2016
  • 저해상도 영상을 고해상도 영상으로 복원하기 위한 다양한 방법의 초해상도 기법이 존재한다. 다양한 기법들 중에서도 ELBP 분류기를 이용한 초해상도 기법[1]은 단일 영상 기반의 초해상도 기법으로 사전에 학습된 필터를 이용하여 고해상도 영상을 획득하는 기법이다. 그러나 해당 알고리즘을 일반적인 CPU 환경에서 수행할 경우 실시간으로 영상을 획득하는데 어려움이 존재한다. 본 논문에서는 지역메모리를 이용한 GPU 환경에서의 최적화를 수행하여 ELBP 분류기를 이용한 초해상도 기법의 가속성을 보인다. 먼저, 알고리즘에 대하여 간단히 설명하고 CUDA 가속화 기법[2]을 차례로 적용했을 때 얻을 수 있는 가속 성능을 확인한다. 최종적으로 본 논문은 CPU 환경과 비교했을 때 5 배의 가속 효과를 얻을 수 있다.

  • PDF

Integer-Pel Motion Estimation for HEVC on Compute Unified Device Architecture (CUDA)

  • Lee, Dongkyu;Sim, Donggyu;Oh, Seoung-Jun
    • IEIE Transactions on Smart Processing and Computing
    • /
    • v.3 no.6
    • /
    • pp.397-403
    • /
    • 2014
  • A new video compression standard called High Efficiency Video Coding (HEVC) has recently been released onto the market. HEVC provides higher coding performance compared to previous standards, but at the cost of a significant increase in encoding complexity, particularly in motion estimation (ME). At the same time, the computing capabilities of Graphics Processing Units (GPUs) have become more powerful. This paper proposes a parallel integer-pel ME (IME) algorithm for HEVC on GPU using the Compute Unified Device Architecture (CUDA). In the proposed IME, concurrent parallel reduction (CPR) is introduced. CPR performs several parallel reduction (PR) operations concurrently to solve two problems in conventional PR; low thread utilization and high thread synchronization latency. The proposed encoder reduces the portion of IME in the encoder to almost zero with a 2.3% increase in bitrate. In terms of IME, the proposed IME is up to 172.6 times faster than the IME in the HEVC reference model.

Implementation of IQ/IDCT in H.264/AVC Decoder Using GPGPU (GPGPU를 이용한 H.264/AVC 디코더)

  • Kim, Dong-Han;Lee, Kwang-Yeob
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2010.05a
    • /
    • pp.162-164
    • /
    • 2010
  • H.264/AVC(Advanced Video Coding) is a standard for video compression. H.264/AVC provides good video quality at substantially lower bit rates than previous standards. In this papers, we propose the efficient architecture of H.264/AVC decoder using GPGPU. GPGPU can process many of operation in parallel. IQ/IDCT is possible that parallel processing in H.264/AVC decoding algorithm.

  • PDF

Performance Analysis of Collaborative Processing by Scheduling Algorithm (스케줄링 알고리즘에 따른 협업 시스템의 성능 분석)

  • Jin, Dong-Kyu;Cho, Sung-Woo;Jo, Yong-Yeon;Kim, Sang-Wook;O, Hyeon-Ok
    • Annual Conference of KIPS
    • /
    • 2014.11a
    • /
    • pp.105-107
    • /
    • 2014
  • 대량의 정보를 효과적으로 처리하기 위한 기술로 CPU 뿐만 아니라 iSSD 와 GPGPU 를 개별적으로 이용하는 연구가 진행되고 있다. 본 논문에서는 더 나아가 CPU, iSSD 와 GPU 를 협업시켜 프로그램 수행 성능을 향상시키는 방법을 연구한다. 이러한 이질 시스템의 협업을 위해 이질 스케줄링 알고리즘을 적용하고, 스케줄링 알고리즘에 따른 협업 시스템의 성능을 분석한다.

A Study on Cascaded CNN Accuracy for Face Detection (얼굴 검출을 위한 캐스케이드 CNN 정확도에 관한 연구)

  • Joseline, Uwinema;Lee, Hae-Yeoun
    • Annual Conference of KIPS
    • /
    • 2018.05a
    • /
    • pp.232-235
    • /
    • 2018
  • Convolutional Neural Network is arguably the most popular deep learning architecture that is one of the most attractive area of research since it has various applications including face detection and recognition. The cascaded CNN operates at multiple resolution and rejects the background regions in the fast low resolution stages. By considering that advantage, we carry out the study on accuracy of cascaded CNN for face detection applications. The key point for our study is to analysing and improving the accuracy of cascaded CNN by applying simulations of algorithm where by we used Google's Tensorflow GPU as deep learning framework.

A Study on apply to AI algorithm using Google TPU Board (구글 TPU 보드 기반 인공지능 알고리즘 적용 및 분석에 대한 연구)

  • Han, Kwang-Hwan;Lee, Chang-Suk;Kim, Do-Yun;Yoon, Pil-Sang;Ka, Chung-Hee;Jung, Yong-Bum;Jeong, Gu-Min
    • Annual Conference of KIPS
    • /
    • 2019.10a
    • /
    • pp.827-829
    • /
    • 2019
  • 본 논문에서는 최근 소개된 구글 TPU 보드를 사용하여 AI 알고리듬을 적용하고 성능 분석을 통하여 TPU 를 통한 AI 에 기반한 영상처리 시스템의 구현 가능성을 검증 하고자 하였다. 구글 TPU 보드는 기계 학습에 특화된 Coral Dev 보드를 사용하였고. 수행하는 인공지능 알고리즘은 객체 인식 알고리즘인 SSD 알고리즘을 사용하였다. 이 후 동일한 알고리즘을 GPU 가 장착되어 있는 고성능 데스크탑과 처리속도를 비교하여, TPU 에 기반한 임베디드 AI 시스템의 활용 가능성을 검증 하였다.