• Title/Summary/Keyword: Cuda

Search Result 294, Processing Time 0.027 seconds

CUDA Optimization of Super-Resolution Algorithm using ELBP Classifier (ELBP 분류기를 이용한 초해상도 기법의 CUDA 최적화)

  • Choi, Ji Hoon;Song, Byung Cheol
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2016.06a
    • /
    • pp.92-94
    • /
    • 2016
  • 저해상도 영상을 고해상도 영상으로 복원하기 위한 다양한 방법의 초해상도 기법이 존재한다. 다양한 기법들 중에서도 ELBP 분류기를 이용한 초해상도 기법[1]은 단일 영상 기반의 초해상도 기법으로 사전에 학습된 필터를 이용하여 고해상도 영상을 획득하는 기법이다. 그러나 해당 알고리즘을 일반적인 CPU 환경에서 수행할 경우 실시간으로 영상을 획득하는데 어려움이 존재한다. 본 논문에서는 지역메모리를 이용한 GPU 환경에서의 최적화를 수행하여 ELBP 분류기를 이용한 초해상도 기법의 가속성을 보인다. 먼저, 알고리즘에 대하여 간단히 설명하고 CUDA 가속화 기법[2]을 차례로 적용했을 때 얻을 수 있는 가속 성능을 확인한다. 최종적으로 본 논문은 CPU 환경과 비교했을 때 5 배의 가속 효과를 얻을 수 있다.

  • PDF

A Parallel Processing of Finding Neighbor Agents in Flocking Behaviors Using GPU (GPU를 이용한 무리 짓기에서 이웃 에이전트 찾기의 병렬 처리)

  • Lee, Jae-Moon
    • Journal of Korea Game Society
    • /
    • v.10 no.5
    • /
    • pp.95-102
    • /
    • 2010
  • This paper proposes a parallel algorithm of the flocking behaviors using GPU. To do this, we used CUDA as the parallel processing architecture of GPU and then analyzed its characteristics and constraints. Based on them, the paper improved the performance by parallelizing to find the neighbors for an agent which requires the largest cost in the flocking behaviors. We implemented the proposed algorithm on GTX 285 GPU and compared experimentally its performance with the original spatial partitioning method. The results of the comparison showed that the proposed algorithm outperformed the original method up to 9 times with respect to the execution time.

Implementation of PSO(Particle Swarm Optimization) Algorithm using Parallel Processing of GPU (GPU의 병렬 처리 기능을 이용한 PSO(Particle Swarm Optimization) 알고리듬 구현)

  • Kim, Eun-Su;Kim, Jo-Hwan;Kim, Jong-Wook
    • Proceedings of the KIEE Conference
    • /
    • 2008.10b
    • /
    • pp.181-182
    • /
    • 2008
  • 본 논문에서는 연산 최적화 알고리듬 중 PSO(Particle Swarm Optimization) 알고리듬을 NVIDIA사(社)에서 제공한 CUDA(Compute Unified Device Architecture)를 이용하여 새롭게 구현하였다. CUDA는 CPU가 아닌 GPU(Graphic Processing Unit)의 다양한 병렬 처리 능력을 사용해 복잡한 컴퓨팅 문제를 해결하는 소프트웨어 개발을 가능케 하는 기술이다. 이 기술을 연산 최적화 알고리듬 중 PSO에 적용함으로써 알고리듬의 수행 속도를 개선하였다. CUDA를 적용한 PSO 알고리듬의 검증을 위해 언어 기반으로 프로그래밍하고 다양한 Test Function을 통해 시뮬레이션 하였다. 그리고 기존의 PSO 알고리듬과 비교 분석하였다. 또한 알고리듬의 성능 향상으로 여러 가지 최적화 분야에 적용 할 수 있음을 보인다.

  • PDF

3D Viewing Images Reconstruction for an Integral Image using CUDA (CUDA를 이용한 집적영상에 대한 3D 시차영상 재생)

  • Yoo, Kwan-Hee;Kim, Do-Hyeong;Jeong, Ji-Seong;Park, Chan;Kwon, Ki-Chul;Kim, Nam;Baek, Nakhoon
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2011.05a
    • /
    • pp.55-56
    • /
    • 2011
  • 본 논문에서는 무안경식 3D 디스플레이 영상으로 사용되는 집적영상(Integral Imaging)이 주어졌을 때, CUDA를 이용하여 사용자 시점에 따라 다르게 나타나는 3D 영상을 효율적으로 재생하기 위해 기법을 제안한다. 제시된 기법을 사용하여 생성된 3D 시차 영상(Viewing Images)은 기존 CPU 기반 3D 영상 재생 기법보다 매우 빠르게 생성되었다.

  • PDF

Parallelization of Cell Contour Line Extraction Algorithm (세포 외곽선 추출 알고리즘의 병렬화)

  • Lee, Ho Seok;Yu, Suk Hyun;Kwon, Hee Yong
    • Journal of Korea Multimedia Society
    • /
    • v.18 no.10
    • /
    • pp.1180-1188
    • /
    • 2015
  • In this paper, a parallel cell contour line extraction algorithm using CUDA, which has no inner contour lines, is proposed. The contour of a cell is very important in a cell image analysis. It could be obtained by a conventional serial contour tracing algorithm or parallel morphology operation. However, the cell image has various damages in acquisition or dyeing process. They could be turn into several inner contours, which make a cell image analysis difficult. The proposed algorithm introduces a min-max coordinates table into each CUDA thread block, and removes the inner contour in parallel. It is 4.1 to 7.6 times faster than a conventional serial contour tracing algorithm.

Implementing Neural Network and measuring execution speed using CUDA based on Parallel Computing (CUDA를 사용한 병렬 컴퓨팅 기반 신경망 구현 및 수행 속도 측정)

  • Jang, Yong-Seok;Jeon, Woong-Gi;O, Byeong-Jin;Choi, Heung-Kook
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2012.05a
    • /
    • pp.275-278
    • /
    • 2012
  • 신경망 이론은 그 특성상 각각의 뉴런과 신경들 사이의 병렬적인 처리에 의해 Input에 대한 Output을 계산해 낸다. 하지만, 현대 컴퓨터들은 CPU를 통한 순차처리 방식으로 정보를 취급하기에 그 근본 구조가 달라 병렬구조를 모사하기 위해 계산하는 과정에 많은 시간이 소요된다. 본 논문에서는 신경망 학습을 NVIDIA사에서 제공한 CUDA를 사용하여 병렬 컴퓨팅 구조로 수행함으로서 시간을 단축시키는 것을 확인하고자 한다.

  • PDF

Visualization based on brain MRI using CUDA (뇌 MR 영상 기반 CUDA를 사용한 3차원 가시화)

  • Son, Ji-Heon;Jeon, Woong-Gi;Lee, Young-Seung;Seo, Won-Ho;Choi, Heung-Kook
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2012.05a
    • /
    • pp.201-204
    • /
    • 2012
  • 최근 우리나라 사회가 고령화로 진행함에 따라 노인성 질환인 치매 환자가 증가하고 있는 추세이다. 치매를 진단하기 위한 방법으로는 뇌 MR 영상을 사용하여 치매에 의해 영향을 받는 특정 뇌 영역인 해마의 위축률을 기반으로 진단 할 수 있다는 보고가 있다. 본 연구에서는 치매 환자 위한 보조적 판별 시스템 개발의 예비 연구로써 뇌 MR 영상 데이터를 3차원으로 가시화하는 것이 목적이며, 최근 대용량으로 획득되는 MR 영상을 고속으로 처리하기 위하여 CUDA를 사용한 병렬 컴퓨팅 구축을 하고 FPS(Frame Per Second)를 측정하여 유용성을 평가하고자 한다.

  • PDF

Accelerating the Retinex Algorithm with CUDA

  • Seo, Hyo-Seok;Kwon, Oh-Young
    • Journal of information and communication convergence engineering
    • /
    • v.8 no.3
    • /
    • pp.323-327
    • /
    • 2010
  • Recently, the television market trend is change to HD television and the need of the study on HD image enhancement is increased rapidly. To enhancement of image quality, the retinex algorithm is commonly used. That's why we studied how to accelerate the retinex algorithm with CUDA on GPGPU (general purpose graphics processing unit). Calculating average part in retinex algorithm is similar to pyramidal calculation. We parallelize this recursive pyramidal average calculating for all layers, map the average data into the 2D plane and reduce the calculating time dramatically. Sequential C code takes 8948ms to get the average values for all layers in $1024{\times}1024$ image, but proposed method takes only only about 0.9ms for the same image. We are going to study about the real-time HD video rendering and image enhancement.

Integer-Pel Motion Estimation for HEVC on Compute Unified Device Architecture (CUDA)

  • Lee, Dongkyu;Sim, Donggyu;Oh, Seoung-Jun
    • IEIE Transactions on Smart Processing and Computing
    • /
    • v.3 no.6
    • /
    • pp.397-403
    • /
    • 2014
  • A new video compression standard called High Efficiency Video Coding (HEVC) has recently been released onto the market. HEVC provides higher coding performance compared to previous standards, but at the cost of a significant increase in encoding complexity, particularly in motion estimation (ME). At the same time, the computing capabilities of Graphics Processing Units (GPUs) have become more powerful. This paper proposes a parallel integer-pel ME (IME) algorithm for HEVC on GPU using the Compute Unified Device Architecture (CUDA). In the proposed IME, concurrent parallel reduction (CPR) is introduced. CPR performs several parallel reduction (PR) operations concurrently to solve two problems in conventional PR; low thread utilization and high thread synchronization latency. The proposed encoder reduces the portion of IME in the encoder to almost zero with a 2.3% increase in bitrate. In terms of IME, the proposed IME is up to 172.6 times faster than the IME in the HEVC reference model.

Time Complexity Measurement on CUDA-based GPU Parallel Architecture of Morphology Operation

  • Izmantoko, Yonny S.;Choi, Heung-Kook
    • Journal of Korea Multimedia Society
    • /
    • v.16 no.4
    • /
    • pp.444-452
    • /
    • 2013
  • Operation time of a function or procedure is a thing that always needs to be optimized. Parallelizing the operation is the general method to reduce the operation time of the function. One of the most powerful parallelizing methods is using GPU. In image processing field, one of the most commonly used operations is morphology operation. Three types of morphology operations kernel, na$\ddot{i}$ve, global and shared, are presented in this paper. All kernels are made using CUDA and work parallel on GPU. Four morphology operations (erosion, dilation, opening, and closing) using square structuring element are tested on MRI images with different size to measure the speedup of the GPU implementation over CPU implementation. The results show that the speedup of dilation is similar for all kernels. However, on erosion, opening, and closing, shared kernel works faster than other kernels.