• 제목/요약/키워드: CUDA

검색결과 294건 처리시간 0.023초

ELBP 분류기를 이용한 초해상도 기법의 CUDA 최적화 (CUDA Optimization of Super-Resolution Algorithm using ELBP Classifier)

  • 최지훈;송병철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 하계학술대회
    • /
    • pp.92-94
    • /
    • 2016
  • 저해상도 영상을 고해상도 영상으로 복원하기 위한 다양한 방법의 초해상도 기법이 존재한다. 다양한 기법들 중에서도 ELBP 분류기를 이용한 초해상도 기법[1]은 단일 영상 기반의 초해상도 기법으로 사전에 학습된 필터를 이용하여 고해상도 영상을 획득하는 기법이다. 그러나 해당 알고리즘을 일반적인 CPU 환경에서 수행할 경우 실시간으로 영상을 획득하는데 어려움이 존재한다. 본 논문에서는 지역메모리를 이용한 GPU 환경에서의 최적화를 수행하여 ELBP 분류기를 이용한 초해상도 기법의 가속성을 보인다. 먼저, 알고리즘에 대하여 간단히 설명하고 CUDA 가속화 기법[2]을 차례로 적용했을 때 얻을 수 있는 가속 성능을 확인한다. 최종적으로 본 논문은 CPU 환경과 비교했을 때 5 배의 가속 효과를 얻을 수 있다.

  • PDF

GPU를 이용한 무리 짓기에서 이웃 에이전트 찾기의 병렬 처리 (A Parallel Processing of Finding Neighbor Agents in Flocking Behaviors Using GPU)

  • 이재문
    • 한국게임학회 논문지
    • /
    • 제10권5호
    • /
    • pp.95-102
    • /
    • 2010
  • 논문은 GPU를 이용한 무리 짓기에 대한 병렬 알고리즘을 제안한다. 이를 위하여 GPU의 병렬처리 구조로 CUDA를 사용하였으며, 그것의 특성 및 제한 요소들을 분석하였다. 이의 특성 및 제한 요소를 기초로 무리 짓기에서 가장 많은 비용을 요구하는 이웃 에이전트들을 찾는 것을 병렬화 함으로써 성능을 개선하였다. 제안된 알고리즘을 GTX 285상에서 구현하였고, 그것의 성능을 실험적으로 기존의 공간분할 알고리즘과 비교하였다. 비교의 결과는 제안된 알고리즘이 실행 시간 관점에서 최대 9배 정도 우수하다는 것을 보였다.

GPU의 병렬 처리 기능을 이용한 PSO(Particle Swarm Optimization) 알고리듬 구현 (Implementation of PSO(Particle Swarm Optimization) Algorithm using Parallel Processing of GPU)

  • 김은수;김조환;김종욱
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.181-182
    • /
    • 2008
  • 본 논문에서는 연산 최적화 알고리듬 중 PSO(Particle Swarm Optimization) 알고리듬을 NVIDIA사(社)에서 제공한 CUDA(Compute Unified Device Architecture)를 이용하여 새롭게 구현하였다. CUDA는 CPU가 아닌 GPU(Graphic Processing Unit)의 다양한 병렬 처리 능력을 사용해 복잡한 컴퓨팅 문제를 해결하는 소프트웨어 개발을 가능케 하는 기술이다. 이 기술을 연산 최적화 알고리듬 중 PSO에 적용함으로써 알고리듬의 수행 속도를 개선하였다. CUDA를 적용한 PSO 알고리듬의 검증을 위해 언어 기반으로 프로그래밍하고 다양한 Test Function을 통해 시뮬레이션 하였다. 그리고 기존의 PSO 알고리듬과 비교 분석하였다. 또한 알고리듬의 성능 향상으로 여러 가지 최적화 분야에 적용 할 수 있음을 보인다.

  • PDF

CUDA를 이용한 집적영상에 대한 3D 시차영상 재생 (3D Viewing Images Reconstruction for an Integral Image using CUDA)

  • 류관희;김도형;정지성;박찬;권기철;김남;백낙훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2011년도 춘계 종합학술대회 논문집
    • /
    • pp.55-56
    • /
    • 2011
  • 본 논문에서는 무안경식 3D 디스플레이 영상으로 사용되는 집적영상(Integral Imaging)이 주어졌을 때, CUDA를 이용하여 사용자 시점에 따라 다르게 나타나는 3D 영상을 효율적으로 재생하기 위해 기법을 제안한다. 제시된 기법을 사용하여 생성된 3D 시차 영상(Viewing Images)은 기존 CPU 기반 3D 영상 재생 기법보다 매우 빠르게 생성되었다.

  • PDF

세포 외곽선 추출 알고리즘의 병렬화 (Parallelization of Cell Contour Line Extraction Algorithm)

  • 이호석;유숙현;권희용
    • 한국멀티미디어학회논문지
    • /
    • 제18권10호
    • /
    • pp.1180-1188
    • /
    • 2015
  • In this paper, a parallel cell contour line extraction algorithm using CUDA, which has no inner contour lines, is proposed. The contour of a cell is very important in a cell image analysis. It could be obtained by a conventional serial contour tracing algorithm or parallel morphology operation. However, the cell image has various damages in acquisition or dyeing process. They could be turn into several inner contours, which make a cell image analysis difficult. The proposed algorithm introduces a min-max coordinates table into each CUDA thread block, and removes the inner contour in parallel. It is 4.1 to 7.6 times faster than a conventional serial contour tracing algorithm.

CUDA를 사용한 병렬 컴퓨팅 기반 신경망 구현 및 수행 속도 측정 (Implementing Neural Network and measuring execution speed using CUDA based on Parallel Computing)

  • 장용석;전웅기;오병진;최흥국
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2012년도 춘계학술발표대회논문집
    • /
    • pp.275-278
    • /
    • 2012
  • 신경망 이론은 그 특성상 각각의 뉴런과 신경들 사이의 병렬적인 처리에 의해 Input에 대한 Output을 계산해 낸다. 하지만, 현대 컴퓨터들은 CPU를 통한 순차처리 방식으로 정보를 취급하기에 그 근본 구조가 달라 병렬구조를 모사하기 위해 계산하는 과정에 많은 시간이 소요된다. 본 논문에서는 신경망 학습을 NVIDIA사에서 제공한 CUDA를 사용하여 병렬 컴퓨팅 구조로 수행함으로서 시간을 단축시키는 것을 확인하고자 한다.

  • PDF

뇌 MR 영상 기반 CUDA를 사용한 3차원 가시화 (Visualization based on brain MRI using CUDA)

  • 손지현;전웅기;이영승;서원호;최흥국
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2012년도 춘계학술발표대회논문집
    • /
    • pp.201-204
    • /
    • 2012
  • 최근 우리나라 사회가 고령화로 진행함에 따라 노인성 질환인 치매 환자가 증가하고 있는 추세이다. 치매를 진단하기 위한 방법으로는 뇌 MR 영상을 사용하여 치매에 의해 영향을 받는 특정 뇌 영역인 해마의 위축률을 기반으로 진단 할 수 있다는 보고가 있다. 본 연구에서는 치매 환자 위한 보조적 판별 시스템 개발의 예비 연구로써 뇌 MR 영상 데이터를 3차원으로 가시화하는 것이 목적이며, 최근 대용량으로 획득되는 MR 영상을 고속으로 처리하기 위하여 CUDA를 사용한 병렬 컴퓨팅 구축을 하고 FPS(Frame Per Second)를 측정하여 유용성을 평가하고자 한다.

  • PDF

Accelerating the Retinex Algorithm with CUDA

  • Seo, Hyo-Seok;Kwon, Oh-Young
    • Journal of information and communication convergence engineering
    • /
    • 제8권3호
    • /
    • pp.323-327
    • /
    • 2010
  • Recently, the television market trend is change to HD television and the need of the study on HD image enhancement is increased rapidly. To enhancement of image quality, the retinex algorithm is commonly used. That's why we studied how to accelerate the retinex algorithm with CUDA on GPGPU (general purpose graphics processing unit). Calculating average part in retinex algorithm is similar to pyramidal calculation. We parallelize this recursive pyramidal average calculating for all layers, map the average data into the 2D plane and reduce the calculating time dramatically. Sequential C code takes 8948ms to get the average values for all layers in $1024{\times}1024$ image, but proposed method takes only only about 0.9ms for the same image. We are going to study about the real-time HD video rendering and image enhancement.

Integer-Pel Motion Estimation for HEVC on Compute Unified Device Architecture (CUDA)

  • Lee, Dongkyu;Sim, Donggyu;Oh, Seoung-Jun
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제3권6호
    • /
    • pp.397-403
    • /
    • 2014
  • A new video compression standard called High Efficiency Video Coding (HEVC) has recently been released onto the market. HEVC provides higher coding performance compared to previous standards, but at the cost of a significant increase in encoding complexity, particularly in motion estimation (ME). At the same time, the computing capabilities of Graphics Processing Units (GPUs) have become more powerful. This paper proposes a parallel integer-pel ME (IME) algorithm for HEVC on GPU using the Compute Unified Device Architecture (CUDA). In the proposed IME, concurrent parallel reduction (CPR) is introduced. CPR performs several parallel reduction (PR) operations concurrently to solve two problems in conventional PR; low thread utilization and high thread synchronization latency. The proposed encoder reduces the portion of IME in the encoder to almost zero with a 2.3% increase in bitrate. In terms of IME, the proposed IME is up to 172.6 times faster than the IME in the HEVC reference model.

Time Complexity Measurement on CUDA-based GPU Parallel Architecture of Morphology Operation

  • Izmantoko, Yonny S.;Choi, Heung-Kook
    • 한국멀티미디어학회논문지
    • /
    • 제16권4호
    • /
    • pp.444-452
    • /
    • 2013
  • Operation time of a function or procedure is a thing that always needs to be optimized. Parallelizing the operation is the general method to reduce the operation time of the function. One of the most powerful parallelizing methods is using GPU. In image processing field, one of the most commonly used operations is morphology operation. Three types of morphology operations kernel, na$\ddot{i}$ve, global and shared, are presented in this paper. All kernels are made using CUDA and work parallel on GPU. Four morphology operations (erosion, dilation, opening, and closing) using square structuring element are tested on MRI images with different size to measure the speedup of the GPU implementation over CPU implementation. The results show that the speedup of dilation is similar for all kernels. However, on erosion, opening, and closing, shared kernel works faster than other kernels.