• 제목/요약/키워드: CUDA (Compute Unified Device Architecture)

검색결과 57건 처리시간 0.028초

연속 영상 기반 실시간 객체 분할 (Real-Time Object Segmentation in Image Sequences)

  • 강의선;유승훈
    • 정보처리학회논문지B
    • /
    • 제18B권4호
    • /
    • pp.173-180
    • /
    • 2011
  • 본 논문은 GPU(Graphics Processing Unit) 에서 CUDA(Compute Unified Device Architecture)를 사용하여 실시간으로 객체를 분할하는 방법을 소개한다. 최근에 감시 시스템, 오브젝트 추적, 모션 분석 등의 많은 응용 프로그램들은 실시간 처리가 요구된다. 이러한 단계의 선행부분인 객체 분할 기법은 기존 CPU 기반의 시스템으로는 실시간 처리에 제약이 발생한다. NVIDIA에서는 Parallel Processing for General Computation 을 위해 그래픽 하드웨어 제약을 개선한 CUDA platform을 제공하고 있다. 본 논문에서는 객체 추출 단계에 대표적인 적응적 가우시안 혼합 배경 모델링(Adaptive Gaussian Mixture Background Modeling) 알고리즘과 Classification 기법으로 사용되는 CCL (Connected Component Labeling) 알고리즘을 적용하였다. 본 논문은 2.4GHz를 갖는 Core2 Quad 프로세서와 비교하여 평가하였고 그 결과 3~4배 이상의 성능향상을 확인할 수 있었다.

GPU 하드웨어 아키텍처 기반 sub-warp 단위 병렬 프리픽스(prefix) 연산의 정확한 구현 (Correct Implementation of Sub-warp Parallel Prefix Operations based on GPU Hardware Architecture)

  • 박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권3호
    • /
    • pp.613-619
    • /
    • 2017
  • 본 논문에서는 대규모 데이터를 길이가 32 미만인 로컬 세그먼트 단위로 구분하고 이 로컬 세그먼트 내에서 정확한 GPU 병렬 프리픽스(prefix) 연산 결과를 출력하는 CUDA (Compute Unified Device Architecture) 코드를 제시한다. 이미 Mark Harris와 Michael Garland가 이러한 목적을 수행하기 위한 CUDA 코드를 이미 발표한 바 있으나 본 논문에서는 로컬 세그먼트의 길이가 32 미만일 때 기존 코드의 결과가 정확하지 않다는 사실을 살펴 보고 그 원인을 논의한 후, 정확한 결과를 출력하는 코드를 제안한다. 본 논문에서 다루는 로컬 세그먼트 단위의 병렬 프리픽스 연산은 최인접 요소 탐색(k-nearest neighbor search) 등은 물론 다양한 대규모 병렬 처리 알고리즘을 구성하는 기본 연산으로 활용 가능하다.

Integer-Pel Motion Estimation for HEVC on Compute Unified Device Architecture (CUDA)

  • Lee, Dongkyu;Sim, Donggyu;Oh, Seoung-Jun
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제3권6호
    • /
    • pp.397-403
    • /
    • 2014
  • A new video compression standard called High Efficiency Video Coding (HEVC) has recently been released onto the market. HEVC provides higher coding performance compared to previous standards, but at the cost of a significant increase in encoding complexity, particularly in motion estimation (ME). At the same time, the computing capabilities of Graphics Processing Units (GPUs) have become more powerful. This paper proposes a parallel integer-pel ME (IME) algorithm for HEVC on GPU using the Compute Unified Device Architecture (CUDA). In the proposed IME, concurrent parallel reduction (CPR) is introduced. CPR performs several parallel reduction (PR) operations concurrently to solve two problems in conventional PR; low thread utilization and high thread synchronization latency. The proposed encoder reduces the portion of IME in the encoder to almost zero with a 2.3% increase in bitrate. In terms of IME, the proposed IME is up to 172.6 times faster than the IME in the HEVC reference model.

최적화된 CUDA 소프트웨어 제작을 위한 프로그래밍 기법 분석 (Analysis of Programming Techniques for Creating Optimized CUDA Software)

  • 김성수;김동헌;우상규;임인성
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권7호
    • /
    • pp.775-787
    • /
    • 2010
  • GPU(Graphics Processing Unit)는 범용 CPU와는 달리 다수코어 스트리밍 프로세서(manycore streaming processor) 형태로 특화되어 발전되어 왔으며, 최근 뛰어난 병렬 처리 연산 능력으로 인하여 점차 많은 영역에서 CPU의 역할을 대체하고 있다. 이러한 추세에 따라 최근 NVIDIA 사에서는 GPGPU(General Purpose GPU) 아키텍처인 CUDA(Compute Unified Device Architecture)를 발표하여 보다 유연한 GPU 프로그래밍 환경을 제공하고 있다. 일반적으로 CUDA API를 사용한 프로그래밍 작업시 GPU의 계산구조에 관한 여러 가지 요소들에 대한 특성을 정확히 파악해야 효율적인 병렬 소프트웨어를 개발할 수 있다. 본 논문에서는 다양한 실험과 시행착오를 통하여 획득한 CUDA 프로그래밍에 관한 최적화 기법에 대하여 설명하고, 그러한 방법들이 프로그램 수행의 효율에 어떠한 영향을 미치는지 알아본다. 특히 특정 예제 문제에 대하여 효과적인 계층 구조 메모리의 접근과 코어 활성화 비율(occupancy), 지연 감춤(latency hiding) 등과 같이 성능에 영향을 미치는 몇 가지 규칙을 실험을 통해 분석해봄으로써, 향후 CUDA를 기반으로 하는 효과적인 병렬 프로그래밍에 유용하게 활용할 수 있는 구체적인 방안을 제시한다.

교통신호제어를 위한 CUDA기반 보행자 행동판단 (Pedestrians Action Interpretation based on CUDA for Traffic Signal Control)

  • 이홍창;이상용;김영백
    • 한국지능시스템학회논문지
    • /
    • 제20권5호
    • /
    • pp.631-637
    • /
    • 2010
  • 본 연구에서는 교통 신호를 능동적으로 제어하기 위하여 횡단보도영역에서 보행자의 행동을 판단하는 방법을 제안한다. 코드북기법을 이용하여 보행자 객체를 검출하고, 외곽선을 정보를 획득한다. 신속한 객체 검출을 위하여 CUDA(Compute Unified Device Architecture)기반 병렬화 처리한다. 해당 객체의 형상정보에 왜곡을 일으키는 투영 음영을 제거한 후, 보행자 객체가 보행자인지 혹은 차량, 동물인지를 식별하기 위해 힐버트 스캔 거리값(Hilbert Scan Distance)을 이용한 형판정합 기법을 수행한다. 정합 후에는 보행자 객체의 움직임, 얼굴영역의 특징, 대기 시간의 분석을 통하여 보행자의 횡단보도 이용 의지를 판단하고 교통신호를 제어한다.

Multi-GPU 기반의 고속 디지털 홀로그램 생성 (Fast Generation of Digital Hologram Based on Multi-GPU)

  • 송중석;박정식;서영호;박종일
    • 방송공학회논문지
    • /
    • 제16권6호
    • /
    • pp.1009-1017
    • /
    • 2011
  • 실시간 홀로그래피 방송을 제작하기 위해서는 디지털 홀로그램을 고속으로 생성하는 것이 중요하다. 본 논문에서는 디지털 홀로그램 생성을 위한 Computer-Generated Holography(CGH) 식의 병렬 구조를 최적화하고, Compute Unified Device Architecture(CUDA)와 Open Multi-Processing (OpenMP) 를 이용한 Multi Graphic Processing Unit(Multi-GPU) 기반의 디지털 홀로그램의 고속 생성을 위한 최적화 기법을 제안한다. 디지털 홀로그램을 생성하는 과정은 독립적인 연산을 할 수 있는 다수의 개체로 병렬화 할 수 있는 구조이기 때문에 이에 특화된 CUDA와 OpenMP를 사용함으로써 CGH식을 고속으로 연산할 수 있다. 여기서 더 나아가 이를 최적화하기 위해서 상수화, 벡터화, 루프풀기 등의 방법을 제안한다. 본 논문에서 제안된 기법을 통해서 기존 CPU에서의 CGH 연산속도에 비해 약 9,700배 정도의 속도를 개선할 수 있었다.

Parallel Implementation of the Recursive Least Square for Hyperspectral Image Compression on GPUs

  • Li, Changguo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권7호
    • /
    • pp.3543-3557
    • /
    • 2017
  • Compression is a very important technique for remotely sensed hyperspectral images. The lossless compression based on the recursive least square (RLS), which eliminates hyperspectral images' redundancy using both spatial and spectral correlations, is an extremely powerful tool for this purpose, but the relatively high computational complexity limits its application to time-critical scenarios. In order to improve the computational efficiency of the algorithm, we optimize its serial version and develop a new parallel implementation on graphics processing units (GPUs). Namely, an optimized recursive least square based on optimal number of prediction bands is introduced firstly. Then we use this approach as a case study to illustrate the advantages and potential challenges of applying GPU parallel optimization principles to the considered problem. The proposed parallel method properly exploits the low-level architecture of GPUs and has been carried out using the compute unified device architecture (CUDA). The GPU parallel implementation is compared with the serial implementation on CPU. Experimental results indicate remarkable acceleration factors and real-time performance, while retaining exactly the same bit rate with regard to the serial version of the compressor.

CUDA의 메모리 복사로 인한 성능 저하 연구 (A Study on a Declines in Performance by Memory Copy in CUDA)

  • 강지훈;이대원;강인성;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.135-138
    • /
    • 2013
  • GPGPU(General Purpose Graphics Processing Unit) 병렬처리 시스템인 CUDA(Compute Unified Device Architecture)는 컴퓨터에서의 고속 연산 처리를 위해 많이 사용되어왔다. CUDA에서 연산 처리를 하기 위해서는 CUDA의 특성을 이해해야 한다. CUDA는 CPU(Central Processing Unit)가 처리하는 Host 영역과 GPU(Graphics Processing Unit)가 처리하는 영역인 Device 영역이 존재하며, 이 두 영역간의 데이터 복사를 통해 연산 처리를 진행한다. 이런 구조적인 특성상 메인 메모리에서 GPU 메모리로 입력 데이터를 전달해야 GPU를 이용해 연산을 처리할 수 있는 구조를 가지고 있다. 하지만 이러한 처리 구조로 인해 연산 시간과 별도로 메인 메모리와 GPU 메모리간의 데이터 복사시간이 존재하며, 추가적으로 발생하는 메모리 복사 시간으로 인해 오버헤드가 발생하게 된다. 본 논문에서는 실험을 통해 메모리 복사 시간, 연산의 반복 횟수 그리고 연산의 복잡성이 전체 성능에 어떤 영향을 미치는지 논하고자 한다.

GPGPU 환경에서 최대휘소투영 렌더링의 고속화 방법 (Acceleration techniques for GPGPU-based Maximum Intensity Projection)

  • 계희원;김준호
    • 한국멀티미디어학회논문지
    • /
    • 제14권8호
    • /
    • pp.981-991
    • /
    • 2011
  • 최대휘소투영은 볼륨 렌더링의 한 기법으로, 의료영상을 판독하기 위해서 중요한 기능이다. 광선 투사법을 이용한 최대휘소투영 렌더링은 비교적 높은 화질의 영상을 생성하나 많은 연산을 요구한다. 본 연구는 그래픽 처리장치(GPU : Graphic Process Unit) 에 일반 연산을 적용하는 GPGPU(General-purpose computing on Graphic Process Unit) 기술을 이용하여 최대휘소투영 렌더링의 속도를 향상시키는 방법에 관한 연구를 수행한다. 본 논문에서는 GPGPU를 수행 할 수 있는 프로그래밍 언어인 CUDA(an acronym for Compute Unified Device Architecture)를 기반으로 고속 광선 투사법을 구현하며, CUDA 환경에 적함한 가속화 방법을 제안한다. 구체적으로, 블록 기반 공간 도약 기법을 적용하여 불필요한 부분을 도약하고, 이분 이동법을 통해 블록 경계면의 탐색을 고속으로 수행하며, 초기 값 추정 알고리즘을 이용하여 공간 도약 확률을 향상시킨다. 이를 통해 화질 손실 없이 최대휘소투영 렌더링의 가시화 속도를 크게 향상시킨다.

CUDA를 이용한 Particle Swarm Optimization 구현 (Implementation of Particle Swarm Optimization Method Using CUDA)

  • 김조환;김은수;김종욱
    • 전기학회논문지
    • /
    • 제58권5호
    • /
    • pp.1019-1024
    • /
    • 2009
  • In this paper, particle swarm optimization(PSO) is newly implemented by CUDA(Compute Unified Device Architecture) and is applied to function optimization with several benchmark functions. CUDA is not CPU but GPU(Graphic Processing Unit) that resolves complex computing problems using parallel processing capacities. In addition, CUDA helps one to develop GPU softwares conveniently. Compared with the optimization result of PSO executed on a general CPU, CUDA saves about 38% of PSO running time as average, which implies that CUDA is a promising frame for real-time optimization and control.