• 제목/요약/키워드: Compute unified device architecture

검색결과 61건 처리시간 0.023초

A PRICING METHOD OF HYBRID DLS WITH GPGPU

  • YOON, YEOCHANG;KIM, YONSIK;BAE, HYEONG-OHK
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제20권4호
    • /
    • pp.277-293
    • /
    • 2016
  • We develop an efficient numerical method for pricing the Derivative Linked Securities (DLS). The payoff structure of the hybrid DLS consists with a standard 2-Star step-down type ELS and the range accrual product which depends on the number of days in the coupon period that the index stay within the pre-determined range. We assume that the 2-dimensional Geometric Brownian Motion (GBM) as the model of two equities and a no-arbitrage interest model (One-factor Hull and White interest rate model) as a model for the interest rate. In this study, we employ the Monte Carlo simulation method with the Compute Unified Device Architecture (CUDA) parallel computing as the General Purpose computing on Graphic Processing Unit (GPGPU) technology for fast and efficient numerical valuation of DLS. Comparing the Monte Carlo method with single CPU computation or MPI implementation, the result of Monte Carlo simulation with CUDA parallel computing produces higher performance.

Computationally Efficient Implementation of a Hamming Code Decoder Using Graphics Processing Unit

  • Islam, Md Shohidul;Kim, Cheol-Hong;Kim, Jong-Myon
    • Journal of Communications and Networks
    • /
    • 제17권2호
    • /
    • pp.198-202
    • /
    • 2015
  • This paper presents a computationally efficient implementation of a Hamming code decoder on a graphics processing unit (GPU) to support real-time software-defined radio, which is a software alternative for realizing wireless communication. The Hamming code algorithm is challenging to parallelize effectively on a GPU because it works on sparsely located data items with several conditional statements, leading to non-coalesced, long latency, global memory access, and huge thread divergence. To address these issues, we propose an optimized implementation of the Hamming code on the GPU to exploit the higher parallelism inherent in the algorithm. Experimental results using a compute unified device architecture (CUDA)-enabled NVIDIA GeForce GTX 560, including 335 cores, revealed that the proposed approach achieved a 99x speedup versus the equivalent CPU-based implementation.

CUDA를 이용한 Particle Swarm Optimization 구현 (Implementation of Particle Swarm Optimization Method Using CUDA)

  • 김조환;김은수;김종욱
    • 전기학회논문지
    • /
    • 제58권5호
    • /
    • pp.1019-1024
    • /
    • 2009
  • In this paper, particle swarm optimization(PSO) is newly implemented by CUDA(Compute Unified Device Architecture) and is applied to function optimization with several benchmark functions. CUDA is not CPU but GPU(Graphic Processing Unit) that resolves complex computing problems using parallel processing capacities. In addition, CUDA helps one to develop GPU softwares conveniently. Compared with the optimization result of PSO executed on a general CPU, CUDA saves about 38% of PSO running time as average, which implies that CUDA is a promising frame for real-time optimization and control.

CUDA FORTRAN을 이용한 운동파 강우유출모형 (Kinematic Wave Rainfall-Runoff Model Using CUDA FORTRAN)

  • 김보람;김대홍
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.271-271
    • /
    • 2018
  • 그래픽 처리 장치(GPU: Graphic Processing Units)는 그래픽 처리에 특화된 수많은 산술논리연산자 (ALU: Arithmetic Logic Unit)와 이에 관련된 인스트럭션Instruction)으로 인해 중앙 처리 장치(CPU: Central Processing Units) 보다 훨씬 빠른 계산 처리를 수행할 수 있다. 최근에는 FORTRAN에 의해 구현된 많은 수치모형들이 현실적인 모델링 방법의 발달로 인해 더 많은 계산량과 계산시간을 필요로 한다. 이 연구에서는 GPU 상의 범용 계산GPGPU : General-Purpose computing on Graphics Processing Units) 기반 운동파 강우유출모형(Kinematic Wave Rainfall-Runoff Model)이 CUDA(Compute Unified Device Architecture) FORTRAN을 사용하여 구현되었다. CUDA FORTRAN 운동파 강우유출모형의 계산 결과는 검증된 CPU 기반 운동파 강우유출모형의 계산 결과와 비교하여 검증되었으며, 잘 일치함을 보여 주었다. CUDA FORTRAN 운동파 강우유출모형은 CPU 기반 모형에 비해 약 20 배 더 빠른 계산 시간을 보였다. 또한 계산 영역이 커짐에 따라 CPU 버전에 비해 CUDA FORTRAN 버전의 계산 효율이 향상되었다.

  • PDF

CUDA FORTEAN을 이용한 GPU 가속 운동파모형 적용성 분석 (Application Analysis of GPU-Accelerated Kinematic Wave Model Using CUDA Fortran)

  • 김보람;김형준;김수영;윤광석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.346-346
    • /
    • 2022
  • 본 연구에서는 GPU(Graphic Processing Unit) 가속 분포형모형을 실제 유역에 적용하여 강우 유출모의 결과의 정확성과 모의시간의 효율성에 대한 분석을 수행하였다. 분포형모형의 지배방정식은 운동파모형과 Green-Ampt모형으로 구성되어 있으며, 운동파모형은 유한체적법을 이용하여 이산화 하였다. GPU 가속 모형은 CUDA(Compute Unified Device Architecture) 포트란(Fortran)을 사용하여 개발된 모형으로 수치모의시 연산시간 단축을 고려한 모형이다. 모형의 정확성과 효율성은 미호천 유역에서 발생하는 강우유출현상에 GPU 가속 운동파모형을 적용하여 분석하였다. 수치모의 결과값은 대상유역에 속한 수위관측소의 관측값과 비교하여 정확성을 검증하였고, 수치모의 소요시간은 CPU(Central Processing Unit) 기반 운동파모형의 수치모의 소요시간과 비교하여 효율성을 검증하였다. GPU 가속 운동파모형의 수치모의 결과는 관측값과 유사한 결과를 나타냈으며, 수치모의 소요시간은 본 연구에 사용된 장비를 기준으로 최대 100배 정도 단축되었다.

  • PDF

CUDA 라이브러리를 이용한 위성영상 병렬처리 : NDVI 연산을 중심으로 (Parallel Processing of Satellite Images using CUDA Library: Focused on NDVI Calculation)

  • 이강훈;조명희;이원희
    • 한국지리정보학회지
    • /
    • 제19권3호
    • /
    • pp.29-42
    • /
    • 2016
  • 원격탐사는 넓은 지역을 직접 접촉하지 않고 정보를 취득할 수 있고 다양한 분야에 적용할 수 있음으로써 급속히 발전하게 되었다. 이에 따라 위성의 제원 또한 원격탐사의 발전과 함께 급속한 발전을 이루게 되었다. 이러한 이유로 여러 분야에서 활용에 관한 연구가 활발히 이루어지고 있다. 현재 활용에 관한 연구는 활발히 이루어지고 있지만, 자료처리에 관련된 연구가 부족한 실정이다. 예전보다 인공위성의 제원이 발전하면서 많은 양의 정보 획득이 가능해진 것과 동시에 데이터 크기 또한 매우 커졌다. 이는 과거에 비해 자료의 처리속도가 저하된다는 단점이 존재한다. 따라서 본 논문에서는 병렬 처리의 한 가지 기법인 NVIDIA에서 제공하고 있는 CUDA (Compute Unified Device Architecture) 라이브러리를 활용하여 위성영상 자료처리 성능의 최적화를 목적으로 하고 있다. 본 연구의 순서는 다음과 같다. 다목적실용위성(Korea Multi-Purpose Satellite, KOMPSAT)의 영상을 크기를 기준으로 5가지 Type으로 나눈다. 이렇게 나누어진 영상을 원격탐사 분야의 한 가지 방법인 NDVI (Normalized Difference Vegetation Index)로 구현한다. 이때 CPU (Central Processing Unit, 중앙처리장치) 기반과 GPU (Graphic Processing Unit, 그래픽처리장치) 기반의 두 가지 방법과 상용 소프트웨어인 ArcMap을 이용하여 NDVI를 구현한다. 그리고 동일한 영상 유무를 판단하기 위해 구현된 결과 영상들을 히스토그램과 시각적으로 비교하고 CPU 버전과 GPU 버전의 처리속도를 비교 분석하였다. 연구결과 CPU 버전과 GPU 버전의 결과 영상은 ArcMap으로 구현한 영상과 시각적 그리고 히스토그램 비교를 통해 같은 결과를 나타내어 NDVI 코드는 올바르게 구현되었으며, 처리속도는 CPU보다 GPU가 약 5배 정도 빠른 것으로 확인하였다. 본 연구에서 병렬 처리의 한 기법인 CUDA 라이브러리를 활용하여 위성영상 자료처리 성능을 향상시킬 수 있었으며, 향후 NDVI와 같은 단순한 픽셀 연산 이외에도 다양한 원격탐사 기법의 적용이 필요할 것으로 사료된다.

CUDA 연산을 이용한 개선된 영상 매칭 방법에 관한 연구 (A Study on Improved Image Matching Method using the CUDA Computing)

  • 조경래;박병준;윤태복
    • 한국산학기술학회논문지
    • /
    • 제16권4호
    • /
    • pp.2749-2756
    • /
    • 2015
  • 최근 데이터의 질이 높아짐에 따라 영상을 처리하는데 많은 시간이 소모되는 문제가 제기되어 영상 처리 알고리즘의 가속화가 필요하게 됨으로써, 기존의 CPU와 CUDA(Compute Unified Device Architecture) 기반의 인식 시스템에서 연산속도와 성능이득 비교를 위해 OpenMP를 가지고 측정할 수 있는 문자 인식시스템으로 학습된 문자데이터가 입력되면 매칭이 가장 잘 되는 영상의 영역을 인식하는 환경으로 구현하여 각 영문 알파벳의 글씨체가 일정하고 크기가 규격화 되어 있으므로 문자를 학습하고 문자 정합도를 계산하기 위한 영상 매칭 방법을 구현하게 되었다. GPGPU(General Purpose GPU)프로그래밍 플랫폼 기술인 CUDA연산 기법을 이용하여 알고리즘을 빠르고 효율적으로 처리하는 OpenMP에서 인텔 i5 2500의 네 개의 코어를 사용하여 인식 할 때, 기존 CPU의 성능보다 4배의 속도가 나오지 않고 데이터의 분할과 병합 연산의 지연으로 인해 약 3.2배의 속도로 향상되는 가속화 방법을 제안하고 그래픽카드에서 처리하는 병렬처리 결과, 순차적 연산을 수행하였던 CPU 기반의 처리에 비해 성능이득이 약 21X(배)로 향상됨을 확인하였다.

다중 카메라 기반 대영역 고해상도 영상획득 시스템과 실시간 영상 정합 알고리즘 (Multiple Camera Based Imaging System with Wide-view and High Resolution and Real-time Image Registration Algorithm)

  • 이승현;김민영
    • 전자공학회논문지SC
    • /
    • 제49권4호
    • /
    • pp.10-16
    • /
    • 2012
  • 영상 기반 반도체 검사 장비의 검사 고속화와 검사 정확도를 위해, 넓은 FOV와 고해상도를 동시에 가지는 2차원 영상을 획득하는 것은 검사 장비에 필수적이다. 본 논문에서는 정밀도와 FOV 측면에서 양질의 영상 획득을 위한 새로운 영상획득 시스템을 제안하였다. 제안시스템은 하나의 렌즈와 광분할기, 두 개의 카메라 센서, 스테레오 영상획득 보드로 구성되며, 하나의 렌즈를 통해 입력되는 영상을 두 개의 카메라 센서를 통해 동시에 영상 획득한다. 획득된 영상의 정합을 위해, 첫 번째로 Zhang의 카메라 교정 방법을 적용시켜 각각의 카메라를 교정한다. 두 번째로 다른 카메라에서 획득한 두 영상들 사이의 수학적인 정합 함수를 찾기 위해 각 영상의 호모그래피(homography)를 이용하여, 양측 카메라간의 정합 행렬을 계산한다. 영상 호모그래피를 통해서, 획득된 두 영상은 하나의 최종 검사 영상으로의 통합을 위해 최종적으로 정합될 수 있다. 다중 카메라로부터 입력되는 다중 영상들을 활용하는 제안 검사 시스템은 실시간 영상 정합을 위해 매우 빠른 프로세스 유닛의 도움이 필요하다. 이를 위해 CUDA (Compute Unified Device Architecture)기반 병렬 프로세싱 하드웨어 및 소프트웨어를 활용한다. 두 개의 분할된 영상으로부터 실시간으로 정합된 영상을 얻을 수 있었으며, 마지막으로 연속된 실험을 통해 획득한 호모그래피의 정확도를 확인할 수 있다. 실험으로 얻은 결과들은 제안된 시스템과 방법이 대영역 고해상도 검사영상 획득을 위해 효과적임을 보인다.

GPGPU 기반의 변위증분 방법을 이용한 중간시점 고속 생성 (Fast Generation of Intermediate View Image Using GPGPU-Based Disparity Increment Method)

  • 구자명;서영호;김동욱
    • 한국정보통신학회논문지
    • /
    • 제17권8호
    • /
    • pp.1908-1918
    • /
    • 2013
  • 자유시점 또는 오토스테레오스코픽 비디오 서비스는 3차원 영상을 제공하는 차세대 방송 시스템으로, 여러 시점의 영상들이 필요하다. 본 논문에서는 가상 시점 영상을 고속 생성하기 위해 알고리즘 병렬 구조를 최적화하고, Compute Unified Device Architecture(CUDA)를 이용한 General Propose Graphic Processing Unit(GPGPU) 기반의 중간시점 영상 고속 생성을 위한 최적화 기법을 제안한다. 제안한 방법은 좌/우 깊이영상을 병렬화시킨 스테레오 정합알고리즘을 이용하여 변위정보를 얻은 후, 깊이 당 변위증분을 계산하여 사용한다. 계산된 변위증분을 사용하여 해당 각 화소들의 깊이 값을 이용하여 좌/우 영상들을 원하는 위치의 중간시점으로 영상을 이동시킨다. 그 다음, 비폐색영역들을 서로 상호 보완하여 없앤 다음에 남은 홀들은 홀 필링으로 없애 최종 중간시점 영상을 생성한다. 제안한 방법을 구현하여 여러 실험 영상에 적용한 결과, 생성된 중간시점 깊이영상의 화질은 평균 PSNR 30.47dB이었으며, Full HD급 중간시점 영상을 초당 38 프레임 정도 생성하는 속도를 보였다.

GPU 가속 기술을 이용한 격자 볼츠만법 기반 원유 확산 과정 시뮬레이션 (GPU-accelerated Lattice Boltzmann Simulation for the Prediction of Oil Slick Movement in Ocean Environment)

  • 하솔;구남국;노명일
    • 한국CDE학회논문집
    • /
    • 제18권6호
    • /
    • pp.399-406
    • /
    • 2013
  • This paper describes a new simulation technique for advection-diffusion phenomena over the sea surface using the lattice Boltzmann method (LBM), capable of predicting oil dispersion from tankers. The LBM is used to solve the pollutant transport problem within the framework of the ocean environment. The sea space is represented by the lattices, where each lattice has the information on oil transportation. Since dispersed oils (i.e., oil droplets) at sea are transported by convection due to waves, buoyancy, and turbulent diffusion, the conservation of mass and many physical oil transport rules were used in the prediction model. Since the LBM is modeled using the uniform lattices and simple rules, it can be easily accelerated by the parallel mechanism, for example, GPU-accelerated method. The proposed model using the LBM is used to simulate a simple pollution event with the oil pollutants of 10,000 kL. The simulation results indicate that the LBM method accelerated with the GPU is 6 times faster than that without the GPU.