• Title/Summary/Keyword: Cuda

Search Result 294, Processing Time 0.033 seconds

Multi-view Range Image Registration using CUDA (CUDA를 이용한 다시점 거리영상 정합)

  • Choi, Sung-In;Park, Soon-Yong;Kim, Jun;Park, Yong-Woon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.533-538
    • /
    • 2008
  • 본 논문에서는 GPU의 성능을 이용하여 다시점 거리 영상을 실시간으로 정합하는 3차원 온라인 시스템을 제안한다. 제안한 시스템은 거리영상의 정교한 정합을 위해 IPP 알고리즘을 사용하였으며, 최신 GPU 프로그래밍 기법으로 각광받고 있는 CUDA를 이용하여 정합 알고리즘의 연산비용이 큰 부분에 해당하는 투영과 변환의 반복 부분을 수행하였다. 스테레오 기반 휴대용 거리센서에서 $320{\times}240$ 거리영상을 획득하여 정합 알고리즘을 수행한 결과, 초당 5장의 거리영상을 정합할 수 있었다. 제안한 온라인 시스템은 실시간 3차원 모델 복원 기술이 필요한 로봇위치 인식, 주행용 비전 기술, 문화재 원형 복원 등의 분야에서 활용될 수 있을 것이다.

  • PDF

Interactive Face Recognition System Based on CUDA (CUDA 기반의 인터랙티브 얼굴 인식 시스템)

  • Kim, Jung-Sik;Kim, Jong-Yoon;Kim, Jin-Mo;Cho, Hyung-Je
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.369-372
    • /
    • 2011
  • 본 논문에서는 가상현실 및 게임, 로봇인지 분야에서 쓰일 수 있는 실시간 얼굴인식을 제안한다. 현대 사회는 영상처리 기술의 발달로 인하여 많은 자동화 시스템이 개발된다. 빠르게 발전하는 정보화 시대에 사람과 컴퓨터 사이의 상호작용(Interaction)은 매우 중요하며 보다 빠르고 정확한 시스템이 요구된다. 전통적인 얼굴인식 방법인 주성분 분석(PCA)은 영상의 크기에 따라 계산의 복잡도가 증가하고, 특징 벡터를 구하기 위해 많은 연산을 해야 하는 문제가 발생하지만 GPU를 이용할 경우 반복적 계산의 효율적 처리가 가능하여 뛰어난 성능을 낼 수 있는 장점이 있다. 본 논문에서는 이러한 범용 GPU사용 기술 중 nVidia에서 제공하는 CUDA를 활용한 실시간 얼굴 인식 시스템을 제안하고, 실험을 통해 성능을 검증한다.

A PRICING METHOD OF HYBRID DLS WITH GPGPU

  • YOON, YEOCHANG;KIM, YONSIK;BAE, HYEONG-OHK
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • v.20 no.4
    • /
    • pp.277-293
    • /
    • 2016
  • We develop an efficient numerical method for pricing the Derivative Linked Securities (DLS). The payoff structure of the hybrid DLS consists with a standard 2-Star step-down type ELS and the range accrual product which depends on the number of days in the coupon period that the index stay within the pre-determined range. We assume that the 2-dimensional Geometric Brownian Motion (GBM) as the model of two equities and a no-arbitrage interest model (One-factor Hull and White interest rate model) as a model for the interest rate. In this study, we employ the Monte Carlo simulation method with the Compute Unified Device Architecture (CUDA) parallel computing as the General Purpose computing on Graphic Processing Unit (GPGPU) technology for fast and efficient numerical valuation of DLS. Comparing the Monte Carlo method with single CPU computation or MPI implementation, the result of Monte Carlo simulation with CUDA parallel computing produces higher performance.

Accelerating Molecular Dynamics Simulation Using Graphics Processing Unit

  • Myung, Hun-Joo;Sakamaki, Ryuji;Oh, Kwang-Jin;Narumi, Tetsu;Yasuoka, Kenji;Lee, Sik
    • Bulletin of the Korean Chemical Society
    • /
    • v.31 no.12
    • /
    • pp.3639-3643
    • /
    • 2010
  • We have developed CUDA-enabled version of a general purpose molecular dynamics simulation code for GPU. Implementation details including parallelization scheme and performance optimization are described. Here we have focused on the non-bonded force calculation because it is most time consuming part in molecular dynamics simulation. Timing results using CUDA-enabled and CPU versions were obtained and compared for a biomolecular system containing 23558 atoms. CUDA-enabled versions were found to be faster than CPU version. This suggests that GPU could be a useful hardware for molecular dynamics simulation.

Image Segmentation Using SqueezeNet based on CUDA C (CUDA C기반 SqueezeNet을 이용한 영상 분할)

  • Jeon, Sae-Yun;Wang, Jin-Yeong;Lee, Sang-Hwan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.631-633
    • /
    • 2018
  • 최근 영상처리 분야에서 딥러닝(Deep learning)을 이용한 기술이 좋은 성능을 보이면서 이에 대한 관심과 연구가 증가하고 있다. 본 연구에서는 최근 딥러닝 네트워크 중 적은 파라미터 수로 AlexNet수준의 성능을 보인 SquezeNet을 영상 분할(Image segmentation)의 특징 추출(feature extraction)영역으로 사용하고, CUDA C기반으로 코드를 작성하여 정확도를 유지하면서 계산 속도 면에서도 좋은 성능을 얻을 수 있었다.

Analysis of Performance and Energy Efficiency of Core Mapping for Rasterization Algorithm using CUDA (CUDA를 이용한 Rasterization 알고리즘의 코어 매핑에 따른 성능 및 에너지 효율 분석)

  • Park, Min-Ho;Kim, Jong-Myon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.140-143
    • /
    • 2013
  • 본 논문에서는 데이터 병렬성이 뛰어난 벡터 기반의 Rasterization 알고리즘을 CUDA를 이용하여 코어 매핑에 따른 성능 및 에너지 효율을 분석해 보았다. 블록 사이즈를 동일하게 맞춘 후 블록의 차원을 변경 하는 방법과 블록 사이즈를 변경하는 방법을 사용하여 실험하였다. 모의실험결과, 블록 사이즈가 동일할 때는 오차 범위 내로 동일한 성능과 에너지 효율을 보였다. 아키텍처마다 모든 자원을 사용할수 있는 이론적인 블록 및 스레드 구조가 존재하지만 메모리 접근에 대한 최적화를 이루어 내지 못한다면 Amdahl's law에 의해 성능 향상에 한계가 있다는 것을 확인하였다.

Fast Access Method of Neighboring Particles Using Bitonic Sort Based GPU Hashing, and Its Applications (바이토닉 정렬 기반의 GPU 해싱을 이용한 인접 입자의 빠른 접근 기법과 그 응용 사례)

  • Lee, SuBin;Kim, Jong-Hyun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.01a
    • /
    • pp.357-360
    • /
    • 2022
  • 본 논문에서는 대용량 데이터에서 빠르게 주변 데이터를 접근하기 위한 자료구조인 최근접 이웃 탐색(Nearest neighbor search, NNS) 문제를 빠르게 풀 수 있는 바이토닉 정렬(Bitonic sort) 기반 해시 테이블을 GPU기반에서 설계하는 방법과 이를 통해 입자 기반 물리 시뮬레이션을 고속화할 수 있는 방법에 대해 살펴본다. 본 논문에서는 CUDA 아키텍처를 이용하여 해시 테이블을 설계하였으며, 계산양이 가장 큰 데이터 정렬부분을 최적화함으로써 NVIDIA에서 제공하는 CUDA 해시 테이블보다 빠른 결과를 얻을 수 있으며, 이 자료구조를 입자 기반 시뮬레이션에 통합함으로써 고성능 시뮬레이션을 쉽게 제작할 수 있다.

  • PDF

Fast and Efficient Implementation of Neural Networks using CUDA and OpenMP (CUDA와 OPenMP를 이용한 빠르고 효율적인 신경망 구현)

  • Park, An-Jin;Jang, Hong-Hoon;Jung, Kee-Chul
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.4
    • /
    • pp.253-260
    • /
    • 2009
  • Many algorithms for computer vision and pattern recognition have recently been implemented on GPU (graphic processing unit) for faster computational times. However, the implementation has two problems. First, the programmer should master the fundamentals of the graphics shading languages that require the prior knowledge on computer graphics. Second, in a job that needs much cooperation between CPU and GPU, which is usual in image processing and pattern recognition contrary to the graphic area, CPU should generate raw feature data for GPU processing as much as possible to effectively utilize GPU performance. This paper proposes more quick and efficient implementation of neural networks on both GPU and multi-core CPU. We use CUDA (compute unified device architecture) that can be easily programmed due to its simple C language-like style instead of GPU to solve the first problem. Moreover, OpenMP (Open Multi-Processing) is used to concurrently process multiple data with single instruction on multi-core CPU, which results in effectively utilizing the memories of GPU. In the experiments, we implemented neural networks-based text extraction system using the proposed architecture, and the computational times showed about 15 times faster than implementation on only GPU without OpenMP.

A Study on Improved Image Matching Method using the CUDA Computing (CUDA 연산을 이용한 개선된 영상 매칭 방법에 관한 연구)

  • Cho, Kyeongrae;Park, Byungjoon;Yoon, Taebok
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.16 no.4
    • /
    • pp.2749-2756
    • /
    • 2015
  • Recently, Depending on the quality of data increases, the problem of time-consuming to process the image is raised by being required to accelerate the image processing algorithms, in a traditional CPU and CUDA(Compute Unified Device Architecture) based recognition system for computing speed and performance gains compared to OpenMP When character recognition has been learned by the system to measure the input by the character data matching is implemented in an environment that recognizes the region of the well, so that the font of the characters image learning English alphabet are each constant and standardized in size and character an image matching method for calculating the matching has also been implemented. GPGPU (General Purpose GPU) programming platform technology when using the CUDA computing techniques to recognize and use the four cores of Intel i5 2500 with OpenMP to deal quickly and efficiently an algorithm, than the performance of existing CPU does not produce the rate of four times due to the delay of the data of the partition and merge operation proposed a method of improving the rate of speed of about 3.2 times, and the parallel processing of the video card that processes a result, the sequential operation of the process compared to CPU-based who performed the performance gain is about 21 tiems improvement in was confirmed.

Method of extract eye zone using GPGPU (GPGPU를 이용한 눈 영역 검출 기법)

  • Park, Young-Jae;Kim, Gye-Young
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2011.01a
    • /
    • pp.269-272
    • /
    • 2011
  • 본 논문에서는 GPGPU를 이용한 눈 영역 검출 기법을 제안한다. 영상 전체의 평균과 분산을 기반으로 하여 각 마스크의 평균과 분산값을 비교는 비교적 간단한 알고리즘을 이용하여 눈 영역을 검출한다. 정확도의 경우 명암값의 대비를 이용한 기존의 방법과 비슷한 수준을 보였다. 하지만 연산속도의 경우 병렬처리 구간을 늘려 GPGPU를 사용한 제안된 방법이 우수한 성능을 보였다.

  • PDF