• 제목/요약/키워드: GPU Programming

검색결과 60건 처리시간 0.023초

병렬 GPU를 이용한 분자 도킹 시스템 (Molecular Docking System using Parallel GPU)

  • 박성준
    • 한국콘텐츠학회논문지
    • /
    • 제8권12호
    • /
    • pp.441-448
    • /
    • 2008
  • 분자 도킹 실험은 일반적으로 계산 량이 매우 많아 슈퍼 컴퓨팅 파워를 요구하는 실험이다. 따라서 시간이 많이 소요되기 때문에 일반적으로 CPU가 탑재된 컴퓨터를 여러 대 묶어서 사용하는 분산 환경 혹은 그리드 환경에서 실험을 수행하고 있다. 이와 같은 실험 환경은 시간적, 공간적 제약성이 많아 일반적으로 과학자들이 접근하기가 어렵다. 그래서 근래에는 많은 CPU를 사용하기 보다는 월등히 성능이 높은 GPU를 병렬 화하여 과학 분야에 계산하는 연구가 매우 활발히 이루어지고 있는 추세이다. CUDA는 병렬 GPU 프로그래밍을 가능하게 하는 공개 기술이다. 본 논문에서는 이러한 CUDA 기술을 사용하여 분자 도킹 실험을 할 수 있는 시스템을 제안한다. 또한, 분자 도킹 실험에 있어서 중요한 에너지 최소화 계산을 병렬 화하는 알고리즘을 제안한다. 이와 같은 실험을 검증하기 위해 본 논문에서는 일반적인 CPU에서 분자 도킹 실험 시간과 본 논문에서 제안한 병렬 CPU 기반의 분자 도킹 시간을 비교 분석 하였다.

HW 가속 기반 웹 고속화 기술동향 (Trends of Hardware Acceleration Technology in Wed Browser)

  • 이재호;조현우;김도형;이형석;윤석진;류철;조창식
    • 전자통신동향분석
    • /
    • 제31권4호
    • /
    • pp.65-76
    • /
    • 2016
  • 특정 제조사의 단말 또는 운영체제에 의존성이 없는 플랫폼 독립적인 웹은 높은 이식성, 소프트웨어의 재활용, 개발 생산성, 풍부한 개발자 존재, 유지 보수 면에서 장점을 가지나, 화려한 UI/UX를 제공하는 네이티브 응용에 비해 낮은 성능으로 웹 기반의 응용 개발 및 보급이 크게 활성화되지 못했다. 한편 데스크톱은 물론 모바일 단말의 멀티코어 기반 Graphic Processing Unit(GPU), CPU 탑재 등 HW 고사양화와 웹 응용에서도 HW 가속 기능을 활용할 수 있는 표준 제공으로 성능 제약을 극복할 수 있게 되었다. 본고에서는 GPU 발전동향을 살펴보고, 고속 렌더링 및 병렬 연산처리를 요구하는 웹 응용이 GPU기반 HW 가속 기능을 활용할 수 있는 크로노스 그룹의 그래픽 가속(Web Graphics Library: WebGL) 및 컴퓨팅(Web Computing Language: WebCL) 지원 표준 규격을 정리한다. 또한, 최근 차세대 GPU Application Programming Interface(API)로 발표된 Vulkan에 대해 알아보고, 웹 고속화 기술에 적용 가능성에 대해 전망한다.

  • PDF

SYCL에서 효율적인 멀티 GPU 프로그래밍을 위한 MPI-wrapper API 개발 (Development of MPI-wrapper for efficient SYCL-based Multi GPU programming)

  • 명훈주;구기범;오광진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.44-47
    • /
    • 2023
  • SYCL은 C++을 기반으로 하는 언어로 가속기를 사용하는 복잡한 과정을 C++의 특징 중의 하나인 추상화를 사용해 개발자가 쉽게 접근할 수 있게 한다. 그러나, 가속기를 활용하는 측면에서는 성능을 최대한으로 끌어내기 위해 저수준 접근도 필요하다. 특히, NVLink와 같이 효율적인 멀티-GPU 통신을 해주는 인터커넥션 링크 활용을 위해서도 필요하다. 본 논문에서는 SYCL 구현물 중의 하나인 AdaptiveCpp을 가지고 NVLink로 연동된 멀티 GPU 환경에서 효율적으로 프로그래밍을 할 수 있는 방법을 제안하고, SYCL 개발자들이 SYCL의 설계 철학을 따라 프로그래밍을 할 수 있도록 이러한 기능을 추상화하여 담은 MPI wrapper API를 제안한다.

GPU를 이용한 스테레오 정합 알고리즘의 구현 (Implementation of Stereo Matching Algorithm using GPU)

  • 최현준;서영호;김동욱
    • 한국정보통신학회논문지
    • /
    • 제15권3호
    • /
    • pp.583-588
    • /
    • 2011
  • 본 논문에서는 최종 변이영상의 정확도를 높이기 위해 영상의 특징점을 이용한 적응적 가변 정합창 방법과 교차 일치성 검사의 신뢰도를 높이는 방법을 제안한다. 제안한 적응적 가변 정합창 방법은 색상정보를 이용하여 영상을 분할하고 분할된 각 영상의 특징점을 찾아 그 특징점들의 유무에 따라 정합창의 크기를 적응적으로 가변시키는 방법이다. 또한 제안한 알고리즘을 GPU를 기반으로 구현하여 연산속도가 평균 128배 빨라졌다. GPU는 NVIDIA의 GeForce GTX296를 사용하였고, CUDA를 기반으로 프로그래밍 하였다.

Workload Characteristics-based L1 Data Cache Switching-off Mechanism for GPUs

  • Do, Thuan Cong;Kim, Gwang Bok;Kim, Cheol Hong
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권10호
    • /
    • pp.1-9
    • /
    • 2018
  • Modern graphics processing units (GPUs) have become one of the most attractive platforms in exploiting high thread level parallelism with the support of new programming tools such as CUDA and OpenCL. Recent GPUs has applied cache hierarchy to support irregular memory access patterns; however, L1 data cache (L1D) exhibits poor efficiency in the GPU. This paper shows that the L1D does not always positively affect the applications in terms of performance and energy efficiency for the GPU. The performance of the GPU is even harmed by using the L1D for lots of applications. Our proposed technique exploits the characteristics of the currently-executed applications to predict the performance impact of the L1D on the GPU and then decides whether to continuously use the cache for the application or not. Our experimental results show that the proposed technique improves the GPU performance by 9.4% and saves up to 52.1% of the power consumption in the L1D.

OpenCL을 이용한 돈사 감시 응용의 효율적인 태스크 분배 (Efficient Task Distribution for Pig Monitoring Applications Using OpenCL)

  • 김진성;최윤창;김재학;정연우;정용화;박대희;김학재
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제6권10호
    • /
    • pp.407-414
    • /
    • 2017
  • 다수의 태스크로 구성된 돈사 감시 응용은 내재된 데이터 병렬성을 활용하고 성능가속기를 사용하여 병렬 처리가 가능하다. 본 논문에서는 멀티코어 CPU와 매니코어 GPU로 구성된 이기종 컴퓨팅 플랫폼에서 돈사 감시 응용 수행 시 태스크 분배 방법을 제안한다. 즉, 각 태스크별로 OpenCL을 이용한 병렬 프로그램을 작성한 뒤, deviceCPU와 deviceGPU 각각에서 수행시켜 측정된 수행시간을 기준으로 가장 적합한 처리기를 결정한다. 제안 방법은 간단하지만 매우 효과적이고, CPU와 GPU로 구성된 이기종 컴퓨팅 플랫폼에서 다수의 태스크로 구성된 다른 응용을 병렬화하는 경우에도 적용될 수 있다. 실험 결과, 상이한 이기종 컴퓨팅 플랫폼에서 최적의 태스크 분배로 수행한 경우 가 전체 태스크들을 deviceGPU에서 수행한 GPU-only 방법에 비교하여 각각 2.7배, 8.7배, 2.7배 성능 개선이 되었음을 확인하였다.

OpenGL과 Unity간의 GPU를 이용한 Particle Simulation의 성능 비교 (Performance Comparison of Particle Simulation Using GPU Between OpenGL and Unity)

  • 김민상;성낙준;최유주;홍민
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권10호
    • /
    • pp.479-486
    • /
    • 2017
  • 최근 GPGPU를 이용하여 저하된 컴퓨터 성능 향상폭을 높일 수 있게 되었고, 이로 인하여 높은 연산을 요구로 하는 물리 기반의 실시간 시뮬레이션을 PC에서 구동할 수 있게 되었다. 물리 시뮬레이션에서 적용되는 물리 계산은 병렬 처리로 수행되어질 수 있으며, 최근 OpenGL 4.3 및 Unity4.0에서 지원되는 Compute shader를 통한 병렬 연산을 이용하면 효율적으로 구동할 수 있다. 본 논문에서는 다양한 플랫폼을 지원하는 디지털 콘텐츠 제작 툴인 Unity와 다양한 플랫폼에서 구동되어지는 OpenGL에서의 실시간 물리 시뮬레이션에서의 성능을 측정 및 비교한다. 본 논문에서 particle 시뮬레이션의 실험 결과 Unity를 이용한 particle 시뮬레이션이 OpenGL을 이용한 particle 시뮬레이션에 비해 최대 136.04% 빠른 성능을 보인다. 이를 통하여 추후 멀티 플랫폼을 지원하는 디지털 콘텐츠를 제작함에 있어 더 나은 개발 도구를 선정할 수 있을 것으로 기대된다.

GPU 컴퓨팅에 의한 고속 Double Random Phase Encoding (Fast Double Random Phase Encoding by Using Graphics Processing Unit)

  • 사이플라흐;문인규
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2012년도 춘계학술발표대회논문집
    • /
    • pp.343-344
    • /
    • 2012
  • With the increase of sensitive data and their secure transmission and storage, the use of encryption techniques has become widespread. The performance of encoding majorly depends on the computational time, so a system with less computational time suits more appropriate as compared to its contrary part. Double Random Phase Encoding (DRPE) is an algorithm with many sub functions which consumes more time when executed serially; the computation time can be significantly reduced by implementing important functions in a parallel fashion on Graphics Processing Unit (GPU). Computing convolution using Fast Fourier transform in DRPE is the most important part of the algorithm and it is shown in the paper that by performing this portion in GPU reduced the execution time of the process by substantial amount and can be compared with MATALB for performance analysis. NVIDIA graphic card GeForce 310 is used with CUDA C as a programming language.

  • PDF

Regular Mesh 기반 지리정보 3D 합성모델 (Geographic information 3D Synthetic Model based on Regular Mesh)

  • 정지환;황선명;김성호
    • 한국항행학회논문지
    • /
    • 제15권4호
    • /
    • pp.616-625
    • /
    • 2011
  • 본 연구에서는 지형을 Rendering 기법의 대표적인 방법인 Geometry Clipmaps와 ROAM 2.0을 분석하여 Rendering 연산에 소요되는 연산을 CPU가 아닌 GPU에 중점을 두어 보다 빠르고 넓은 가시화 영역을 보장하는 확장된 Geometry Clipmaps 알고리즘을 제안한다. 확장된 알고리즘은 LOD(Level of Detail)을 통한 각 레벨의 Mesh 구성 방법, 레벨간의 연결망 Mesh 구성 방법, VFC(View Frustum Culling)을 사용하여 Rendering을 최적화 할 수 있는 Mesh Block화 방안 그리고 최대 1m 해상도를 갖는 고해상도 영상 Mapping 방안 등을 포함하고 있다.

GPU를 이용한 실시간 양안식 영상 생성 방법 (Real-time Stereo Video Generation using Graphics Processing Unit)

  • 신인용;호요성
    • 방송공학회논문지
    • /
    • 제16권4호
    • /
    • pp.596-601
    • /
    • 2011
  • 양안식 3차원 방송의 경우 좌우 두 시점에 해당하는 영상을 동시에 전송해야 하기 때문에 전송 대역폭의 부담이 매우 크다. 이러한 부담을 줄이기 위해 좌우 시점의 두 영상을 전송하는 대신에 좌영상과 이에 해당하는 깊이맵을 부호화하여 전송하는 방법이 있다. 이러한 3차원 방송 시스템의 수신단에서는 좌영상과 깊이맵을 복호한 뒤에 우영상을 만들어 좌우 영상을 실시간으로 출력한다. 본 논문에서는 좌영상과 깊이맵을 이용하여 가상시점 영상을 생성할 때 생기는 빈 공간을 효율적으로 채우는 기법을 제안하고, 전 과정의 실시간 처리를 위해 이를 GPU상에서 병렬로 처리되도록 구현했다. 그 결과 효과적으로 홀 채움을 수행하면서 CPU 대비 15배 이상 빠르게 양안식 영상을 생성할 수 있었다.