• 제목/요약/키워드: 범용GPU

검색결과 53건 처리시간 0.027초

계층적 메모리 구성에 따른 GPU 성능 분석 (Analysis on the GPU Performance according to Hierarchical Memory Organization)

  • 최홍준;김종면;김철홍
    • 한국콘텐츠학회논문지
    • /
    • 제14권3호
    • /
    • pp.22-32
    • /
    • 2014
  • 병렬 연산에 최적화된 하드웨어를 가진 GPU를 그래픽스 작업 이외에 범용 작업에 활용하고자, 최근에 GPGPU 기술이 큰 관심을 받고 있다. GPU와 같은 대용량 병렬처리 장치에서는 메모리 시스템이 성능에 큰 영향을 미치게 된다. GPU에서는 메모리 시스템의 효율성을 향상시키기 위하여, 메모리 대역폭 사용률을 감소시켜주는 계층적 메모리 구조와 메모리를 요청하는 트랜잭션을 줄여주는 메모리 주소 접합과 메모리 요청 합병 등의 기술들을 사용한다. 본 논문에서는 메모리 시스템 효율성 향상을 위해 활용되는 기법들이 GPU 성능에 미치는 영향을 정량적으로 평가하고 분석하기 위해, 다양한 메모리 구조에 대한 실험을 수행한다. 실험 결과에 따르면, 캐쉬를 사용하지 않는 경우에 비해 8KB, 16KB, 32KB, 64KB의 L1 캐쉬를 추가하면 평균적으로 15.5%, 21.5%, 25.5%, 30.9%의 성능이 각각 향상된다. 하지만, 일부 벤치마크 프로그램에서는 데이터 일관성을 유지하기 위하여 메모리 트랜잭션이 증가함에 따라 오히려 성능이 감소하는 결과를 보이기도 한다. 그리고 메모리 요청에 대한 미스가 많이 발생하는 경우에는 캐쉬 레벨이 증가함에 따라 평균 메모리 접근 지연 시간이 증가하기도 한다.

응용프로그램 실행에 따른 CPU/GPU의 온도 및 컴퓨터 시스템의 에너지 효율성 분석 (Analysis of the CPU/GPU Temperature and Energy Efficiency depending on Executed Applications)

  • 최홍준;강승구;김종면;김철홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권5호
    • /
    • pp.9-19
    • /
    • 2012
  • 전력 소모 증가와 칩 내부 온도 증가라는 문제점들로 인해 동작 주파수 증대를 통해 CPU의 성능을 향상시키는 기법은 점차 한계에 다다르고 있다. 이와 같은 상황에서, CPU의 작업량을 줄여주는 GPU를 활용하는 것은 컴퓨터 시스템의 성능을 향상시키기 위해 사용되는 대표적인 방안 중 하나이다. GPU는 그래픽 작업을 위해 개발된 프로세서로 기존에는 그래픽 작업들만을 전담으로 처리하여 왔지만, CUDA와 같이 GPU 자원을 쉽게 활용할 수 있는 기술이 점차 개발됨에 따라서 GPU를 범용 연산에 활용함으로써 고성능 컴퓨터 시스템을 구현하는 기법이 주목을 받고 있다. 본 논문에서는 다양한 응용프로그램들을 수행하는 경우에 CPU와 GPU가 동시에 활용되는 고성능 컴퓨터 시스템을 목표로, 시스템에서 발생하는 온도와 에너지 효율성을 상세하게 분석하고자 한다. 이를 통해, CPU와 GPU가 동시에 활용되는 컴퓨터 시스템에서 향후 발생 가능한 온도와 에너지 소비 측면에서의 문제점들을 제시하고자 한다. 온도 분석 결과를 살펴보면, GPU를 이용하여 응용프로그램을 수행하는 경우에는 CPU와 GPU의 온도가 동시에 모두 상승하는 것을 할 수 있다. 이와 달리, CPU를 이용하여 응용프로그램을 수행하는 경우에는 GPU의 온도는 거의 변화가 없이 유지되고, CPU의 온도만이 지속적으로 상승한다. 에너지 효율성 측면에서 살펴보면, GPU를 이용하는 것이 CPU를 이용하는 것과 비교하여 동일한 응용프로그램을 수행하는데 있어서 더 적은 에너지를 소비한다. 하지만, GPU는 CPU에 비해 더 많은 전력을 소모하기 때문에 1Wh의 에너지당 발생하는 온도는 CPU에 비해 GPU에서 훨씬 높게 나타난다.

GPU용 연산 라이브러리 CUDA를 이용한 블록암호 고속 구현 (High-Speed Implementations of Block Ciphers on Graphics Processing Units Using CUDA Library)

  • 염용진;조용국
    • 정보보호학회논문지
    • /
    • 제18권3호
    • /
    • pp.23-32
    • /
    • 2008
  • 그래픽 프로세서(GPU)의 연산 능력은 이미 CPU를 능가하고 있으며, 그 격차는 점점 벌어지고 있다. 따라서, 범용 계산에 그래픽 프로세서를 활용하는 GPGPU 연구가 활발히 전개되고 있으며, 병렬 처리가 필요한 분야에서 특히 두드러진 성과를 보이고 있다. GPU를 이용한 암호 알고리즘의 구현은 2005년 Cook 등에 의하여 처음 시도되었으며, OpenGL, DirectX 등의 라이브러리를 이용하여 개선된 결과들이 속속 발표되고 있다. 본 논문에서는 2007년 발표된 NVIDIA의 CUDA 라이브러리를 이용한 블록암호 구현 기법과 그 결과를 소개하고자한다. 또한, 소프트웨어로 구현된 블록암호 소스를 GPU 프로그램으로 이식하는 일반적인 방법을 제공하고자 한다. 8800GTX GPU에서 블록암호 AES, ARIA, DES를 구현했으며, 속도는 각각 4.5Gbps, 7.0Gbps, 2.8Gbps로 CPU보다 고속 구현이 가능하였다.

다중 GPGPU를 이용한 컴퓨터 생성 홀로그램의 병렬화 구현 (Implementation of Parallel Computer Generated Hologram Using Multi-GPGPU)

  • 서영호;이윤혁;김동욱
    • 한국정보통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.1177-1186
    • /
    • 2014
  • 컴퓨터생성홀로그램은 수학적으로 모델링된 광학적인 현상을 컴퓨터로 연산한 것이다. 이때 방대한 량의 연산이 필요하기 때문에 실시간으로 고해상도의 홀로그램을 얻기 위해서는 고속 기법이 필요하다. 본 논문에서는 CGH를 위한 두 가지 병렬화를 제안한다. 첫 번째는 GPU 내에서 CGH 알고리즘을 병렬화하는 것이고, 두 번째는 다수의 GPU를 위한 병렬화이다. 제안한 알고리즘 구조는 CUDA를 이용하여 GTX780 Ti GPU에 구현하였다. 약 10K의 입체 정보를 이용하여 $1,024{\times}1,024$의 컬러 홀로그램을 생성하는데 약 106ms가 소요된다.

CUDA를 이용한 FDTD 알고리즘의 병렬처리 (Parallel Computation of FDTD algorithm using CUDA)

  • 이호영;박종현;김준성
    • 전자공학회논문지CI
    • /
    • 제47권4호
    • /
    • pp.82-87
    • /
    • 2010
  • CPU를 능가하는 GPU의 연산능력 향상으로 범용 계산에 그래픽 프로세서를 사용하는 GP-GPU연구가 활발히 전개되고 있으며, 그 응용분야가 확대되고 있다. 본 논문에서는 전자기학 관련 분야에서 널리 사용되는 FDTD 알고리즘을 nVIDIA에서 제공하는 소프트웨어 플랫폼인 CUDA를 사용하여 구현한다. FDTD 알고리즘의 주요 연산과정을 병렬화하고, 그래픽 카드 내각기 다른 메모리의 사용에 따라 최적화하며, 단일 프로세서에서 FDTD 알고리즘을 실행시킨 경우와 비교하여 그 성능 향상 정도를 측정한다. 실험결과 단일 프로세서로 구현하였을 때에 비해 실행시간이 45배까지 향상됨을 확인할 수 있었다.

GPU를 이용한 범용 계산의 소개 (Introduction to general purpose GPU computing)

  • 유동현;임요한
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권5호
    • /
    • pp.1043-1061
    • /
    • 2013
  • 최근 과학 기술의 빠른 발전에 따라 대용량 자료가 출현하였고 이에 대한 분석의 중요도도 높아졌다. 대용량 자료의 분석에 가장 중요한 부분중 하나가 고성능 컴퓨팅 기법이고 본 논문에서는 최근 통계학계의 많은 관심을 받고 있는 GPU (graphics processing unit)기반 병렬 계산에 대한 기초적인 소개를 한다.

CUDA를 이용한 고속 움직임 탐지 구현 (Implementation of fast moving detection using CUDA)

  • 이성연;박성모;김종남
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.132-133
    • /
    • 2009
  • 움직임 검출 시스템은 감시카메라에서 불필요한 녹화를 방지하는 방법으로 널리 사용되고 있다. 그러나 최근 출시되고 있는 고화질 CCTV 카메라에서는 연산의 복잡도 때문에 실시간 처리가 어려운 실정이다. 이를 해결하기 위해 본 논문에서는 CUDA를 이용한 고속 움직임 탐지 시스템을 구현하였다. 기존의 움직임 탐지 시스템은 처리 속도의 한계로 인해 고속의 탐지가 어려웠을 뿐 아니라 고속으로 동작하도록 하려면 고가의 시스템 부품을 사용하여야 하므로 사용자에게 부담을 안겨주었다. 그러나 최근 발전을 거듭하고 있는 고속의 GPU를 이용하여 움직임 탐지 시스템을 구현할 경우 보다 저렴한 가격에 보다 뛰어난 성능을 가질 수 있도록 할 수 있다. 따라서 본 논문에서는 이러한 범용 GPU 사용기술인 nVidia의 CUDA를 이용하여 움직임 탐지 시스템을 구현하였다. 실험 결과 GPU 기반 시스템은 CPU 기반 시스템보다 80배가량 속도의 향상이 있었다. 제안하는 방법은 nVidia 그래픽 카드가 설치된 시스템에서 고속의 감시카메라 서버 등으로 적용이 가능하다.

최적화된 CUDA 소프트웨어 제작을 위한 프로그래밍 기법 분석 (Analysis of Programming Techniques for Creating Optimized CUDA Software)

  • 김성수;김동헌;우상규;임인성
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권7호
    • /
    • pp.775-787
    • /
    • 2010
  • GPU(Graphics Processing Unit)는 범용 CPU와는 달리 다수코어 스트리밍 프로세서(manycore streaming processor) 형태로 특화되어 발전되어 왔으며, 최근 뛰어난 병렬 처리 연산 능력으로 인하여 점차 많은 영역에서 CPU의 역할을 대체하고 있다. 이러한 추세에 따라 최근 NVIDIA 사에서는 GPGPU(General Purpose GPU) 아키텍처인 CUDA(Compute Unified Device Architecture)를 발표하여 보다 유연한 GPU 프로그래밍 환경을 제공하고 있다. 일반적으로 CUDA API를 사용한 프로그래밍 작업시 GPU의 계산구조에 관한 여러 가지 요소들에 대한 특성을 정확히 파악해야 효율적인 병렬 소프트웨어를 개발할 수 있다. 본 논문에서는 다양한 실험과 시행착오를 통하여 획득한 CUDA 프로그래밍에 관한 최적화 기법에 대하여 설명하고, 그러한 방법들이 프로그램 수행의 효율에 어떠한 영향을 미치는지 알아본다. 특히 특정 예제 문제에 대하여 효과적인 계층 구조 메모리의 접근과 코어 활성화 비율(occupancy), 지연 감춤(latency hiding) 등과 같이 성능에 영향을 미치는 몇 가지 규칙을 실험을 통해 분석해봄으로써, 향후 CUDA를 기반으로 하는 효과적인 병렬 프로그래밍에 유용하게 활용할 수 있는 구체적인 방안을 제시한다.

다중 GPU 기반의 고속 삼차원 역전사 기법 (Fast Multi-GPU based 3D Backprojection Method)

  • 이병훈;이호;계희원;신영길
    • 한국멀티미디어학회논문지
    • /
    • 제12권2호
    • /
    • pp.209-218
    • /
    • 2009
  • 삼차원 역전사(3D backprojection) 기법은 수백 장의 이차원 투영영상을 가지고 대상물의 공간적인 위치 파악이 가능한 단층 영상(tomography)을 생성하기 위해 사용되는 재구성 기법이다. 재구성 기법은 단층 영상을 구성하는 결과볼륨의 모든 화소로부터 각 화소 위치에 기여할 값을 이차원 투영영상에서 계산하여 얻어오기 때문에 결과볼륨이 커지거나 투영영상의 수가 증가하게 되면 전체 계산량은 상당히 증가하게 된다. 이러한 문제를 해결하기 위해 최근 범용 그래픽스 하드웨어(graphics processing unit: GPU) 기반의 고속 삼차원 재구성 기법이 연구되었으며 상당한 성능 향상을 가져왔다. 본 논문에서는 기존의 단일 GPU 기반의 삼차원 재구성 기법을 다중 GPU기반으로 확장할 때 입력되는 투영영상 크기와 결과볼륨의 크기에 따라서 효율적으로 동작될 수 있는 두 가지 병렬 처리 구현 기법에 대해 제시하고 비교 분석한다. 제안한 병렬 처리 구현 기법은 투영영상을 입력 데이터로 간주하여 각 GPU가 모든 투영영상에 대해서 출력 데이터인 결과볼륨을 분할하여 생성하는 결과볼륨 분할생성 기법과 각 GPU가 투영영상을 분산적재하여 할당받은 입력 데이터에 대한 결과볼륨을 출력한 후 각각의 출력 결과를 CPU에서 합하는 투영영상 분산적재 기법이다. 실험 결과, 결과볼륨의 크기가 GPU에 모두 할당할 수 있는 크기인 경우에는 결과볼륨 분할생성 기법이 더 좋은 성능을 보였고, 결과볼륨의 크기가 GPU 메모리보다 큰 경우에는 투영영상 분산적재 기법이 더 유리하였다.

  • PDF

워크 그룹 구성 변화에 따른 GPU 기반 천 시뮬레이션의 성능 분석 (The Performance Analysis of GPU-based Cloth simulation according to the Change of Work Group Configuration)

  • 최영환;홍민;이승현;최유주
    • 인터넷정보학회논문지
    • /
    • 제18권3호
    • /
    • pp.29-36
    • /
    • 2017
  • 오늘날 3D 다이내믹 시뮬레이션은 많은 산업들과 밀접한 관계를 가지고 있다. 과거에는 자동차 충돌, 건축물 분야에서 주로 사용되었으나 최근에는 영화나 게임 분야에도 물리 시뮬레이션이 중요한 역할을 하고 있다. 일반적으로 3D 물체를 사실적으로 표현하기 위해서는 많은 수학적 연산이 필요하기 때문에 기존의 CPU 기반의 응용 프로그램들은 이러한 많은 연산량을 실시간으로 처리하는데 무리가 있다. 최근 그래픽 하드웨어의 발전과 아키텍쳐의 개선으로 GPU는 기존의 렌더링 연산뿐만 아니라 범용 목적의 연산 기능을 제공하고 있고 이러한 GPU를 활용하는 연구가 활발히 진행되고 있다. 본 논문에서는 GPU를 이용한 천 시뮬레이션 수행시 수행 성능을 최적화하기 위하여, GPU 셰이더의 실행 환경 변화에 따른 천 시뮬레이션 알고리즘의 수행 성능의 변화를 분석하였다. GPU를 이용한 천 시뮬레이션은 GLSL 4.3의 Compute shader를 사용하여 스프링 중심 알고리즘과 노드 중심 알고리즘을 PC기반으로 구현하였고, GLSL Compute shader의 다양한 워크 그룹 (Work Group) 크기와 차원 분배에 따른 연산 속도의 변화를 비교 분석하였다. 실험은 5,000 프레임까지 10회 반복 수행하여 FPS(Frame Per Second)의 평균을 구하여 진행하였다. 실행결과, 노드 중심의 알고리즘이 오히려 스프링 중심의 알고리즘 보다 빠른 수행속도를 보여 주었다.