• 제목/요약/키워드: GPU Shader

검색결과 44건 처리시간 0.027초

Parallel Algorithm of Conjugate Gradient Solver using OpenGL Compute Shader

  • Va, Hongly;Lee, Do-keyong;Hong, Min
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.1-9
    • /
    • 2021
  • OpenGL compute shader는 다른 shader 단계와 다르게 동작하며, 병렬로 모든 데이터를 계산하는데 사용할 수 있다. 본 논문은 OpenGL compute shader에서 반복 켤레 기울기 방법을 통해 희소선형 시스템을 계산하기 위한 GPU 기반의 병렬 알고리즘 제안하였다. 제안된 희소 선형 해결 방법은 대칭인 양의 정부호 행렬과 같은 대형 선형 시스템을 해결하기 위해 사용된다. 본 논문은 이 알고리즘을 사용하여 매트릭스 형식이 다른 8가지 예제들에 대해서 CPU와 GPU를 기반으로한 성능 비교 결과를 제공한다. 본 논문은 4가지 잘 알려져 있는 매트릭스 형식(Dense, COO, ELL and CSR)을 매트릭스 저장소를 사용하였다. 8개의 희소 매트릭스를 사용한 성능 비교 실험에서 GPU 기반 선형 해결 시스템이 CPU 기반 선형 해결 시스템보다 훨씬 빠르며, GPU 기반에서 0.64ms, CPU 기반에서 15.37ms의 평균 컴퓨팅 시간을 제공한다.

GPU를 이용한 깊이 영상기반 렌더링의 가속 (Accelerating Depth Image-Based Rendering Using GPU)

  • 이만희;박인규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권11호
    • /
    • pp.853-858
    • /
    • 2006
  • 본 논문에서는 깊이 영상기반의 3차원 그래픽 객체에 대하여 그래픽 처리 장치(Graphics Processing Unit, GPU)의 가속을 이용한 고속의 렌더링 기법을 제안한다. 제안하는 알고리즘은 최근의 그래픽 처리 장치의 새로운 특징과 프로그래밍이 가능한 쉐이더 기법을 이용하여, 속도가 느리거나 정적인 조명과 같은 기존의 일반적인 깊이 영상기반 렌더링 방법이 갖고 있는 단점을 극복할 수 있다. 깊이 영상기반 데이타의 3차원 변환 및 조명에 의한 효과 연산은 정점 쉐이더(vertex shader)에서 수행을 하고, 점 데이타의 적응적인 스플래팅(splatting)은 화소 쉐이더(fragment shader)에서 수행된다. 모의 실험결과, 소프트웨어 렌더링 또는 OpenGL 기반의 렌더링과 비교해서 괄목할 만한 렌더링 속도의 향상이 이루어졌다.

폴리곤 메시의 정점 이동과 표면 텍스처 매핑에 노이즈 텍스처를 적용하는 쉐이더 기법 (A Shader Technique that applies Noise Texture to Vertex Movement and Surface Texture Mapping of Polygon Mesh)

  • 홍민석;박진호
    • 한국게임학회 논문지
    • /
    • 제21권2호
    • /
    • pp.79-88
    • /
    • 2021
  • 폭발, 마법 등 불특정한 시각효과를 구현하는데 파티클과 노이즈가 효과적으로 사용된다. 파티클은 자유롭게 제작할 수 있지만, 많이 사용될수록 CPU/GPU 사용률이 높아진다. 본 논문에서는 이러한 단점을 극복하기 위해 변경이 어렵지만, 정해진 자원을 소모하는 폴리곤 메시를 활용해 CPU/GPU 사용률을 줄인다. 그리고 쉐이더를 활용해 폴리곤 메시의 정점과 표면 텍스처 매핑에 불특정한 패턴을 가진 노이즈 텍스처를 적용하여 시각효과를 구현한다. 실험결과, 프로파일러에서 쉐이더를 적용한 구체 폴리곤 메시가 2~4ms CPU, 1~2m_s GPU 사용률을 보였고 쉐이더를 활용해 불특정한 시각효과를 구현할 수 있음을 보였다.

정점 셰이더의 가상 기계 구현 (Design of Virtual Machine for Vertex Shader)

  • 하창수;김주홍;최병윤
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.1003-1006
    • /
    • 2005
  • Vertex shader of GPU in personal computer is advanced in functions as to be half of traditional fixed T&L functions. And, capacity of memory for saving resources to process instructions is unlimited. GPU that can be programmed by programmer is needed for mobile system as well as personal computer. In this paper, we implement software virtual machine for vertex shader using C++ Language. Our goal is designing hardware GPU that can apply to mobile system. The virtual machine consists of nVidia GPU instructions. Input Data to virtual machine is generated by Microsoft fxc compiler. That is to say, Input Data is compiled shader program written in HLSL, Cg, or ASM. The virtual machine will be a reference model for designing hardware GPU and can be used for Testbed to test added or modified instruction.

  • PDF

A Reconfigurable Lighting Engine for Mobile GPU Shaders

  • Ahn, Jonghun;Choi, Seongrim;Nam, Byeong-Gyu
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제15권1호
    • /
    • pp.145-149
    • /
    • 2015
  • A reconfigurable lighting engine for widely used lighting models is proposed for low-power GPU shaders. Conventionally, lighting operations that involve many complex arithmetic operations were calculated by the shader programs on the GPU, which led to a significant energy overhead. In this letter, we propose a lighting engine to improve the energy-efficiency by supporting the widely used advanced lighting models in hardware. It supports the Blinn-Phong, Oren-Nayar, and Cook-Torrance models, by exploiting the logarithmic arithmetic and optimizing the trigonometric function evaluations for the energy-efficiency. Experimental results demonstrate 12.7%, 42.5%, and 35.5% reductions in terms of power-delay product from the shader program implementations for each lighting model. Moreover, our work shows 10.1% higher energy-efficiency for the Blinn-Phong model compared to the prior art.

저전력 모바일 장치를 위한 완전 프로그램 가능형 쉐이더 프로세서 (A Fully Programmable Shader Processor for Low Power Mobile Devices)

  • 정형기;이주석;박태룡;이광엽
    • 전기전자학회논문지
    • /
    • 제13권2호
    • /
    • pp.253-259
    • /
    • 2009
  • 본 논문에서는 전용하드웨어를 사용하지 않는 새로운 구조의 범용 그래픽 쉐이더 프로세서를 제안한다. 최근 모바일 기기에서는 고성능을 유지하면서 저전력의 작은 크기를 가지는 그래픽 프로세서를 요구한다. 제안하는 쉐이더 프로세서는 OpenGL ES 2.0 그래픽 파이프라인 전체를 쉐이더 명령어로 실행할 수 있는 GP-GPU 구조를 갖는다. 프로그램을 구현하여 하나의 프로세서로 모든 그래픽 파이프라인 처리가 가능하기 때문에 Rasterization Unit과 같은 별도의 전용 하드웨어를 필요로 하지 않는다. 따라서 쉐이더 프로세서 하나로 Fully Programmable 3D Graphics Engine 구현이 가능하며 기존 쉐이더 프로세서에 비해 하드웨어 크기를 60% 줄였다.

  • PDF

Multi-Access Memory System을 이용한 3D 그래픽 프로세서 제안 (Proposal of 3D Graphic Processor Using Multi-Access Memory System)

  • 이스라엘;김재희;고경식;박종원
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.119-128
    • /
    • 2019
  • 3D 그래픽 프로세서의 시스템의 특성상 많은 수학적 계산이 요구되면서 고속처리를 위하여 GPU(Graphics Processing Unit)를 이용한 병렬처리 연구가 많이 진행되고 있다. 본 논문에서는 GPU에서 발생하는 문제점 중 캐시메모리 미스에 의하여 발생하는 대역폭 증가와 3D 셰이더 처리 속도가 일정하지 않은 문제점을 해결하기 위하여 캐시메모리를 사용하지 않는 병렬처리기인 MAMS를 이용한 3D 그래픽 프로세서를 제안한다. 본 논문에서 제안된 MAMS를 이용한 3D 그래픽 프로세서는 DirectX 명령 분석을 이용해 Vertex shader, Pixel shader와 Tiling 및 Rasterizing 구조를 설계 하였고, MAMS를 위한 FPGA(Xilinx Virtex6@100MHz) 보드를 구성하여, Verilog를 사용하여 설계된 구조를 개발하였다. 개발된 FPGA(100Mhz)와 nVidia GeForce GTX 660(980Mhz)의 처리시간을 확인한 결과 GTX 660를 이용한 처리 시간은 일정하지 않음을 확인하였고, MAMS를 이용한 처리 시간은 일정함을 확인하였다.

GPU 기반 행렬 덧셈 및 스칼라 곱셈 알고리즘 (Matrix Addition & Scalar Multiplication on the GPU)

  • 박상근
    • 융복합기술연구소 논문집
    • /
    • 제8권1호
    • /
    • pp.15-20
    • /
    • 2018
  • Recently a GPU has acquired programmability to perform general purpose computation fast by running thousands of threads concurrently. This paper presents a parallel GPU computation algorithm for dense matrix-matrix addition and scalar multiplication using OpenGL compute shader. It can play a very important role as a fundamental building block for many high-performance computing applications. Experimental results on NVIDIA Quad 4000 show that the proposed algorithm runs 21 times faster than CPU algorithm and achieves performance of 16 GFLOPS in single precision for dense matrices with size 4,096. Such performance proves that our algorithm is practical for real applications.

프로그래밍 가능한 GPU를 이용한 포토 모자이크 (Photomosaic using a programmable GPU)

  • 강동완;윤경현
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제14권1호
    • /
    • pp.17-25
    • /
    • 2008
  • 본 논문은 프로그래밍 가능한 GPU를 이용한 포토 모자이크 생성 방법을 제안한다. 그래픽스 파이프라인을 통해 포토 모자이크를 생성할 수 있도록 정점을 디자인하고, 타일로 사용할 영상 데이터베이스의 텍스처 표현을 제시한다. 정점 셰이더에서는 텍스처에 저장된 입력 영상과 타일 영상들을 이용해 최적 타일을 찾고, 프래그먼트 셰이더는 이것을 프레임 버퍼에 그림으로써 포토 모자이크를 생성한다. 본 논문에서 제안한 방법은 최적 타일을 찾는 기존의 포토 모자이크 알고리즘에 비해 월등히 빠른 결과를 보여준다.

  • PDF

GPU 기반 행렬 곱셈 병렬처리 알고리즘 (Parallel Algorithm for Matrix-Matrix Multiplication on the GPU)

  • 박상근
    • 융복합기술연구소 논문집
    • /
    • 제9권1호
    • /
    • pp.1-6
    • /
    • 2019
  • Matrix multiplication is a fundamental mathematical operation that has numerous applications across most scientific fields. In this paper, we presents a parallel GPU computation algorithm for dense matrix-matrix multiplication using OpenGL compute shader, which can play a very important role as a fundamental building block for many high-performance computing applications. Experimental results on NVIDIA Quad 4000 show that the proposed algorithm runs about 208 times faster than previous CPU algorithm and achieves performance of 75 GFLOPS in single precision for dense matrices with matrix size 4,096. Such performance proves that our algorithm is practical for real applications.