• 제목/요약/키워드: GPU Process

검색결과 147건 처리시간 0.026초

HEVC 부호화기에서 GPU 기반 정수화소 움직임 추정을 고속화하기 위한 적응적인 탐색영역 결정 방법 (Adaptive Search Range Decision for Accelerating GPU-based Integer-pel Motion Estimation in HEVC Encoders)

  • 김상민;이동규;심동규;오승준
    • 방송공학회논문지
    • /
    • 제19권5호
    • /
    • pp.699-712
    • /
    • 2014
  • 본 논문은 High Efficiency Video Coding (HEVC) GPU 기반 정수화소(integer-pel) 움직임 추정(Motion Estimation)을 고속화하기 위한 적응적인 탐색영역 결정 방법을 제안한다. 적응적인 탐색영역은 Motion Vector Difference (MVD)를 이용하여 결정한다. 먼저, 입력 영상의 MVD를 분석하여 입력 영상을 두 모델로 분류한다. 이후 분류된 각 모델의 MVD 특성에 따라 적응적인 탐색영역을 결정한다. 제안하는 알고리즘을 GPU 기반 정수화소 움직임 추정에 적용하기 위해 움직임 추정의 시작점은 이전 프레임의 Motion Vector (MV)로 결정한다. 위 과정은 CPU에서 이뤄지며, CPU는 움직임 추정의 시작점과 적응적인 탐색영역을 GPU에 전송한다. 이후 GPU는 정수화소 움직임 추정을 병렬로 수행한다. 제안하는 알고리즘은 참조 모델 대비 1.1%의 BD-rate 상승과 전체 부호화 시간의 37.9% 감소 및 951.2배 빠른 정수화소 움직임 추정 수행 시간을 얻는다. 또한, 적응적인 탐색영역이 적용되지 않은 단순 병렬화 알고리즘 대비 57.5%의 정수화소 움직임 추정 시간 감소와 0.6% BD-rate 상승을 얻는다.

DVB-T 수신기를 위한 대규모 병렬처리 GPU 기반의 FFT 구현 (Implementation of FFT on Massively Parallel GPU for DVB-T Receiver)

  • 이규형;허서원
    • 방송공학회논문지
    • /
    • 제18권2호
    • /
    • pp.204-214
    • /
    • 2013
  • 최근 GPU의 뛰어난 병렬 연산 처리 능력을 이용하여 신호 처리나 통신 시스템을 소프트웨어로 구현하기 위한 다양한 연구가 진행되고 있다. 본 논문에서는 DVB-T에서 사용되는 2K/8K FFT를 GPU를 이용하여 처리함으로써 소프트웨어 모의실험에 소요되는 시간을 줄였다. 우리는 먼저 DTV 전송 표준 방식의 일종인 DVB-T 시스템을 CPU로 구현할 때 소요되는 처리 시간을 모의실험을 통해서 추정한다. 그리고 DVB-T의 핵심 연산 처리기의 일종인 FFT 처리를 NVIDIA사의 대용량 GPU 프로세서를 이용하여 소프트웨어로 구현한다. 본 논문은 CPU와 GPU 간의 데이터 전송에 소요되는 오버헤드를 줄이기 위해 스트림 처리 기법, 외부 전역 메모리 전송 시간을 단축하기 위한 결합 전송 기법 (coalescing), 공유 메모리 활용을 높이기 위한 변수 설계 기법 등을 통해서 연산시간을 대폭 단축하였다. 그 결과 제안된 방식은 DVB-T의 2K/8K FFT 모드의 경우 CPU 기반의 FFT 처리 방식 대비 약 20~30배, NVIDIA사에서 제공하는 FFT 라이브러리 (CUFFT version 2.1) 대비 약 1.8배 그리고 기존에 발표된 타 방식 대비 약 1.5~10배 정도 빠른 처리 능력을 보인다.

삼중대각행렬 시스템 풀이의 빠른 GPU 구현 (Fast GPU Implementation for the Solution of Tridiagonal Matrix Systems)

  • 김영희;이성기
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권11_12호
    • /
    • pp.692-704
    • /
    • 2005
  • 컴퓨터 하드웨어의 급속한 발전으로 그래픽 프로세서 유닛(Graphics Processor Units : GPUs)은 굉장한 메모리 대역폭과 산술 능역을 보유하게 되어 범용 계산에 많이 활용되고 있으며, 특히 계산 집약적인 물리 기반 시뮬레이션(physics based simulation)의 GPU 구현이 활발하게 연구되고 있다. 물리 기반 시뮬레이션의 기본이 되는 미분방정식 풀이 과정에서 삼중대각행렬(tridiagonal matrix) 시스템은 유한차분(finite-difference) 근사에 의해서 자주 나타나는 선형시스템으로 물리 기반 시뮬레이션 관점에서 삼중대각행렬 시스템의 빠른 풀이는 중요한 연구 분야이다. 본 논문에서는 GPU에서 삼중대각행렬 시스템 풀이를 빠르게 구현할 수 있는 방법을 제안한다. 벡터 프로세서(vector processor) 계산에서 삼중대각행렬 시스템 풀이 방법으로 널리 사용되는 cyclic reduction 또는 odd-even reduction 알고리즘을 GPU에서 구현하였다. 본 논문에서 제안한 방법을 삼중대각행렬 시스템 풀이 방법으로 잘 알려져 있는 Thomas 방법과 GPU를 이용한 선형시스템 풀이에서 좋은 성과를 보이고 있는 conjugate gradient 방법과 비교할 때 상당한 성능 향상을 얻을 수 있었다. 또한, 열전도(heat conduction) 방정식, 이류 확산(advection-diffusion) 방정식, 얕은 물(shallow water) 방정식에 의한 물리 기반 시뮬레이션의 GPU 구현에 본 논문에서 제안한 방법을 사용하여 1024x1024 격자의 계산 영역에서 초당 35프레임 이상의 놀라운 성능을 보여주었다.

성장 환경을 활용한 다수의 나무에 대한 사실적인 실시간 모델링 기법 (Realistic and Real-Time Modeling of Numerous Trees Using Growing Environment)

  • 김진모;조형제
    • 한국멀티미디어학회논문지
    • /
    • 제15권3호
    • /
    • pp.398-407
    • /
    • 2012
  • 본 연구에서는 넓은 지형에 분포하는 많은 수의 나무를 사실적이면서 효율적으로 표현하는 나무 모델 방법을 제안한다. 나무 가지의 재귀적 계층 구조와 싹으로부터 자기조직화를 통한 가지 생성 과정을 결합하여 단순화시킴으로써 보다 직관적이고 효율적으로 나무를 생성한다. 이러한 생성 과정은 사용자가 단계별 구조와 가지 길이, 분포, 방향과 같은 외형 조절을 인터랙티브하게 제어할 수 있도록 한다. 또한 많은 수의 나무를 동시에 제어하여 다양하게 성장시킬 수 있도록 하는 환경 적응형 모델을 설계하고 이를 효과적으로 처리하는 성장 환경 적용 방법을 제안한다. 여기에 넓은 지형위에 분포하는 복잡한 나무 모델의 실시간 시뮬레이션을 위해 GPU(Graphics Processing Unit)를 통한 렌더링 과정과 가지 표면의 연속적 세분화단계, 그리고 인스턴싱 기법을 도입한다. 제안한 나무 모델을 통해 넓은 지형에 다양한 나무를 사실적이고 효율적으로 표현할 수 있는지 여부를 시뮬레이션을 통해 확인한다.

GPU를 이용한 개선된 뷰포인트 벡터 렌더링 방식의 집적영상시스템 프레임워크에 관한 연구 (Research on the Development of an Integral Imaging System Framework and an Improved Viewpoint Vector Rendering Method Utilizing GPU)

  • 이빛나라;박경신;조용주
    • 한국정보통신학회논문지
    • /
    • 제10권10호
    • /
    • pp.1767-1772
    • /
    • 2006
  • 컴퓨터-생성 (Computer-generated, CG)집적영상시스템은 사용자들이 컴퓨터 그래픽을 이용해서 미리 만들어진 기초영상들을 렌즈 어레이를 통해 보게 되면 3차원 입체영상을 느낄 수 있도록 해주는 무안경식 양안시차 디스플레이 시스템이다. 이 때 CG집적영상시스템에 컴퓨터를 이용하여 기초영상을 만드는 과정을 이미지 매핑 (Image Mapping)이 라고 하는데, 뷰포인트 벡터 렌더링 (Viewpoint Vector Rendering, VVR) 이 미지 매핑 방식은 표현하는 대상의 크기나 시스템에서 사용하는 렌즈 어레이 기초렌즈의 개수에 영향을 받지 않아 실시 간 처리에 보다 유리하다. 본 논문에서는 실시간 3차원 그래픽 응용 프로그램에 보다 적합한 CG 집적영상시스템을 구축하기 위해 GPU(Graphics Processing Unit)를 이용하여 렌더 링 성능을 향상시킨 VVR 집적영상시스템 프레임워크(Framework)를 소개한다. 그리고 일반적인 기존의 VVR 구현 방법과 GPU를 이용하는 새로운 방식의 성능을 비교 분석하며, 상당한 성능 향상이 이루어졌음을 보여 준다.

GPU 컴퓨팅에 의한 고속 Double Random Phase Encoding (Fast Double Random Phase Encoding by Using Graphics Processing Unit)

  • 사이플라흐;문인규
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2012년도 춘계학술발표대회논문집
    • /
    • pp.343-344
    • /
    • 2012
  • With the increase of sensitive data and their secure transmission and storage, the use of encryption techniques has become widespread. The performance of encoding majorly depends on the computational time, so a system with less computational time suits more appropriate as compared to its contrary part. Double Random Phase Encoding (DRPE) is an algorithm with many sub functions which consumes more time when executed serially; the computation time can be significantly reduced by implementing important functions in a parallel fashion on Graphics Processing Unit (GPU). Computing convolution using Fast Fourier transform in DRPE is the most important part of the algorithm and it is shown in the paper that by performing this portion in GPU reduced the execution time of the process by substantial amount and can be compared with MATALB for performance analysis. NVIDIA graphic card GeForce 310 is used with CUDA C as a programming language.

  • PDF

A Dynamic Accuracy Estimation for GPU-based Monte Carlo Simulation in Tissue Optics

  • Cai, Fuhong;Lu, Wen
    • Current Optics and Photonics
    • /
    • 제1권5호
    • /
    • pp.551-555
    • /
    • 2017
  • Tissue optics is a well-established and extensively studied area. In the last decades, Monte Carlo simulation (MCS) has been one of the standard tools for simulation of light propagation in turbid media. The utilization of parallel processing exhibits dramatic increase in the speed of MCS's of photon migration. Some calculations based on MCS can be completed within a few seconds. Since the MCS's have the potential to become a real time calculation method, a dynamic accuracy estimation, which is also known as history by history statistical estimators, is required in the simulation code to automatically terminate the MCS as the results' accuracy achieves a high enough level. In this work, spatial and time-domain GPU-based MCS, adopting the dynamic accuracy estimation, are performed to calculate the light dose/reflectance in homogeneous and heterogeneous tissue media. This dynamic accuracy estimation can effectively derive the statistical error of optical dose/reflectance during the parallel Monte Carlo process.

CPU와 GPU의 병렬 처리를 이용한 고속 물체 인식 알고리즘 구현 (The Implementation of Fast Object Recognition Using Parallel Processing on CPU and GPU)

  • 김준철;정용한;박은수;최학남;김학일;허욱렬
    • 제어로봇시스템학회논문지
    • /
    • 제15권5호
    • /
    • pp.488-495
    • /
    • 2009
  • This paper presents a fast feature extraction method for autonomous mobile robots utilizing parallel processing and based on OpenMP, SSE (Streaming SIMD Extension) and CUDA programming. In the first step on CPU version, the algorithms and codes are optimized and then implemented by parallel processing. The parallel algorithms are debugged to maintain the same level of performance and the process for extracting key points and obtaining dominant orientation with respect to key points is parallelized. After extraction, a parallel descriptor via SSE instructions is constructed. And the GPU version also implemented by parallel processing using CUDA based on the SIFT. The GPU-Parallel descriptor achieves an acceleration up to five times compared with the CPU-Parallel descriptor, but it shows the lower performance than CPU version. CPU version also speed-up the four and half times compared with the original SIFT while maintaining robust performance.

DME 플랜트 $CO_2$흡수탑 대체용 고분자 분리막 모듈 (Polymeric Membrane Modules for Substituting the $CO_2$ Absorption Column in the DME Plant Process)

  • 정종태;이충섭;고형철;하성용;남상용;조원준;백영순
    • 멤브레인
    • /
    • 제22권2호
    • /
    • pp.142-154
    • /
    • 2012
  • DME 제조공정에서 발생하는 혼합가스 중 $CO_2$를 제거하기 위해서 $H_2$ 투과도보다 $CO_2$투과도가 우수한 고무상 고분자를 분리소재로 선정하여 복합막을 제조하고 $CO_2/H_2$의 분리성능을 검증하여 보았다. 지지체 중공사막 소재로 PEI를 이용하여 지지체 중공사막을 제조하였으며, 제조된 지지체 중공사막의 기체투과도를 각 가스별로 측정하여 PDMS의 경우는 $CO_2$ 투과도 300 GPU 이상, $CO_2/H_2$의 선택도가 4.3 이상, PEBAX를 사용한 경우 $CO_2$ 투과도 120 GPU 이상 $CO_2/H_2$의 선택도가 5 이상인 복합 중공사를 제조하였다.

PDF 버전 1.4-1.6의 CUDA GPU 환경에서 암호 해독 최적 구현 (PDF Version 1.4-1.6 Password Cracking in CUDA GPU Environment)

  • 김현준;엄시우;서화정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권2호
    • /
    • pp.69-76
    • /
    • 2023
  • 매년 수십만 개의 암호를 분실하거나 잊어버리면서 합법적인 소유자나 권한을 부여받은 법 집행 담당자가 필요한 정보를 사용할 수 없게 된다. 이러한 암호를 되찾기 위해 암호 해독(Password Cracking)이 사용된다. 암호 해독에 CPU 대신 GPU를 사용하면 복구 과정에서 필요한 많은 양의 계산을 신속하게 처리할 수 있다. 본 논문은 현재 가장 많이 사용되는 PDF 1.4 -1.6 버전의 암호 해독에 중점을 두고 CUDA를 사용하여 GPU에서 최적화한다. MD5 알고리즘의 불필요 연산 제거, RC4 알고리즘의 32비트 워드 통합 구현, 공유메모리 사용의 기법을 사용하였다. 또한 성능향상에 영향을 미치는 블록, 스레드 수 탐색을 위해 오토튠 기법을 사용하였다. 결과적으로 RTX 3060, RTX 3090 환경에서 블록 크기 65,536, 스레드 크기 96에서 31,460 kp/s(kilo passwords per second), 66,351 kp/s의 처리량을 보였으며, 기존 최고 처리량을 보여주는 해시캣의 처리량보다 각각 22.5%, 15.2%를 향상시켰다.