• 제목/요약/키워드: GPU implementation

검색결과 147건 처리시간 0.027초

GPUDirect RDMA 기반의 고성능 암호 분석 시스템 설계 및 구현 (Design and Implementation of High-Performance Cryptanalysis System Based on GPUDirect RDMA)

  • 이석민;신영주
    • 정보보호학회논문지
    • /
    • 제32권6호
    • /
    • pp.1127-1137
    • /
    • 2022
  • GPU의 병렬 연산을 활용한 암호 분석 및 해독 기술은 암호 분석 시스템의 연산 시간을 단축하는 방향으로 연구되었다. 해당 연구들은 하나의 GPU에서 암호 분석 연산의 속도를 향상시키기 위해 코드를 최적화하거나 또는 단순히 GPU의 수를 늘려 병렬 연산을 강화하는 것에 집중되어 있다. 하지만 다량의 GPU를 데이터 전송에 대한 최적화 없이 사용하는 것은 하나의 GPU를 사용하는 것보다 더 긴 데이터 전송 지연 문제를 발생시키고, 암호 분석 시스템의 전체적인 연산 시간 증가를 야기한다. 이에, 본 논문은 딥러닝 또는 HPC 연구 분야의 GPU Clustering 환경에서 고성능 데이터 처리를 위해 활용되는 GPUDirect RDMA 및 관련 제반 기술들을 조사 및 분석한다. 그리고 해당 기술들을 활용한 고성능 암호 분석 시스템 설계 방법들을 제안한다. 더 나아가, 해당 설계를 기반으로 Password Cracking, GPU Reduction을 활용한 암호 분석 시스템 구현 방법에 대해 제시한다. 최종적으로, GPUDirect RDMA 기술 적용으로 구현된 암호 분석 시스템에 대해서 암호 분석 작업 성능 향상의 실증을 통해 제안한 시스템에 대한 기대효과를 제시한다.

DVB-T 수신기를 위한 대규모 병렬처리 GPU 기반의 FFT 구현 (Implementation of FFT on Massively Parallel GPU for DVB-T Receiver)

  • 이규형;허서원
    • 방송공학회논문지
    • /
    • 제18권2호
    • /
    • pp.204-214
    • /
    • 2013
  • 최근 GPU의 뛰어난 병렬 연산 처리 능력을 이용하여 신호 처리나 통신 시스템을 소프트웨어로 구현하기 위한 다양한 연구가 진행되고 있다. 본 논문에서는 DVB-T에서 사용되는 2K/8K FFT를 GPU를 이용하여 처리함으로써 소프트웨어 모의실험에 소요되는 시간을 줄였다. 우리는 먼저 DTV 전송 표준 방식의 일종인 DVB-T 시스템을 CPU로 구현할 때 소요되는 처리 시간을 모의실험을 통해서 추정한다. 그리고 DVB-T의 핵심 연산 처리기의 일종인 FFT 처리를 NVIDIA사의 대용량 GPU 프로세서를 이용하여 소프트웨어로 구현한다. 본 논문은 CPU와 GPU 간의 데이터 전송에 소요되는 오버헤드를 줄이기 위해 스트림 처리 기법, 외부 전역 메모리 전송 시간을 단축하기 위한 결합 전송 기법 (coalescing), 공유 메모리 활용을 높이기 위한 변수 설계 기법 등을 통해서 연산시간을 대폭 단축하였다. 그 결과 제안된 방식은 DVB-T의 2K/8K FFT 모드의 경우 CPU 기반의 FFT 처리 방식 대비 약 20~30배, NVIDIA사에서 제공하는 FFT 라이브러리 (CUFFT version 2.1) 대비 약 1.8배 그리고 기존에 발표된 타 방식 대비 약 1.5~10배 정도 빠른 처리 능력을 보인다.

모바일 멀티 코어 GP-GPU를 이용한 H.264/AVC 디코더 구현 (Implementation of IQ/IDCT in H.264/AVC Decoder Using Mobile Multi-Core GPGPU)

  • 김동한;이광엽;정준모
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 추계학술대회
    • /
    • pp.321-324
    • /
    • 2010
  • 최근 멀티코어 프로세서의 이용이 증가함에 따라, 멀티코어를 이용한 다양한 병렬화 기법들이 제안되고 있다. 모바일 환경에서도 멀티코어 구조를 적용한 프로세서들이 등장하면서 병렬화 기법들이 연구되고 있다. 하지만, 아직까지 모바일 환경에서의 CPU의 성능은 한계가 있다. 이를 병렬처리와 실수 연산이 뛰어난 GPGPU(General-Purpose computing in Graphics Processing Units)를 멀티코어 구조로 설계함으로써 다른 전용 하드웨어의 추가 없이 성능을 향상 시킬 수 있다. 본 논문에서는 모바일 환경에 적합하게 설계된 멀티코어 GPGPU를 이용하여 H.264 디코더의 Inverse Quantization, Inverse DCT, Color Space Conversion 모듈을 구현하였다. 멀티코어 GPGPU를 이용한 H.264 전체 시스템 동작 시 50%의 성능 향상이 있었다.

  • PDF

GPU를 이용한 신경망 구현 (Implementation of Neural Networks using GPU)

  • 오경수;정기철
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.735-742
    • /
    • 2004
  • 본 논문은 일반적인 그래픽스 하드웨어를 이용하여 더욱 빠른 신경망을 구현하고, 구현된 시스템을 영상 처리 분야에 적용함으로써 효용성을 검증한다. GPU의 병렬성을 효율적으로 사용하기 위하여, 다수의 입력벡터와 연결가중치벡터를 모아서 많은 내적연산을 하나의 행렬곱 연산으로 대체하였고, 시그모이드와 바이어스 항 덧셈 연산도 GPV 상에서 픽셀세이더로 구현하였다. ATI RADEON 9800 XT 보드를 이용하여 구현된 신경망 시스템은 CPU를 사용한 기존의 시스템과 비교하여 정확도의 차이 없이 30배 정도의 속도 향상을 얻을 수 있었다.

TCP 네트워크 통신을 이용한 디지털 홀로그램 생성 시스템의 구현 (Implementation of computer-generated hologram using TCP network communication)

  • 김창섭;송중석;박종일
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.444-446
    • /
    • 2015
  • 컴퓨터 생성 홀로그램(CGH: computer generated hologram) 기법은 기존의 홀로그램의 광학적 장치의 단점을 보완하여 범용 컴퓨터에서 홀로그램을 생성할 수 있도록 하는 기술이다. CGH는 입력으로 주어지는 물체의 3차원 정보와 출력으로 나오는 디지털 홀로그램의 해상도에 따라 그 연산량이 결정 된다. CGH는 단순하고 반복적인 수학적 계산을 통하여 디지털 홀로그램을 생성하게 되는데, 기존의 연구들에서는 GPU(graphic processing unit)를 이용하여 알고리즘들을 병렬적으로 처리한다. 본 논문에서는 기존연구에서 쓰인 GPU를 이용한 CGH을 개선하여 GPU가 장착되지 않은 상용 컴퓨터에서 GPU가 장착된 다른 컴퓨터들의 연산 자원을 활용하여 CGH를 수행 할 수 있는 프로그램의 개발 방법을 제안 한다. 본 시스템은 GPU가 요구되지 않는 한 개의 서버 컴퓨터와 GPU가 장착된 다수의 클라이언트들로 구성되어 있다. 서버 측에서 물체의 3차원 정보를 입력 받아 각각의 클라이언트들에게 적절한 연산량을 분배하고, 각 클라이언트들은 이미 알려진 GPU 기반 CGH를 통하여 연산을 수행 한 뒤, 그 결과를 서버로 다시 전송하게 된다. 서버는 수신한 각 결과들을 누적하여 입력 받은 물체에 대한 하나의 온전한 홀로그램을 생성할 수 있게 된다.

  • PDF

멀티코어 GP-GPU 기반의 OpenVG 가속기 구현 (Implementation of OpenVG Accelerator based on Multi-Core GP-GPU)

  • 이광엽;박종일;이찬호
    • 전기전자학회논문지
    • /
    • 제15권3호
    • /
    • pp.248-254
    • /
    • 2011
  • 최근 모바일 환경에서도 GUI(Graphic User Interface)나 3D 컨텐츠, Flash 등 다양한 그래픽 효과를 이용한 멀티미디어 컨텐츠들이 요구 된다. 이러한 컨텐츠들을 지원하 위하여 모바일 기기에도 GPU (Graphic Processing Unit)의 탑재가 필요조건이 되었다. 본 논문에서는 모바일 환경에 적합하도록 설계된 GP-GPU를 이용하여 OpenVG 가속기를 구현하였다. OpenVG 가속기는 크로노스 그룹에서 제공하는 샘플 이미지들을 사용하여 검증하였으며, OpenVG에서 제공해야 하는 동작 및 기능들이 정상 동작함을 검증하였다. 본 논문에서 구현한 가속기는 Tiger Image 렌더링시 초당 2프레임의 성능을 가진다.

초고해상도 홀로그램 생성을 위한 GPU 기반 Shift-FFT 처리 구현 (GPU-based Shift-FFT Implementation for Ultra-High Resolution Hologram Generation)

  • 이재홍;강호민;염한주;전상훈;박중기;김덕수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.563-566
    • /
    • 2020
  • 본 논문은 초고해상도 컴퓨터 홀로그램 생성을 위한 GPU 기반 2D Shift-FFT 의 효율적인 구현 방법을 제안한다. 본 연구가 제안하는 알고리즘은 기존에 여섯 단계로 이루어진 처리과정을 다섯 단계로 줄임으로서, 병렬처리에서 비효율적인 메모리 접근 과정을 줄인다. 또한, 핀드(pinned) 메모리 기반의 CPU-GPU 데이터 통신 통로인 핀드 버퍼(pinned buffer)를 사용하고 다중 스트림을 채용함으로써, GPU 활용의 주요 병목원인이 되는 데이터 통신의 부하를 줄이고 GPU 활용 효율을 높인다. 본 연구는 제안하는 알고리즘의 효용성을 증명하기 위해 서로 다른 두 시스템에 알고리즘을 구현하고, 다양한 크기의 행렬에 대한 2D-FFT 처리에 대한 성능을 측정하였다. 그 결과, CPU 기반의 FFTW 라이브러리 대비 최대 3 배, 동일한 GPU 를 사용하는 cuFFT 라이브러리 대비 최대 1.5 배 높은 성능을 달성하였다. 이러한 결과는, 본 연구가 제안하는 알고리즘의 효용성을 보여주는 결과다.

  • PDF

GPU를 이용한 개선된 뷰포인트 벡터 렌더링 방식의 집적영상시스템 프레임워크에 관한 연구 (Research on the Development of an Integral Imaging System Framework and an Improved Viewpoint Vector Rendering Method Utilizing GPU)

  • 이빛나라;박경신;조용주
    • 한국정보통신학회논문지
    • /
    • 제10권10호
    • /
    • pp.1767-1772
    • /
    • 2006
  • 컴퓨터-생성 (Computer-generated, CG)집적영상시스템은 사용자들이 컴퓨터 그래픽을 이용해서 미리 만들어진 기초영상들을 렌즈 어레이를 통해 보게 되면 3차원 입체영상을 느낄 수 있도록 해주는 무안경식 양안시차 디스플레이 시스템이다. 이 때 CG집적영상시스템에 컴퓨터를 이용하여 기초영상을 만드는 과정을 이미지 매핑 (Image Mapping)이 라고 하는데, 뷰포인트 벡터 렌더링 (Viewpoint Vector Rendering, VVR) 이 미지 매핑 방식은 표현하는 대상의 크기나 시스템에서 사용하는 렌즈 어레이 기초렌즈의 개수에 영향을 받지 않아 실시 간 처리에 보다 유리하다. 본 논문에서는 실시간 3차원 그래픽 응용 프로그램에 보다 적합한 CG 집적영상시스템을 구축하기 위해 GPU(Graphics Processing Unit)를 이용하여 렌더 링 성능을 향상시킨 VVR 집적영상시스템 프레임워크(Framework)를 소개한다. 그리고 일반적인 기존의 VVR 구현 방법과 GPU를 이용하는 새로운 방식의 성능을 비교 분석하며, 상당한 성능 향상이 이루어졌음을 보여 준다.

저가의 그래픽스 장치를 이용한 GPU 클러스터 시스템 구현 (Implementation of a GPU Cluster System using Inexpensive Graphics Devices)

  • 이종민;이중화;김성우
    • 한국멀티미디어학회논문지
    • /
    • 제14권11호
    • /
    • pp.1458-1466
    • /
    • 2011
  • 최근 들어 GPU 성능이 급격하게 향상됨에 따라서 그래픽 처리가 아닌 일반 계산 분야에도 활용하기 위하여 GPGPU 분야에 대한 연구에 많이 이루어지고 있다. 본 논문에서는 저가의 그래픽스 장치에 내재된 GPU를 활용하여 비용 대비 성능이 높은 시스템을 구현하기 위하여 기존의 슈퍼컴퓨터 구조를 벤치마킹한 시스템 구조를 제안하고, 8개의 GPU를 사용하는 GPU 클러스터 시스템을 구현한다. 또한 이를 위한 소프트웨어 환경을 구축하여 n-body 문제를 사용하여 시스템 성능을 분석한다. 성능 평가 결과 사용하는 GPU 수가 많아질수록 통신경비로 인하여 문제 크기가 충분히 커야 효율적임을 알 수 있었다. 그리고 GPU내 자원 부족 문제 때문에 발생하는 문제 크기 제약을 블록 단위로 계산하여 완화할 수 있는 방법을 적용하여 최대 팔백만 개의 천체에 대한 계산을 할 수 있었다.

RANSAC을 이용한 다중 평면 피팅의 효율적인 CUDA 구현 (Efficient CUDA Implementation of Multiple Planes Fitting Using RANSAC)

  • 조태훈
    • 한국정보통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.388-393
    • /
    • 2019
  • 외란(Outlier)이 있는 데이터를 피팅(Fitting)하는 방법으로 RANSAC(RANdom SAmple Consensus)알고리즘이 선, 원, 타원 등 의 피팅에 많이 사용되고 있다. 본 논문은 다수의 평면에 대한 3차원 포인트 데이터가 주어질 때 각 평면에 대해 RANSAC기반 평면 피팅을 최근 딥러닝 등에 많이 사용되는 GPU의 하나인 CUDA를 이용하여 효율적으로 수행하는 알고리즘을 제안한다. 모의 데이터와 실제 데이터를 이용하여 제안된 알고리즘의 성능을 CPU와 비교하여 보인다. 외란이 많고 인라이어(inlier) 비율이 낮을수록 CPU대비 속도가 향상되고 평면의 개수가 많을수록 평면당 데이터개수가 많을수록 병렬처리에 의한 속도가 가속됨을 보인다. 제안된 방법은 다중 평면 피팅외의 다른 피팅에도 쉽게 적용할 수 있다.