• 제목/요약/키워드: Multi GPU

검색결과 123건 처리시간 0.026초

SYCL에서 효율적인 멀티 GPU 프로그래밍을 위한 MPI-wrapper API 개발 (Development of MPI-wrapper for efficient SYCL-based Multi GPU programming)

  • 명훈주;구기범;오광진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.44-47
    • /
    • 2023
  • SYCL은 C++을 기반으로 하는 언어로 가속기를 사용하는 복잡한 과정을 C++의 특징 중의 하나인 추상화를 사용해 개발자가 쉽게 접근할 수 있게 한다. 그러나, 가속기를 활용하는 측면에서는 성능을 최대한으로 끌어내기 위해 저수준 접근도 필요하다. 특히, NVLink와 같이 효율적인 멀티-GPU 통신을 해주는 인터커넥션 링크 활용을 위해서도 필요하다. 본 논문에서는 SYCL 구현물 중의 하나인 AdaptiveCpp을 가지고 NVLink로 연동된 멀티 GPU 환경에서 효율적으로 프로그래밍을 할 수 있는 방법을 제안하고, SYCL 개발자들이 SYCL의 설계 철학을 따라 프로그래밍을 할 수 있도록 이러한 기능을 추상화하여 담은 MPI wrapper API를 제안한다.

Multi-Access Memory System을 이용한 3D 그래픽 프로세서 제안 (Proposal of 3D Graphic Processor Using Multi-Access Memory System)

  • 이스라엘;김재희;고경식;박종원
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.119-128
    • /
    • 2019
  • 3D 그래픽 프로세서의 시스템의 특성상 많은 수학적 계산이 요구되면서 고속처리를 위하여 GPU(Graphics Processing Unit)를 이용한 병렬처리 연구가 많이 진행되고 있다. 본 논문에서는 GPU에서 발생하는 문제점 중 캐시메모리 미스에 의하여 발생하는 대역폭 증가와 3D 셰이더 처리 속도가 일정하지 않은 문제점을 해결하기 위하여 캐시메모리를 사용하지 않는 병렬처리기인 MAMS를 이용한 3D 그래픽 프로세서를 제안한다. 본 논문에서 제안된 MAMS를 이용한 3D 그래픽 프로세서는 DirectX 명령 분석을 이용해 Vertex shader, Pixel shader와 Tiling 및 Rasterizing 구조를 설계 하였고, MAMS를 위한 FPGA(Xilinx Virtex6@100MHz) 보드를 구성하여, Verilog를 사용하여 설계된 구조를 개발하였다. 개발된 FPGA(100Mhz)와 nVidia GeForce GTX 660(980Mhz)의 처리시간을 확인한 결과 GTX 660를 이용한 처리 시간은 일정하지 않음을 확인하였고, MAMS를 이용한 처리 시간은 일정함을 확인하였다.

터커 분해 및 은닉층 병렬처리를 통한 임베디드 시스템의 다중 DNN 가속화 기법 (Multi-DNN Acceleration Techniques for Embedded Systems with Tucker Decomposition and Hidden-layer-based Parallel Processing)

  • 김지민;김인모;김명선
    • 한국정보통신학회논문지
    • /
    • 제26권6호
    • /
    • pp.842-849
    • /
    • 2022
  • 딥러닝 기술의 발달로 무인 자동차, 드론, 로봇 등의 임베디드 시스템 분야에서 DNN을 활용하는 사례가 많아지고 있다. 대표적으로 자율주행 시스템의 경우 정확도가 높고 연산량이 큰 몇 개의 DNN들을 동시에 수행하는 것이 필수적이다. 하지만 상대적으로 낮은 성능을 갖는 임베디드 환경에서 다수의 DNN을 동시에 수행하면 추론에 걸리는 시간이 길어진다. 이러한 현상은 추론 결과에 따른 동작이 제때 이루어지지 않아 비정상적인 기능을 수행하는 문제를 발생시킬 수 있다. 이를 해결하기 위하여 본 논문에서 제안한 솔루션은 먼저 연산량이 큰 DNN에 터커 분해 기법을 적용하여 연산량을 감소시킨다. 그다음으로 DNN 모델들을 GPU 내부에서 은닉층 단위로 최대한 병렬적으로 수행될 수 있게 한다. 실험 결과 DNN의 추론 시간이 제안된 기법을 적용하기 전 대비 최대 75.6% 감소하였다.

A Study on Efficient User Management System of Combat System

  • Hee-Soo Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권7호
    • /
    • pp.191-198
    • /
    • 2024
  • 이 논문에서는 함정 내 전투체계 시스템을 효율적으로 운용하기 위한 사용자 관리 시스템을 제안한다. 최근 함정에는 다양한 센서, 기능 그리고 시스템의 지속적인 발전을 통해 성능이 강화되고 있다. 이러한 시스템의 발전은 함정 내 다양한 센서와 기능을 조작할 수 있는 다기능 콘솔의 증가로 이어지며, 이에 따라 다기능 콘솔의 운용자 수도 증가하고 있다. 따라서 함정 내 효율적인 관리를 위해 다기능 콘솔과 운용자를 실시간 통제 및 관리하는 사용자 관리 시스템이 요구된다. 본 논문에서는 다기능 콘솔에 접근하는 사용자의 실시간 상황에 대해 효율적으로 관리할 수 있는 사용자 관리 시스템을 제안한다. 또한, 전투체계 시스템의 다양한 기능을 운용하는 CPU의 부하를 줄일 수 있는 GPU를 이용한 병렬화 방법을 제안한다. 제안한 사용자 관리 시스템은 GPU를 활용한 결과 CPU를 활용한 결과에 비해 응답시간은 약 82%, 점유율은 약 20% 줄어드는 성능을 확인하였다.

CUDA 프레임워크 상에서 스카이라인 질의처리 알고리즘 최적화 (Optimizing Skyline Query Processing Algorithms on CUDA Framework)

  • 민준;한환수;이상원
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권5호
    • /
    • pp.275-284
    • /
    • 2010
  • GPU는 대용량 데이터 처리를 위해 특화된 멀티 코어 기반의 스트림 프로세서로서 빠른 데이터 처리 속도 및 높은 메모리 대역 동의 장점을 가지며, CPU에 비해 가격이 저렴하다. 최근 이러한 GPU의 특성용 활용하여 범용 컴퓨팅 분야에 활용하고자 하는 시도가 계속되고 있다. 엔비디아에서 발표한 범용 병렬 컴퓨팅 아키텍처인 쿠다(CUDA) 프로그래밍 모델의 경우 프로그래머가 GPU 상에서 동작하는 범용 어플리케이션을 보다 손쉽게 개발할 수 있도록 지원한다. 본 논문에서는 쿠다 프로그래밍 모델을 이용하여 기본적인 중첩-반복 스카이라인 알고리즘을 병렬화시킨다. 그리고 스카이라인 알고리즘의 특성을 고려하여 GPU 자원용 효율적으로 사용할 수 있도록 GPU의 메모리 및 명령어 처리율에 중점을 두고 단계적인 최적화를 진행한다. 최적화 단계에 따라 각각 다른 성능 개선이 나타나는 것을 확인하였으며, 그 결과 기본 병렬 중첩-반복 알고리즘에 비해 평균 80%의 성능이 향상됨을 확인하였다.

다중 사용자 환경에서 효과적인 키 교환을 위한 GPU 기반의 NTRU 고속구현 (Accelerated Implementation of NTRU on GPU for Efficient Key Exchange in Multi-Client Environment)

  • 성효은;김예원;염용진;강주성
    • 정보보호학회논문지
    • /
    • 제31권3호
    • /
    • pp.481-496
    • /
    • 2021
  • 대규모 양자컴퓨팅 기술의 실현을 앞둔 현재 공개키 암호 시스템을 양자내성을 가진 암호 시스템으로 전환하는 것은 필수적이다. 미국 국립표준기술연구소 NIST는 양자내성암호(Post-Quantum Cryptography, PQC)를 표준화하기 위한 공모사업을 추진하고 있으며 인터넷 통신 보안에 주로 사용되는 TLS(Transport Layer Security) 프로토콜에 이러한 양자내성암호를 적용하기 위한 차원의 연구도 활발히 진행되고 있다. 본 논문에서는 병렬화된 양자내성암호 NTRU를 활용하여 TLS 상에서 서버와 다수의 사용자가 세션키를 공유하기 위한 키 교환(key exchange) 시나리오를 제시한다. 또한, GPU를 이용하여 NTRU를 병렬화 및 연산을 고속화하는 방법을 제시하고 서버가 대규모 데이터를 처리해야 하는 환경에서 그 효율성을 분석한다.

다중 GPGPU를 이용한 컴퓨터 생성 홀로그램의 병렬화 구현 (Implementation of Parallel Computer Generated Hologram Using Multi-GPGPU)

  • 서영호;이윤혁;김동욱
    • 한국정보통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.1177-1186
    • /
    • 2014
  • 컴퓨터생성홀로그램은 수학적으로 모델링된 광학적인 현상을 컴퓨터로 연산한 것이다. 이때 방대한 량의 연산이 필요하기 때문에 실시간으로 고해상도의 홀로그램을 얻기 위해서는 고속 기법이 필요하다. 본 논문에서는 CGH를 위한 두 가지 병렬화를 제안한다. 첫 번째는 GPU 내에서 CGH 알고리즘을 병렬화하는 것이고, 두 번째는 다수의 GPU를 위한 병렬화이다. 제안한 알고리즘 구조는 CUDA를 이용하여 GTX780 Ti GPU에 구현하였다. 약 10K의 입체 정보를 이용하여 $1,024{\times}1,024$의 컬러 홀로그램을 생성하는데 약 106ms가 소요된다.

중공사 복합막을 이용한 다성분계 휘발성 유기 화합물 투과 특성 (VOCs Permeation Property of Composite Hollow Fiber Membranes)

  • 최휘문;조순행;김순태;이충섭;남상용
    • 멤브레인
    • /
    • 제23권2호
    • /
    • pp.176-184
    • /
    • 2013
  • 다성분계 휘발성 유기화합물(VOCs; Volatile Organic Compounds)의 분리를 위하여 상전이법을 이용하여 방사한 poly (ether imide) (PEI) 중공사 지지체에 poly (dimethylsiloxane) (PDMS)를 코팅하여 중공사 복합막을 제조하였다. VOCs 회수용 중공사막으로서 적합성을 알아보기 위해서 중공사막의 모폴로지, 질소 및 산소 기체 투과도를 측정하고, 벤젠, 톨루엔 그리고 자일렌에 대한 내구성을 조사하였다. 다성분계 휘발성 유기화합물의 효과적인 분리성능을 조사하기 위하여 Stage-cut과 feed 농도에 따른 다성분계 VOCs 투과 성능 변화를 관찰하였다. PEI 지지체 중공사막에 PDMS를 코팅시킴에 따라 산소와 질소 투과도는 각각 45,000 GPU와 49,450 GPU에서 63 GPU와 30 GPU로 감소하는 것을 확인하였다. VOCs 투과농도는 Stage-cut이 감소함에 따라 증가하나, 회수율은 감소하였다. 반면에 공급농도 증가에 따라 투과농도는 비례적으로 증가하였지만, 농축비나 회수율은 큰 변화가 없었다.

임의 순서 렌더링 방법을 이용한 GPU 기반 멀티비전 시스템 (GPU-based multi-vision system using randomly-ordered rendering method)

  • 김성제;허진강;김제우;김용환
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2017년도 하계학술대회
    • /
    • pp.227-228
    • /
    • 2017
  • 8K급 이상의 초고해상도/초다시점/초대용량 콘텐츠의 성공적인 시장 보급을 위해서는 콘텐츠의 실시간 재생이 가능한 단일 재생 시스템이 필요한 상황이지만, 현존하는 기술로는 해당 요구 사항을 만족하기는 어려운 상황이다. 이에 본 논문에서는 현존하는 재생 기술 기반으로 8K급 이상의 초고해상도를 갖는 콘텐츠를 효과적으로 재생하기 위한 GPU 기반의 멀티비전 시스템과 디스플레이 화면 간 안정된 동기 재생을 지원하기 위한 임의 순서 렌더링 방법을 제안한다.

  • PDF

임베디드 GPU에서의 딥러닝 기반 실시간 보행자 탐지 기법 (Deep Learning-Based Real-Time Pedestrian Detection on Embedded GPUs)

  • 비엔 지아 안;이철
    • 방송공학회논문지
    • /
    • 제24권2호
    • /
    • pp.357-360
    • /
    • 2019
  • 본 논문은 임베디드 GPU에서 실시간 동작하는 딥 컨볼루션 뉴럴 네트워크(CNN) 기반의 보행자 탐지 기법을 제안한다. 제안하는 기법에서는 먼저 영상 내 보행자 크기에 대한 통계적 분석을 통해서 최적의 컨볼루션 층의 개수를 결정한다. 또한, 본 논문에서는 다중 스케일 CNN 학습 기법을 적용하여 영상 내의 보행자 크기 변화에 강인한 탐지 기법을 개발한다. 컴퓨터 모의실험을 통해 제안하는 알고리즘이 임베디드 GPU에서 실시간 동작하면서도 기존의 기법과 비교하여 평균적으로 높은 정확도를 보임을 확인한다.