• 제목/요약/키워드: GPU 프로세스

검색결과 17건 처리시간 0.024초

내장형 GPU 환경에서 CPU-GPU 간의 공유 캐시에서의 캐시 분할 방식의 필요성 (The Need of Cache Partitioning on Shared Cache of Integrated Graphics Processor between CPU and GPU)

  • 성한울;엄현상;염헌영
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.507-512
    • /
    • 2014
  • 최근 전력의 한계 때문에 많은 트랜지스터를 모두 이용할 수 없는 '다크실리콘' 문제가 발생했다. 이 문제를 효율적으로 해결하기 위하여 CPU(Central processing unit)와 GPU(Graphic processing unit)를 함께 사용하여 분산처리하기 시작했다. 최근에는 CPU(Central processing unit)와 GPU(Graphic processing unit)가 메모리와 Last Level Cache를 공유하는 내장형 GPU 프로세서(Integrated graphic processing unit processor)가 등장했다. 하지만 CPU 프로세스와 GPU 프로세스가 LLC(Last level cache)로 접근하기 위한 어떠한 규칙이 없기 때문에, 동시에 CPU 프로세스와 GPU 프로세스 수행될 때 LLC(Last level cache)를 차지하기 위한 경쟁이 일어나 성능 저하가 발생한다. 본 논문에서는 캐시 접근 빈도가 큰 여러 개의 프로세스들이 수행됨에 따라 캐시 오염이 발생한 상황에서 GPU 프로세스의 성능 보장을 위하여 GPU 프로세스만을 위한 고정된 Last Level Cache 공간을 주는 캐시 분할방식이 필요함을 증명하고 캐시를 분할하기 위한 페이지 컬러링 기법을 소개하고 디자인한다.

컨테이너 환경에서 텐서플로의 GPU 메모리 사용방식에 따른 학습 작업의 성능 분석 (Analyzing the performance of training tasks based on GPU memory use manner of TensorFlow in Container environments)

  • 강지훈;길준민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.60-62
    • /
    • 2023
  • 인공지능의 학습 작업은 연산량이 많아 고성능 연산 장치인 GPU(Graphics Processing Unit)를 필요로 하며, GPU 장치의 성능은 학습 작업의 실행 성능에 직접적으로 영향을 미치는 요소 중 하나로 작용한다. 인공지능 작업을 처리하기 위해 많이 사용되는 텐서플로의 경우 GPU를 사용해 연산을 수행할 때 기본적으로 거의 모든 GPU 메모리 영역을 단일 학습 작업이 점유하도록 GPU 메모리를 관리한다. 이 방법은 컴퓨팅 자원 중 확장성이 가장 낮은 GPU 메모리의 단편화를 방지하기 위해 사용되는 방법이지만, 하나의 학습 작업이 GPU를 점유하게 되면, 실제 GPU 메모리 사용량과 상관없이 다른 프로세스는 GPU를 사용할 수 없는 문제를 유발한다. 특히, 전이학습, 소규모 학습과 같이 상대적으로 작업 규모가 작은 경우에는 전체 GPU 메모리 용량 중 대부분의 영역이 낭비된다. 본 논문에서는 컨테이너 환경에서 텐서플로의 기본 GPU 메모리 사용 방식으로 인해 다수의 학습 작업을 동시 실행하는 것이 불가능한 문제를 확인하고 GPU 메모리 사용량을 제한한 경우와 하지 않은 경우에 실제 GPU 메모리 사용량과 학습 작업의 실행 시간에 대한 성능 비교를 통해 GPU 메모리의 단편화 방지가 성능에 유의미한 요소인지 검증한다.

RPC 기반 GPU 가상화 환경에서 가상머신의 GPGPU 작업 성능 향상을 위한 GPU 메모리 관리 기법 (GPU Memory Management Technique to Improve the Performance of GPGPU Task of Virtual Machines in RPC-Based GPU Virtualization Environments)

  • 강지훈
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권5호
    • /
    • pp.123-136
    • /
    • 2021
  • RPC(Remote Procedure Call) 기반 GPU(Graphics Processing Unit) 가상화 기술은 다수의 사용자 가상머신에게 GPU를 공유하기 위한 기술 중 하나이다. 하지만 클라우드 환경에서 일반적인 GPU는 CPU나 메모리와는 다르게 가상머신의 자원 사용량을 제한할 수 있는 자원 격리(Isolation) 기술을 제공하지 않는다. 특히 RPC 기반 가상화 환경에서는 각 가상머신에서 실행되는 GPU 작업은 멀티 프로세스 형태로 수행되기 때문에 자원격리 기술의 부재는 자원 경쟁으로 인한 성능 저하 문제를 발생시킨다. 그리고 GPU 메모리 경쟁은 가상머신들의 자원 요구량이 많을수록 성능저하를 가속화하고 가상머신 사이의 균등한 성능을 보장하지 못하기 때문에 공평성이 저하되는 문제를 발생시킨다. 본 논문에서는 RPC 기반 GPU 가상화 환경에서 사용자 가상머신들의 GPU 메모리 요구량이 가용 GPU 메모리 용량을 초과했을 때 발생하는 자원 경쟁으로 인한 성능 저하 문제 분석하고 이를 해결하기 위한 GPU 메모리 관리 기법을 제안한다. 또한, 실험을 통해 본 논문에서 제안한 GPU 메모리 관리 기법이 GPGPU 작업의 성능을 향상시킬 수 있다는 것을 보여준다.

유전 알고리즘을 이용한 클라우드 환경의 인공지능 워크로드 스케줄링 (Scheduling of Artificial Intelligence Workloads in Could Environments Using Genetic Algorithms)

  • 권석민;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권3호
    • /
    • pp.63-67
    • /
    • 2024
  • 최근 스마트 물류, 핀테크, 엔터테인먼트 등 다양한 산업 분야의 인공지능 워크로드들이 클라우드 상에서 실행되고 있다. 본 논문은 이기종 GPU 클러스터로 구성된 다중 테넌트 클라우드 시스템에서 다양한 인공지능 워크로드가 실행될 때 발생하는 스케줄링 문제를 다룬다. 전통적인 스케줄링은 이러한 환경에서 GPU 이용률을 크게 저하시켜 시스템의 성능을 떨어뜨린다. 이러한 문제를 해결하기 위해, 본 논문에서는 유전 알고리즘 기반의 최적화 기법을 사용하는 새로운 스케줄링 접근 방식을 제안하고, 이를 프로세스 기반 이벤트 시뮬레이션 프레임워크에 구현하였다. 알리바바의 MLaaS 클러스터에서 수집한 광범위한 인공지능 작업들의 트레이스를 재현하는 실험을 통해 제안하는 스케줄링이 기존 스케줄링에 비해 GPU 이용률을 크게 개선함을 확인하였다.

서버 기반 SW 서비스에서 API 리모팅 기반의 GPU 가상화를 이용한 그래픽 분할 실행의 구현 (An Implementation of Graphic Offloading Computing using GPU Virtualization based on API Remoting on a Server-based Software Service)

  • 최원혁;김원영
    • 인터넷정보학회논문지
    • /
    • 제12권6호
    • /
    • pp.53-62
    • /
    • 2011
  • 본 논문은 3D SW와 같은 고사양의 SW를 서버 기반의 온라인 SW 서비스로 제공하기 위하여 GPU 가상화를 이용한 그래픽 분할 실행 방법에 대하여 소개한다. 이는 서버에서 SW 가상화 환경을 기반으로 실행되는 SW의 데이터 집중적인 작업은 서버에서 실행하고, 그래픽 작업들은 서버의 GPU를 이용하지 않고, GPU 가상화를 이용하여 클라이언트의 GPU에서 처리하여 SW를 서비스하는 방법이다. 이를 위하여 본 논문에서는 그래픽 정보의 클라이언트 렌더링을 API 리모팅을 이용하여 처리하는 방법에 대하여 제안한다. 또한, 제안된 방법이 화면 변경이 잦은 동적인 3D 그래픽을 사용하는 SW를 서버 기반의 온라인 형태로 서비스될 때, 우수한 성능을 보임을 알아본다. 또한, 다수의 클라이언트에게 분할 실행 SW 서비스를 제공함에 있어서, 서버의 부하를 줄이기 위하여 분할 실행 SW를 프로세스 단위로 가상화하고, 클라이언트의 설정 정보를 관리하여 서비스를 제공하는 방법에 대하여 기술한다.

실시간 초음파 영상에서 노이즈 개선을 위한 GPU 기반의 필터 알고리즘 (A GPU-based Filter Algorithm for Noise Improvement in Realtime Ultrasound Images)

  • 조영복;우성희
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권6호
    • /
    • pp.1207-1212
    • /
    • 2018
  • 초음파 영상은 초음파 펄스를 이용해 반사파를 수신하여 진단에 필요한 영상을 구성하는데 신호가 약해 질 경우, 잡음이 발생하여 미세한 명암도 차이가 발생한다. 또한 초음파 영상의 특성인 호흡에 의한 흔들림 현상과 실시간으로 변화하는 움직임에서 영상의 밝기 변화가 발생한다. 이와 같은 노이즈로 인해 임상적 병변을 육안으로 판단하고 진단하는데 어려움이 있다. 본 논문에서는 초음파 획득한 이미지에 영상처리 기법을 이용하여 형태학적 특징을 자동 추출한다. 이 논문에서는 영상처리를 위해 클라우드 빅데이터 처리 플랫폼을 활용해 GPU기반의 빠른 필터를 구현하였다. GPU 기반의 고성능 필터의 적용시 CPU 기반보다 4.7배 빠른 성능으로 알고리즘이 동작되었고 PSNR이 37.2dB로 원본과 매우 유사함을 확인하였다.

다중 프로세스 서비스를 이용한 GPU 응용 동시 실행 성능 분석 (A Execution Performance Analysis of Applications using Multi-Process Service over GPU)

  • 김세진;오지선;김윤희
    • KNOM Review
    • /
    • 제22권1호
    • /
    • pp.60-67
    • /
    • 2019
  • Graphical Processing Units(GPUs)는 비교적 정형화된 연산을 병렬적으로 처리함으로써 높은 성능을 제공한다. 기술의 발전에 따라 GPU 환경에서 다양한 응용 실행을 시도하는 General Purpose GPU(GPGPU) 실행환경이 연구되고 있으나, 자원 분배, 스케줄링 등의 GPU 자원을 효율적으로 사용하기에는 아직 제한적이다. 최신의 GPU 구조들은 커널의 동시 실행을 지원하지만 같은 응용 안에서만 동시 실행이 가능하다는 문제점이 있어 NVIDIA는 Multi-Process Service(MPS)를 제안하였다. MPS는 다른 응용에 속한 커널도 동시 실행할 수 있도록 서비스한다. 하지만 응용의 실행 특성 및 동시 실행되는 패턴이 미리 파악되어 있지 않으면 MPS 장점을 최대한으로 취할 수 없다. 본 논문에서는 응용 프로파일링을 통해 응용의 특성을 파악하고, 동시 실행 스케줄링 알고리즘을 적용하여 실험을 진행하였다. MPS의 장점을 최대한으로 활용하기 위해서는 함께 돌릴 응용의 특성을 파악하고, 프로파일링을 통해 동시 실행하는 응용들의 순서를 제어하는 스케줄링 알고리즘이 중요함을 보인다.

Cuda를 이용한 가우시언 믹스처 모델 기반 객체 추적 알고리즘 (Object Tracking Based on Gaussian Mixture Model Algorithm by Using Cuda)

  • 김인수;최형일
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2011년도 제43차 동계학술발표논문집 19권1호
    • /
    • pp.273-275
    • /
    • 2011
  • 본 논문에서는 효과적인 객체 추적을 위해 가우시언 믹스처 기반의 그림자 제거 알고리즘을 제안하고, GPGPU(General Purpose GPU) 아키텍처인 NVIDIA 사의 CUDA(Compute Unified Device Architecture)를 이용하여 기존의 객체 추적 알고리즘의 컴퓨팅 시간을 개선하는 모델을 제안한다. 이 시스템은 GPU를 이용한 가우시언 믹스처 모델 기반의 객체 추적 알고리즘으로 전경과 배경 분리 시 CPU와 GPU의 프로세스 시간을 적절히 분배하여 소모되는 연산시간을 줄이고, 고 해상도의 이미지에서의 객체 분리 및 추적의 시스템 처리량을 최대화 한다. 객체 추출 후 효과적인 추적을 위해 예측 모델인 칼만 필터를 사용한다.

  • PDF

GPU 병렬처리와 비동기 트리플 버퍼를 적용한 실시간 FD-OCT 시스템 구현 (Implementation of real-time FD-OCT system based on asynchronous triple buffering and parallel processing using GPU)

  • 전준영;김영봉
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.858-860
    • /
    • 2014
  • 최근 영상처리 기법과 하드웨어의 발달로 의학 분야에서는 질병의 진단에 다양한 영상 시스템을 활용하고 있다. 특히 OCT 기술은 인체조직의 고해상도 이미지 획득과 혈류속도 측정을 동시에 할 수 있어 의료분야에 다양하게 적용이 가능하여 많은 관심을 받고 있다. 이에 더욱더 선명한 OCT 영상을 획득하기 위해 다양한 알고리즘과 필터를 사용함에 따라 빠른 프로세스 처리가 요구되고 있는 실정이다. 본 논문에서는 듀얼 코어 이상급의 CPU 를 탑재한 시스템에서 데이터 처리 모듈과 렌더링 모듈을 트리플 버퍼를 통해 비동기식으로 멀티스레드화 하였고, GPU 기반의 병렬처리를 통한 데이터 처리를 하여 속도를 향상시켰다. 이에 광학 카메라 촬영 시 선명한 실시간 OCT 영상을 확인할 수 있었다.

GPU상에서 동작하는 Ray Tracing을 위한 효과적인 k-D tree 탐색 알고리즘 (An Efficient k-D tree Traversal Algorithm for Ray Tracing on a GPU)

  • 강윤식;박우찬;서충원;양성봉
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권3호
    • /
    • pp.133-140
    • /
    • 2008
  • 본 논문은 GPU상에서 작동되는 ray tracing을 위한 효과적인 k-D tree 탐색 알고리즘을 제안한다. 기존의 k-D tree를 위한 GPU 기반 탐색 알고리즘은 임의의 단말노드에서 교차되는 primitive를 찾지 못한 경우. root 노드 방향으로 bottom-up 탐색하여 부모 노드에서 bounding box 교차검사를 이용해 형제 노드의 기 방문 여부를 판단한다. 이러한 방법은 이미 방문한 부모 노드의 방문과 bounding box 교차검사를 중복적으로 수행한다. 본 논문에서 제안하는 알고리즘은 bottom-up 탐색을 수행 할 때 형제노드가 이전에 방문했는지를 확인할 수 있는 효율적인 방법을 제시함으로써 형제노드 및 부모로드의 방문을 생략하도록 하고, 또한 아직 방문하지 않은 노드에 대해서만 bounding box 교차검사를 수행함으로써 중복된 연산을 피한다. 결과적으로 본 논문의 실험은 기존 알고리즘 대비 제안하는 알고리즘이 약 30%의 성능 향상이 있음을 보여 준다.