• 제목/요약/키워드: GPU 최적화

검색결과 109건 처리시간 0.024초

GPU 성능 저하 해결을 위한 내부 자원 활용/비활용 상태 분석 (Analysis on the Active/Inactive Status of Computational Resources for Improving the Performance of the GPU)

  • 최홍준;손동오;김종면;김철홍
    • 한국콘텐츠학회논문지
    • /
    • 제15권7호
    • /
    • pp.1-11
    • /
    • 2015
  • 최신 고성능 컴퓨팅 시스템에서는, 대용량 병렬 연산을 효과적으로 처리할 수 있는 GPU의 우수한 연산 성능을 그래픽 처리 이외의 범용 작업에 활용하는 GPGPU 기술에 관한 연구가 활발하게 진행 중이다. 하지만 범용 응용프로그램의 특성이 GPU 구조에 최적화되어 있지 않기 때문에 범용 프로그램 수행 시 GPGPU는 GPU의 연산 자원을 효과적으로 활용하지 못하고 있다. 그러므로 본 논문에서는 GPGPU 기술을 사용하는 컴퓨팅 시스템의 성능을 보다 향상시킬 수 있는 GPU 연구에 대한 방향을 제시하고자 한다. 이를 위하여, 본 논문에서는 GPU 성능 저하 원인 분석을 수행한다. GPU 성능 저하 원인을 보다 명확하게 분류하고자 본 논문에서는 GPU 코어의 상태를 완전 활성화 상태, 불완전 활성화 상태, 유휴 상태, 메모리스톨 상태, 그리고 GPU 코어 스톨 상태 등 5가지로 정의하였다. 완전 활성화 상태를 제외한 모든 GPU 코어 상태들은 컴퓨팅 시스템의 성능 저하를 유발한다. 본 논문에서 성능 저하 원인을 찾고자 벤치마크 프로그램의 특성에 따라 각 GPU 코어 상태의 비율 변화를 측정하였다. 분석 결과에 따르면, 불완전 활성화 상태, 유휴 상태, 메모리 스톨 상태 그리고 GPU 코어 스톨 상태는 연산 자원 활용률 저하, 낮은 프로그램 병렬성, 높은 메모리 요청, 그리고 구조적 해저드에 의해 각각 유발된다.

DVB-T 수신기를 위한 대규모 병렬처리 GPU 기반의 비터비 복호기 구현 (Implementation of Viterbi Decoder on Massively Parallel GPU for DVB-T Receiver)

  • 이규형;이호경;허서원
    • 전자공학회논문지
    • /
    • 제50권9호
    • /
    • pp.3-11
    • /
    • 2013
  • 최근 GPU의 대규모 병렬 연산 능력을 이용하여 통신 시스템을 구현하려는 연구가 활발히 진행되고 있다. 본 논문에서는 DVB-T에 적용된 비터비 복호기를 슬라이딩 블록 방법과 함께 GPU에 적용시켜 소프트웨어 모의실험 처리시간을 줄였다. 본 논문에서는 먼저 DTV 표준 방식의 일종인 DVB-T 시스템을 CPU로 구현하여 모의실험을 통해 한 개의 OFDM 심볼을 처리하는데 소요되는 시간을 추정한다. 그리고 슬라이딩 블록 방법을 적용한 DVB-T의 비터비 복호기를 NVIDIA사의 대용량 GPU 프로세서를 이용하여 소프트웨어로 구현한다. 본 논문은 GPU 소프트웨어의 최적화를 위해 CPU와 GPU 간의 데이터 전송에 소요되는 오버헤드를 줄이는 스트림 처리 기법, 전역 메모리 전송 시간을 단축하기 위한 결합 전송 기법 (coalescing), 공유 메모리 접근의 효율성을 높이기 위한 변수 설계 기법 등을 통해서 연산처리 속도를 대폭 향상시켰다. 그 결과 제안된 방식은 CPU 기반의 비터비 복호기보다 2K 모드에서 약 11배, 8K 모드에서 약 60배 정도 빠른 처리 능력을 보인다.

바이오 응용을 위한 직접 통로 기반의 GPU 가상화 (Direct Pass-Through based GPU Virtualization for Biologic Applications)

  • 최동훈;조희승;이명호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.113-118
    • /
    • 2013
  • 현재 개발된 GPU 가상화 기술은 모두 미세한 시분할 기법에 의한 스케줄링을 사용하기 때문에 어플리케이션 실행을 위한 오버헤드를 필요 이상으로 유발한다. 또한 이들은 가상 머신 모니터에 GPU 컴퓨팅 API를 포함하고 있어서, 가상 머신 모니터의 이식성이 약하다. 본 논문에서는 이질적 컴퓨팅 시스템에서 바이오 어플리케이션에 최적화된 GPU 가상화 기술을 제안하며, 공개 소스 Xen을 사용하여 개발하였다. 우리가 제안하는 방법은 가상 머신 간의 GPU 공유를 시분할에 의존하지 않는다. 대신에 하나의 가상 머신이 GPU를 할당 받으면 그 가상 머신이 어플리케이션을 종료할 때까지 GPU를 사용하도록 허용한다. 이렇게 하여 바이오 어플리케이션의 성능을 향상시키고 GPU의 활용률을 높인다. GPU 가상화의 이식성을 높이기 위해 하드웨어가 지원하는 IOMMU 가상화를 이용하여 GPU에 대한 직접 접근 통로를 제공한다. 미생물 유전체 분석 어플리케이션을 대상으로 성능을 분석한 결과, 본 연구에서 제안하는 직접 통로 방식에 의한 GPU 가상화는 Domain0를 통한 접근에 비해 오버헤드가 적었다. 또한 직접 접근 방식에 의한 가상 머신의 GPU 접근은, 비가상화된 머신과 거의 성능의 차이가 없었다.

계층적 메모리 구성에 따른 GPU 성능 분석 (Analysis on the GPU Performance according to Hierarchical Memory Organization)

  • 최홍준;김종면;김철홍
    • 한국콘텐츠학회논문지
    • /
    • 제14권3호
    • /
    • pp.22-32
    • /
    • 2014
  • 병렬 연산에 최적화된 하드웨어를 가진 GPU를 그래픽스 작업 이외에 범용 작업에 활용하고자, 최근에 GPGPU 기술이 큰 관심을 받고 있다. GPU와 같은 대용량 병렬처리 장치에서는 메모리 시스템이 성능에 큰 영향을 미치게 된다. GPU에서는 메모리 시스템의 효율성을 향상시키기 위하여, 메모리 대역폭 사용률을 감소시켜주는 계층적 메모리 구조와 메모리를 요청하는 트랜잭션을 줄여주는 메모리 주소 접합과 메모리 요청 합병 등의 기술들을 사용한다. 본 논문에서는 메모리 시스템 효율성 향상을 위해 활용되는 기법들이 GPU 성능에 미치는 영향을 정량적으로 평가하고 분석하기 위해, 다양한 메모리 구조에 대한 실험을 수행한다. 실험 결과에 따르면, 캐쉬를 사용하지 않는 경우에 비해 8KB, 16KB, 32KB, 64KB의 L1 캐쉬를 추가하면 평균적으로 15.5%, 21.5%, 25.5%, 30.9%의 성능이 각각 향상된다. 하지만, 일부 벤치마크 프로그램에서는 데이터 일관성을 유지하기 위하여 메모리 트랜잭션이 증가함에 따라 오히려 성능이 감소하는 결과를 보이기도 한다. 그리고 메모리 요청에 대한 미스가 많이 발생하는 경우에는 캐쉬 레벨이 증가함에 따라 평균 메모리 접근 지연 시간이 증가하기도 한다.

GPU 가속기를 통한 비트 연산 최적화 및 DNN 응용 (Bit Operation Optimization and DNN Application using GPU Acceleration)

  • 김상혁;이재흥
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1314-1320
    • /
    • 2019
  • 본 논문에서는 소프트웨어 환경에서 비트연산을 최적화 하고 DNN으로 응용하는 방법을 제안한다. 이를 위해 비트연산 최적화를 위한 패킹 함수와 DNN으로 응용을 위한 마스킹 행렬 곱 연산을 제안한다. 패킹 함수의 경우는 32bit의 실제 가중치값을 2bit로 변환하는 연산을 수행한다. 연산을 수행할 땐, 임계값 비교 연산을 통해 2bit 값으로 변환한다. 이 연산을 수행하면 4개의 32bit값이 1개의 8bit 메모리에 들어가게 된다. 마스킹 행렬 곱 연산의 경우 패킹된 가중치 값과 일반 입력 값을 곱하기 위한 특수한 연산으로 이루어져 있다. 그리고 각각의 연산은 GPU 가속기를 이용해 병렬로 처리되게 하였다. 그 결과 HandWritten 데이터 셋에 환경에서 32bit DNN 모델에 비해 약 16배의 메모리 절약을 볼 수 있었다. 그럼에도 정확도는 32bit 모델과 비슷한 1% 이내의 차이를 보였다.

볼런티어 컴퓨팅 환경에서 성능간섭 최소화와 연산 효율성 증대를 위한 CPU/GPU 컴퓨팅 자원 최적화 기법 (The Optimization Mechanism of CPU/GPU Computing Resource for Minimization of Performance Interference and Calculation Efficiency in Volunteer Computing Environment)

  • 박봉우;송충건;유헌창
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제6권12호
    • /
    • pp.479-486
    • /
    • 2017
  • 볼런티어 컴퓨팅(Volunteer Computing)은 많은 노드들의 유휴자원을 이용하여 연산을 수행하는 새로운 컴퓨팅 패러다임이다. 볼런티어 컴퓨팅 수행을 위해 운영하는 클라이언트 어플리케이션은 사용자의 설정 정보에 의해 동작 방식이 결정된다. 이상적인 동작을 위해서는 시스템 특징과 다른 어플리케이션의 동작 방식에 최적화된 설정이 요구된다. 본 연구에서는 유휴 자원 정보를 주기적으로 CPU와 GPU의 사용 비율을 분석하고 최적화된 옵션을 정해 동적으로 적용하는 관리자를 개발하였다. 또한 CPU 자원의 높은 활용도를 위해 태스크 스케일링을 진행하고 CPU코어를 주기적으로 재 할당 하여 CPU자원이 균등하게 사용되게 하였다. 제시하는 기법을 통해 기존의 볼런티어 컴퓨팅보다 높은 태스크 연산 능력을 보였으며 성능간섭 또한 최소화 시켰다. 볼런티어 컴퓨팅을 진행하는데 있어 볼런티어들이 더 높은 컴퓨팅 자원을 제공할 수 있게 될 것으로 예상한다.

GPU를 이용한 실시간 BCC 볼륨 등가면 레이 캐스팅 (Real-time BCC Volume Isosurface Ray Casting on the GPU)

  • 김민호;이영준
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제18권4호
    • /
    • pp.25-34
    • /
    • 2012
  • 본 논문에서는 BCC (body-centered cubic) 볼륨 데이터의 등 가면을 GPU(graphics processing unit)에서 실시간으로 레이 캐스팅 렌더링하는 방법을 제시한다. 우선 준-보합 전치필터를 적용한 후 7-방향 박스-스플라인 필터를 기반으로 하여 4차 스플라인 함수로 볼륨데이터를 복구한다. 그래픽스 하드웨어에서 실시간 렌더링을 하기 위해, 참조테이블 및 조건 분기를 사용하지 않고 데이터 인출시의 비용을 줄이도록 쉐이더 코드를 최적화하였다. 본 방법을 기존의 BCC 레이 캐스팅과 비교해 본 결과, 비슷한 성능의 기존 방법에 비해 렌더링 속도는 20% 이상 빨라졌고 렌더링 이미지의 품질은 가장 좋았다.

임베디드 GPU에서의 병렬처리를 이용한 모바일 기기에서의 다중뷰 스테레오 정합 (Multiview Stereo Matching on Mobile Devices Using Parallel Processing on Embedded GPU)

  • 전윤배;박인규
    • 방송공학회논문지
    • /
    • 제24권6호
    • /
    • pp.1064-1071
    • /
    • 2019
  • 다중뷰 스테레오 정합 알고리즘은 시점이 다른 복수의 2차원 영상으로부터 3차원 형상을 복원하기 위해 사용된다. 기존의 다중뷰 스테레오 정합 알고리즘은 단계별로 많은 계산량을 포함하는 복잡한 구조 때문에 고성능 하드웨어에서만 주로 구현되어왔다. 그러나 최근에 모바일 그래픽 프로세서가 발전하면서 충분한 부동소수점 계산 성능이 확보됨에 따라 기존의 PC 환경에서만 수행되었던 복잡한 컴퓨터 비전 알고리즘들이 모바일 GPU에서 구현되고 있다. 본 논문에서는 임베디드 보드의 모바일 GPU에서의 병렬처리를 기반으로 다중뷰 스테레오 알고리즘의 병렬처리를 구현하고 자원이 제한적인 하드웨어에서의 성능 최적화 기법을 제안한다.

유전 알고리즘을 이용한 클라우드 환경의 인공지능 워크로드 스케줄링 (Scheduling of Artificial Intelligence Workloads in Could Environments Using Genetic Algorithms)

  • 권석민;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권3호
    • /
    • pp.63-67
    • /
    • 2024
  • 최근 스마트 물류, 핀테크, 엔터테인먼트 등 다양한 산업 분야의 인공지능 워크로드들이 클라우드 상에서 실행되고 있다. 본 논문은 이기종 GPU 클러스터로 구성된 다중 테넌트 클라우드 시스템에서 다양한 인공지능 워크로드가 실행될 때 발생하는 스케줄링 문제를 다룬다. 전통적인 스케줄링은 이러한 환경에서 GPU 이용률을 크게 저하시켜 시스템의 성능을 떨어뜨린다. 이러한 문제를 해결하기 위해, 본 논문에서는 유전 알고리즘 기반의 최적화 기법을 사용하는 새로운 스케줄링 접근 방식을 제안하고, 이를 프로세스 기반 이벤트 시뮬레이션 프레임워크에 구현하였다. 알리바바의 MLaaS 클러스터에서 수집한 광범위한 인공지능 작업들의 트레이스를 재현하는 실험을 통해 제안하는 스케줄링이 기존 스케줄링에 비해 GPU 이용률을 크게 개선함을 확인하였다.

가상화 환경에서 GPU 성능의 향상을 위한 장치 가상화 프레임워크 (Device Virtualization Frameworks for Accelerating GPU Performance on Virtual Environments)

  • 주영현;이동우;엄영익
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.86-87
    • /
    • 2013
  • 최근 가상화 기술에 대한 많은 관심과 연구들로 인해 가상 머신은 물리(Native) 머신에 가까운 성능을 보이며 프로세서 및 메모리 자원을 제공하고 있다. 하지만 GPU 와 같은 그래픽 하드웨어에 대한 장치 가상화는 다른 가상화 기법에 비해 연구가 미흡한 상태로 가상화 환경에서의 영상처리에 걸림돌이 되고 있다. 가상화 환경에서의 영상처리는 기존의 X 윈도우 시스템을 이용하여 영상을 처리하는데, 이는 2D 영상처리에 최적화 되어 있어서 3D 영상을 처리하는데 성능의 한계 보일 뿐만 아니라 가상 머신에서 메모리가 중복으로 복사되면서 낮은 성능 보여주고 있다. 제안하는 장치 가상화 프레임워크는 기존의 메모리의 중복 복사를 제거하면서 성능을 향상 시킬 수 있다. 본 논문에서는 가상화 환경에서 GPU 성능 향상을 위한 장치 가상화 프레임워크를 제안하고 평가를 통해 본 기법의 타당성을 입증한다.