• 제목/요약/키워드: General-purpose graphics processing unit

검색결과 48건 처리시간 0.023초

최적화된 CUDA 소프트웨어 제작을 위한 프로그래밍 기법 분석 (Analysis of Programming Techniques for Creating Optimized CUDA Software)

  • 김성수;김동헌;우상규;임인성
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권7호
    • /
    • pp.775-787
    • /
    • 2010
  • GPU(Graphics Processing Unit)는 범용 CPU와는 달리 다수코어 스트리밍 프로세서(manycore streaming processor) 형태로 특화되어 발전되어 왔으며, 최근 뛰어난 병렬 처리 연산 능력으로 인하여 점차 많은 영역에서 CPU의 역할을 대체하고 있다. 이러한 추세에 따라 최근 NVIDIA 사에서는 GPGPU(General Purpose GPU) 아키텍처인 CUDA(Compute Unified Device Architecture)를 발표하여 보다 유연한 GPU 프로그래밍 환경을 제공하고 있다. 일반적으로 CUDA API를 사용한 프로그래밍 작업시 GPU의 계산구조에 관한 여러 가지 요소들에 대한 특성을 정확히 파악해야 효율적인 병렬 소프트웨어를 개발할 수 있다. 본 논문에서는 다양한 실험과 시행착오를 통하여 획득한 CUDA 프로그래밍에 관한 최적화 기법에 대하여 설명하고, 그러한 방법들이 프로그램 수행의 효율에 어떠한 영향을 미치는지 알아본다. 특히 특정 예제 문제에 대하여 효과적인 계층 구조 메모리의 접근과 코어 활성화 비율(occupancy), 지연 감춤(latency hiding) 등과 같이 성능에 영향을 미치는 몇 가지 규칙을 실험을 통해 분석해봄으로써, 향후 CUDA를 기반으로 하는 효과적인 병렬 프로그래밍에 유용하게 활용할 수 있는 구체적인 방안을 제시한다.

OpenCL을 활용한 이기종 파이프라인 컴퓨팅 기반 Spark 프레임워크 (Spark Framework Based on a Heterogenous Pipeline Computing with OpenCL)

  • 김대희;박능수
    • 전기학회논문지
    • /
    • 제67권2호
    • /
    • pp.270-276
    • /
    • 2018
  • Apache Spark is one of the high performance in-memory computing frameworks for big-data processing. Recently, to improve the performance, general-purpose computing on graphics processing unit(GPGPU) is adapted to Apache Spark framework. Previous Spark-GPGPU frameworks focus on overcoming the difficulty of an implementation resulting from the difference between the computation environment of GPGPU and Spark framework. In this paper, we propose a Spark framework based on a heterogenous pipeline computing with OpenCL to further improve the performance. The proposed framework overlaps the Java-to-Native memory copies of CPU with CPU-GPU communications(DMA) and GPU kernel computations to hide the CPU idle time. Also, CPU-GPU communication buffers are implemented with switching dual buffers, which reduce the mapped memory region resulting in decreasing memory mapping overhead. Experimental results showed that the proposed Spark framework based on a heterogenous pipeline computing with OpenCL had up to 2.13 times faster than the previous Spark framework using OpenCL.

Sub-Frame Analysis-based Object Detection for Real-Time Video Surveillance

  • Jang, Bum-Suk;Lee, Sang-Hyun
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제11권4호
    • /
    • pp.76-85
    • /
    • 2019
  • We introduce a vision-based object detection method for real-time video surveillance system in low-end edge computing environments. Recently, the accuracy of object detection has been improved due to the performance of approaches based on deep learning algorithm such as Region Convolutional Neural Network(R-CNN) which has two stage for inferencing. On the other hand, one stage detection algorithms such as single-shot detection (SSD) and you only look once (YOLO) have been developed at the expense of some accuracy and can be used for real-time systems. However, high-performance hardware such as General-Purpose computing on Graphics Processing Unit(GPGPU) is required to still achieve excellent object detection performance and speed. To address hardware requirement that is burdensome to low-end edge computing environments, We propose sub-frame analysis method for the object detection. In specific, We divide a whole image frame into smaller ones then inference them on Convolutional Neural Network (CNN) based image detection network, which is much faster than conventional network designed forfull frame image. We reduced its computationalrequirementsignificantly without losing throughput and object detection accuracy with the proposed method.

범용 그래픽 처리장치 (GPGPU)의 성능에 대한 연구 (A Study of The GPGPU Performance)

  • 이종복
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.201-206
    • /
    • 2018
  • 최근에 이르러 인공지능과 빅데이터 기술이 발달함에 따라, 범용 그래픽 처리장치인 GPGPU에 대한 중요성이 강조되고 있다. 또한, 블럭체인의 응용기술인 비트코인을 얻기 위한 채굴기에 대한 수요가 급증하여 GPGPU의 가격이 급상승하는 등 품귀현상이 일어나고 있다. 만일 범용 그래픽 처리장치를 정밀하게 모의실행할 수 있다면, 고가의 범용 그래픽 처리장치를 구매하지 않고도 다양한 범용 그래픽 처리장치 유형에 대한 실험을 수행하여 그 성능을 분석할 수가 있다. 본 논문에서는 GPGPU-Sim을 이용하여 범용 그래픽 처리장치 모의실험기의 구성을 고찰하고, 다양한 벤치마크 프로그램에 대한 성능을 측정하였다.

An Edge AI Device based Intelligent Transportation System

  • Jeong, Youngwoo;Oh, Hyun Woo;Kim, Soohee;Lee, Seung Eun
    • Journal of information and communication convergence engineering
    • /
    • 제20권3호
    • /
    • pp.166-173
    • /
    • 2022
  • Recently, studies have been conducted on intelligent transportation systems (ITS) that provide safety and convenience to humans. Systems that compose the ITS adopt architectures that applied the cloud computing which consists of a high-performance general-purpose processor or graphics processing unit. However, an architecture that only used the cloud computing requires a high network bandwidth and consumes much power. Therefore, applying edge computing to ITS is essential for solving these problems. In this paper, we propose an edge artificial intelligence (AI) device based ITS. Edge AI which is applicable to various systems in ITS has been applied to license plate recognition. We implemented edge AI on a field-programmable gate array (FPGA). The accuracy of the edge AI for license plate recognition was 0.94. Finally, we synthesized the edge AI logic with Magnachip/Hynix 180nm CMOS technology and the power consumption measured using the Synopsys's design compiler tool was 482.583mW.

CUDA 기반 영상 분할을 사용한 비사실적 렌더링 (Non-Photorealistic Rendering Using CUDA-Based Image Segmentation)

  • 윤현철;박종승
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권11호
    • /
    • pp.529-536
    • /
    • 2015
  • 비사실적 렌더링(NPR; Non-Photorealistic Rendering)은 2차원 영상과 3차원 모델을 대상으로 하는 방법이 다르며 각각의 대상에 NPR을 적용하여 두 콘텐츠를 혼합하면 이질감이 나타나는 문제점이 있다. 본 논문에서는 3차원 객체와 영상에 있어서 각각의 대상에 카툰 및 스케치와 같은 비사실적 효과를 적용하여 조화롭게 혼합하는 기법을 제시한다. 제안 기법은 2차원 영상의 데이터를 분석하여 컬러 분포 특징을 얻고 이를 이용하여 실사 영상이나 3D 객체의 컬러 수를 줄인다. 단순화된 컬러맵과 윤곽선 에지 데이터로부터 비사실적 렌더링을 실시한다. 컬러맵 정보의 추출 및 적용 과정에서 자연스러운 장면 연출을 위해서 영상분할 과정이 필요하다. 그러나 영상분할 기법은 많은 연산을 필요로 한다. 특히 크기가 큰 입력에 대해서는 비사실적 렌더링에 많은 시간이 소요된다. 처리 시간이 많은 영상분할의 고속화를 위하여 GPU(Graphics Processing Unit)를 이용한 병렬 컴퓨팅을 할 수 있는 GPGPU(General-Purpose GPU)를 사용한다. GPGPU의 사용으로 알고리즘의 수행속도를 크게 개선하였다. 또한 영상분할 후 단순화된 컬러를 추출하여 일련의 컬러맵을 생성한 뒤 3D 객체에 NPR을 적용할 때 추출해낸 컬러맵을 적용하여 2차원 영상과 3차원 객채 간의 이질감을 줄이고 조화롭게 하였다.

그래픽 프로세서를 이용한 고차 유한 차분식 기반 수중채널모델 연구 (A Study on the Underwater Channel Model based on a High-Order Finite Difference Method using GPUs)

  • 배호석;김원기;손수욱;하완수
    • 한국시뮬레이션학회논문지
    • /
    • 제30권1호
    • /
    • pp.11-20
    • /
    • 2021
  • 최근 수중 무인 체계가 대두됨에 따라 핵심 기반 기술인 장거리 수중통신기술 및 고속 수중채널모델링 기술이 많은 관심을 받고 있다. 본 논문에서는 고속 수중채널모델링을 수행하기 위한 고속 음파전달모델을 제안하여, 정량적인 성능 분석을 통해 제안 기술의 적용 가능성을 살펴보았다. 수층에서의 파동 전파를 모사하기 위하여 고차 유한 차분 기법을 사용하였으며, 범용 그래픽 프로세서를 이용한 영역 분할 기법을 적용하여 여러 개의 그래픽 프로세서 병렬 처리를 통해 연산 속도를 향상시켰다. 제안한 기법은 반무한 매질에서의 해석해와의 비교 및 파선법에 기반한 VirTEX 모델을 이용한 결과와의 비교를 통해 그 타당성을 검증하였다. 최종적으로 수치예제를 통해 고속 수중채널 모델링 기법의 정량적인 연산 성능을 분석하였다. 개발모델의 연산 성능 향상 정도를 정량적으로 분석한 결과 그래픽 프로세서 수가 증가함에 따라 연산 속도가 선형에 가깝게 빨라지는 것을 확인하였다. 연산 영역의 크기가 2배로 증가할 때와 주파수가 2배로 증가할 때 계산 시간은 각각 2배와 8배로 증가하였다. 본 논문을 통해 제안한 고속 수중채널모델 기술은 해양무인체계의 수중통신기술 개발을 위한 수중통신 채널모델 및 분석 툴로 탑재되어 국방력 강화에 기여할 수 있을 것으로 기대된다.

AB9: A neural processor for inference acceleration

  • Cho, Yong Cheol Peter;Chung, Jaehoon;Yang, Jeongmin;Lyuh, Chun-Gi;Kim, HyunMi;Kim, Chan;Ham, Je-seok;Choi, Minseok;Shin, Kyoungseon;Han, Jinho;Kwon, Youngsu
    • ETRI Journal
    • /
    • 제42권4호
    • /
    • pp.491-504
    • /
    • 2020
  • We present AB9, a neural processor for inference acceleration. AB9 consists of a systolic tensor core (STC) neural network accelerator designed to accelerate artificial intelligence applications by exploiting the data reuse and parallelism characteristics inherent in neural networks while providing fast access to large on-chip memory. Complementing the hardware is an intuitive and user-friendly development environment that includes a simulator and an implementation flow that provides a high degree of programmability with a short development time. Along with a 40-TFLOP STC that includes 32k arithmetic units and over 36 MB of on-chip SRAM, our baseline implementation of AB9 consists of a 1-GHz quad-core setup with other various industry-standard peripheral intellectual properties. The acceleration performance and power efficiency were evaluated using YOLOv2, and the results show that AB9 has superior performance and power efficiency to that of a general-purpose graphics processing unit implementation. AB9 has been taped out in the TSMC 28-nm process with a chip size of 17 × 23 ㎟. Delivery is expected later this year.