• 제목/요약/키워드: GPU implementation

검색결과 147건 처리시간 0.029초

4-러시안 알고리즘의 CUDA 구현 (CUDA Implementation for the Four-Russian Algorithm)

  • 김영호;정주희;강대웅;심정섭;김민호;박수준;임명은;정호열
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.261-264
    • /
    • 2012
  • 상수 크기의 알파벳 ${\Sigma}$에 대해 길이가 각각 m, n인 두 문자열 X와 Y의 편집거리는 X를 Y로 변환하기 위해 필요한 최소 편집연산의 수로 정의된다. 두 문자열의 편집거리는 잘 알려진 동적프로그래밍을 이용하여 O(mn) 시간과 공간에 계산할 수 있으며, 4-러시안 알고리즘을 이용해도 계산할 수 있다. 4-러시안 알고리즘은 블록 크기를 상수 t라 할 때, 전처리 단계에서 $O\((3{\mid}{\Sigma}{\mid})^{2t}t^2\)$ 시간과 $O\((3{\mid}{\Sigma}{\mid})^{2t}t^2\)$ 공간이 필요하며, 계산 단계에서 O(mn/t) 시간과 O(mn) 공간을 이용하여 편집거리를 계산하는 알고리즘이다. 본 논문에서는 4-러시안 알고리즘의 계산 단계를 CUDA를 이용하여 구현하고 실험을 통해 CPU 기반의 순차적인 수행시간과 GPU 기반의 병렬적인 수행시간의 비교결과를 제시한다. 본 논문의 병렬알고리즘은 m/t개의 쓰레드를 사용하여 O(m+n) 시간에 편집거리를 계산한다. GPU 기반의 알고리즘이 CPU 기반의 알고리즘 보다 t=1일 때 약 10배 빠르고, t=2일 때 약 3배 빠른 결과를 보였다.

보안 감시를 위한 심층학습 기반 다채널 영상 분석 (Multi-channel Video Analysis Based on Deep Learning for Video Surveillance)

  • 박장식;마르셀 위라네가라;손금영
    • 한국전자통신학회논문지
    • /
    • 제13권6호
    • /
    • pp.1263-1268
    • /
    • 2018
  • 본 논문에서는 영상 보안 감시를 위한 심층학습 객체 검출과 다중 객체 추적을 위한 확률적 데이터연관 필터를 연계한 영상분석 기법을 제안하고, GPU를 이용하여 구현하는 방안을 제시한다. 제안하는 영상분석 기법은 객체 검출과 추적으로 순차적으로 수행한다. 객체 검출을 위한 심층학습은 ResNet을 이용하고, 다중 객체 추적을 위하여 확률적 데이터 연관 필터를 적용한다. 제안하는 영상분석 기법은 임의의 영역으로 불법으로 침입하는 사람을 검출하거나 특정 공간에 출입하는 사람을 계수하는데 응용할 수 있다. 시뮬레이션을 통하여 약 25fps의 속도로 48채널의 영상을 분석할 수 있음을 보이고, RTSP 프로토콜을 통하여 실시간 영상분석이 가능함을 보인다.

실시간 SAR 영상 생성을 위한 Range Doppler 알고리즘의 FPGA 기반 가속화 (FPGA-Based Acceleration of Range Doppler Algorithm for Real-Time Synthetic Aperture Radar Imaging)

  • 정동민;이우경;정윤호
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.634-643
    • /
    • 2021
  • 본 논문에서는 실시간 SAR (synthetic aperture radar) 영상 생성을 위한 RDA (range Doppler algorithm)의 FPGA 기반 가속화 기법을 제안한다. RDA의 연산 과정인 거리 및 방위 압축 연산을 가속하기 위한 시스토릭 어레이 구조 기반 정합 필터와 RCM (range cell migration)을 보상해 주기 위한 고속의 sinc 보간 연산기의 하드웨어 구조를 제시하고, Xilinx Alveo FPGA에 다채널 커널 형태로 구현하여 가속을 진행하였다. 제안된 구조의 하드웨어를 사용하여 4096×4096 크기의 영상 생성시간을 측정한 결과, Nvidia RTX3090 GPU를 사용하여 SAR 영상을 생성하는 시간보다 약 2배 가속이 가능함을 확인하였다. 또한, 제안된 가속 하드웨어는 60,247개의 CLB LUT, 103,728개의 CLB register, 20개의 block RAM tile과 592개의 DPS로 구현 가능하며, 최대 동작속도는 312 MHz임을 확인하였다.

임베디드 그래픽 프로세서를 위한 OpenGL ES 컴파일러 개발 (OpenGL ES Compiler Implementation for Embedded Graphic Processor)

  • 임수준;송준섭;신동군
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.167-169
    • /
    • 2012
  • 오늘날 휴대용 기기에서의 그래픽 처리 요구사항이 증가함에 따라 저전력, 저비용 그래픽 프로세서의 필요성이 대두되고 있다. 이에 따라 크로노스 그룹은 휴대기기를 위한 그래픽 API 표준인 OpenGL ES 2.0을 발표하였다. 본 논문에서는 OpenGL ES 2.0을 상정하여 구성된 그래픽 프로세서를 위한 쉐이더 컴파일러를 개발하고 최적화하는 연구를 수행하였다. 개발된 컴파일러는 OpenGL ESSL로 작성된 쉐이더 프로그램을 정상적으로 컴파일하고 동작시켰으며 타겟 GPU에 적합한 최적화 기법을 적용하여 쉐이더 프로그램의 크기를 최대 10%가량 절감하고 성능을 10~15%가량 향상시켰다.

반도체 공정을 위한 OpenMP와 MPI 기반의 FDTD 시뮬레이션 연산 환경 구축 (Implementation of FDTD simulation using OpenMP and MPI for semiconductor process)

  • 이승일;이철훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2015년도 춘계 종합학술대회 논문집
    • /
    • pp.59-60
    • /
    • 2015
  • 반도체 공정에서는 소자 내부의 물리량 계산을 통해 결점를 검출하는 시뮬레이션을 수행하게 된다. 이를 위해 3차원적 형상을 표현하여 물리적 미분 방정식을 계산하는 유한 차분 시간 영역 알고리즘(Finite-Difference Time-Domain, 이하 FDTD)과 같은 수치해석 기법이 사용된다. 반도체 테스트 범위의 확장으로 인해 시뮬레이션 사이즈 또한 커지고 있는 추세이다. 이에 따라 하나의 프로세서에서 수행할 수 없는 문제가 발생하기도 한다. 이를 해결하기 위해 본 논문에서는 openMP와 MPI를 이용한 하이브리드 컴퓨팅 기법을 바탕으로 다중 GPU 제어를 통해 시뮬레이션 환경을 구축하였으며 정상 동작함을 확인하였다.

  • PDF

Real-Time Non-Local Means Image Denoising Algorithm Based on Local Binary Descriptor

  • Yu, Hancheng;Li, Aiting
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권2호
    • /
    • pp.825-836
    • /
    • 2016
  • In this paper, a speed-up technique for the non-local means (NLM) image denoising method based on local binary descriptor (LBD) is proposed. In the NLM, most of the computation time is spent on searching for non-local similar patches in the search window. The local binary descriptor which represents the structure of patch as binary strings is employed to speed up the search process in the NLM. The descriptor allows for a fast and accurate preselection of non-local similar patches by bitwise operations. Using this approach, a tradeoff between time-saving and noise removal can be obtained. Simulations exhibit that despite being principally constructed for speed, the proposed algorithm outperforms in terms of denoising quality as well. Furthermore, a parallel implementation on GPU brings NLM-LBD to real-time image denoising.

GPGPU를 이용한 H.264/AVC 디코더 (Implementation of IQ/IDCT in H.264/AVC Decoder Using GPGPU)

  • 김동한;이광엽
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.162-164
    • /
    • 2010
  • ITU-T와 ISO가 공동 제정한 동영상 압축 표준 H.264는 기존 동영상 압축 표준에 비해 높은 압축성능과 유연성을 가진다. 본 논문에서는 병렬 처리에 효과적인 GPGPU(General-Purpose computing on Graphics Processing Units)를 이용하여 H.264/AVC 복호화 알고리즘에서 병렬 처리가 가능한 IQ/IDCT (Inverse Quantization/ Inverse Discrete Cosine Transform) 연산을 고속으로 수행하기 위한 효율적인 구조와 방법을 제안한다.

  • PDF

A Simplified Graphics System Based on Direct Rendering Manager System

  • Baek, Nakhoon
    • Journal of information and communication convergence engineering
    • /
    • 제16권2호
    • /
    • pp.125-129
    • /
    • 2018
  • In the field of computer graphics, rendering speed is one of the most important factors. Contemporary rendering is performed using 3D graphics systems with windowing system support. Since typical graphics systems, including OpenGL and the DirectX library, focus on the variety of graphics rendering features, the rendering process itself consists of many complicated operations. In contrast, early computer systems used direct manipulation of computer graphics hardware, and achieved simple and efficient graphics handling operations. We suggest an alternative method of accelerated 2D and 3D graphics output, based on directly accessing modern GPU hardware using the direct rendering manager (DRM) system. On the basis of this DRM support, we exchange the graphics instructions and graphics data directly, and achieve better performance than full 3D graphics systems. We present a prototype system for providing a set of simple 2D and 3D graphics primitives. Experimental results and their screen shots are included.

Zero-skipping을 적용한 MNIST 분류 CNN 구현 (Implementation of MNIST classification CNN with zero-skipping)

  • 한성현;정준모
    • 전기전자학회논문지
    • /
    • 제22권4호
    • /
    • pp.1238-1241
    • /
    • 2018
  • 본 논문에서는 zero-skipping을 적용한 MNIST 분류 CNN을 구현했다. CNN의 activation에서 0이 30~40% 나오고, 0은 MAC 연산에 영향을 끼치지 않기 때문에 0을 branch를 통해 skip하게 되면 성능 향상을 시킬 수 있다. 그러나 컨볼루션 레이어에서는 branch를 통해 skip하게 되면 성능 하락이 발생한다. 그에 따라 컨볼루션 레이어에서는 연산의 영향을 미치지 않는 NOP을 주어 연산을 skip하고 풀리 커넥티드 레이어에서는 branch를 통해 skip했다. 기존의 CNN보다 약 1.5배의 성능 향상을 확인했다.

RISC-V 가상플랫폼 기반 Yolov3-tiny 물체 탐지 딥러닝 모델 구현 (Implementation of Yolov3-tiny Object Detection Deep Learning Model over RISC-V Virtual Platform)

  • 김도영;설희관;임승호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.576-578
    • /
    • 2022
  • 딥러닝 기술의 발전으로 객체 인색, 영상 분석에 관한 성능이 비약적으로 발전하였다. 하지만 고성능 GPU 를 사용하는 컴퓨팅 환경이 아닌 제한적인 엣지 디바이스 환경에서의 영상 처리 및 딥러닝 모델의 적용을 위해서는 엣지 디바이스에서 딥러닝 모델 실행 환경 과 이에 대한 분석이 필요하다. 본 논문에서는 RISC-V ISA 를 구현한 RISC-V 가상 플랫폼에 yolov3-tiny 모델 기반 객체 인식 시스템을 소프트웨어 레벨에서 포팅하여 구현하고, 샘플 이미지에 대한 네트워크 딥러닝 연산 및 객체 인식 알고리즘을 적용하여 그 결과를 도출하여 보았다. 본 적용을 바탕으로 RISC-V 기반 임베디드 엣지 디바이스 플랫폼에서 딥러닝 네트워크 연산과 객체 인식 알고리즘의 수행에 대한 분석과 딥러닝 연산 최적화를 위한 알고리즘 연구에 활용할 수 있다.