• 제목/요약/키워드: GPU algorithm

검색결과 267건 처리시간 0.027초

GPGPU를 이용한 단일 영상에서의 깊이 추정에 관한 연구 (A Study of Depth Estimate using GPGPU in Monocular Image)

  • 유태훈;박영수;이종용;이강성;이상훈
    • 디지털융복합연구
    • /
    • 제11권12호
    • /
    • pp.345-352
    • /
    • 2013
  • 본 논문에서는 GPU(Graphics Processing Unit)에서 데이터를 처리할 수 있게 하여 단일 영상에서 효율적으로 깊이를 추정하는 방법을 제안한다. 단일 영상은 카메라의 투영 과정에 의해 깊이 정보가 소실되게 되며 영상에서 소실된 깊이를 추정하기 위해서 단안 단서를 이용한다. 제안하는 깊이 추정 알고리즘은 좀 더 신뢰성 있는 깊이를 추정하고자 여러 단안 단서를 이용하며 에너지 최소화를 통해 단안 단서들을 결합한다. 그러나 여러 단안 단서들을 고려해야하기 때문에 처리해야 할 데이터가 많은 단점이 존재한다. 따라서 GPGPU(General Purpose Graphics Processing Unit)를 통해 데이터를 병렬적으로 처리하게 하여 효율적으로 깊이를 추정하는 방법을 제안한다. 객관적인 효율성을 검증하기 위해 PSNR(Peak Signal to Noise Ratio)을 통해 실험하였으며 GPGPU을 이용함으로써 알고리즘의 수행시간을 평균 61.22% 감소시켰다.

합성곱 신경망(CNN) 기반 실시간 월파 감지 및 처오름 높이 산정 (Real-time Wave Overtopping Detection and Measuring Wave Run-up Heights Based on Convolutional Neural Networks (CNN))

  • 성보람;조완희;문종윤;이광호
    • 한국항해항만학회지
    • /
    • 제46권3호
    • /
    • pp.243-250
    • /
    • 2022
  • 본 연구에서는 인공지능을 활용한 영상분석 기술을 통해 영상 내의 월파를 실시간으로 감지하고 처오름 높이를 산정하는 기술을 제안하였다. 본 연구에서 제안한 월파 감지 시스템은 실시간으로 악기상 및 야간에도 월파를 감지할 수 있음을 확인하였다. 특히, 합성곱 신경망을 적용하여 실시간으로 CCTV 영상에서 파랑의 처오름을 감지하고 월파 여부를 판단하는 여과 알고리즘을 적용하여 월파의 발생 감지에 대한 정확성을 향상시켰다. AP50을 통해 월파 감지 결과의 정확도는 59.6%로 산정되었으며, 월파 감지 모델의 속도는 GPU 기준 70fps로 실시간 감지에 적합한 정확도와 속도를 보임을 확인하였다.

블리킹을 이용한 대용량 초음파 볼륨 데이터 렌더링 (Large-Scale Ultrasound Volume Rendering using Bricking)

  • 김주환;권구주;신병석
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권7호
    • /
    • pp.117-126
    • /
    • 2008
  • 최근 높은 해상도의 볼륨 데이터를 획득할 수 있게 되면서 제한된 용량의 메모리를 가진 그래픽 하드웨어에서 대용량 볼륨 데이터를 렌더링 하는 방법이 필요하게 되었다. 대용량 볼륨 데이터의 렌더링 방법 중 데이터를 적절히 분할하여 순차적으로 처리하는 블리킹 (bricking) 방법이 많이 사용된다. 그러나 일반적인 블리킹 방법은 직교 좌표계를 사용하는 CT와 MR 데이터를 위해 고안된 것으로, 원환체 (torus) 좌표계를 사용하는 부채꼴 형태의 초음파 볼륨 데이터에 적용하면, 관측광선이 블릭 (brick)의 곡면경계로 진입한 후 다시 빠져 나갈 때 동일한 블릭이 GPU메모리에 두번 적재되는 경우가 발생한다. 본 논문에서는 초음파 볼륨을 랜더링 할 때 반복적인 텍스쳐 스위칭이 발생하지 않도록 블릭의 크기를 결정하는 방법을 제안한다. 블릭의 경계는 곡면으로 되어 있으므로 이들의 곡률을 계산하여, 관측광선이 동일한 블록을 두 번 참조하는 영역을 찾는다. 이 영역에 해당하는 복셀들을 인접한 두 블릭들이 공유하도록 크기를 정하면 둘 중의 한 블릭에서만 재샘플링하게 함으로써 블릭이 중복 적재되는 것을 피할 수 있다.

  • PDF

의료영상 분석을 위한 CUDA 기반의 고속 DRR 생성 기법 (CUDA-based Fast DRR Generation for Analysis of Medical Images)

  • 양상욱;최영;구승범
    • 한국CDE학회논문집
    • /
    • 제16권4호
    • /
    • pp.285-291
    • /
    • 2011
  • A pose estimation process from medical images is calculating locations and orientations of objects obtained from Computed Tomography (CT) volume data utilizing X-ray images from two directions. In this process, digitally reconstructed radiograph (DRR) images of spatially transformed objects are generated and compared to X-ray images repeatedly until reasonable transformation matrices of the objects are found. The DRR generation and image comparison take majority of the total time for this pose estimation. In this paper, a fast DRR generation technique based on GPU parallel computing is introduced. A volume ray-casting algorithm is explained with brief vector operations and a parallelization technique of the algorithm using Compute Unified Device Architecture (CUDA) is discussed. This paper also presents the implementation results and time measurements comparing to those from pure-CPU implementation and open source toolkit.

Real-Time Non-Local Means Image Denoising Algorithm Based on Local Binary Descriptor

  • Yu, Hancheng;Li, Aiting
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권2호
    • /
    • pp.825-836
    • /
    • 2016
  • In this paper, a speed-up technique for the non-local means (NLM) image denoising method based on local binary descriptor (LBD) is proposed. In the NLM, most of the computation time is spent on searching for non-local similar patches in the search window. The local binary descriptor which represents the structure of patch as binary strings is employed to speed up the search process in the NLM. The descriptor allows for a fast and accurate preselection of non-local similar patches by bitwise operations. Using this approach, a tradeoff between time-saving and noise removal can be obtained. Simulations exhibit that despite being principally constructed for speed, the proposed algorithm outperforms in terms of denoising quality as well. Furthermore, a parallel implementation on GPU brings NLM-LBD to real-time image denoising.

순차적 이중 전방 사상의 병렬 처리를 통한 다중 시점 고속 영상 합성 (Fast Multi-View Synthesis Using Duplex Foward Mapping and Parallel Processing)

  • 최지윤;유세운;신홍창;박종일
    • 한국통신학회논문지
    • /
    • 제34권11B호
    • /
    • pp.1303-1310
    • /
    • 2009
  • 3차원 입체 영상을 디스플레이에 출력하려면, 여러 시점에서의 영상 정보가 필요하다. 여러 시점의 영상을 얻을 수 있는 가장 기본적인 방법은, 필요로 하는 시점의 개수와 동일 한 수의 카메라를 사용하는 것이다. 하지만 이를 위해서는 카메라간의 동기화 와 방대한 데이터 처리 및 전송 등의 현실적인 문제가 해결되어야 한다. 이러한 현실적인 문제를 해결하기 위해서 연구되고 있는 방법이 한정된 시점 영상을 이용하여 여러 중간 시점 영상을 생성하는 영상 기반의 임의 시점 합성 방법이다. 본 논문에서는 두 개의 기준 시점 영상과 각각의 깊이 정보가 주어줬음을 가정하고 주어진 정보를 바탕으로 이중의 순차적인 전방 사상을 통하여 목표로 하는 여러 다중 시점의 영상을 동시에 합성하는 방법을 제시한다. 제안된 방법은 좌우 기준 시점 영상의 평행 이동으로 가상 시점 영상을 생성 할 수 있으며, 평행 이동은 시점의 거리에 비례한 행렬간의 관계로 나타난다. 따라서 이중의 순차적인 전방 사상이라 함은 좌우 시점에서 가상 시점 거리에 따른 관계식을 통한 순차적인 양안 시점의 평행 이동을 의미한다. 이 때 전방 사상을 통해 생성되는 가상 시점 영상과 기준 시점 영상간의 기하관계가 시점간 거리에 비례하여 반복적이므로 이를 GPU 프로그래밍을 통해 병렬 처리를 통해 고속화 하는데 초점을 맞추었다.

래스터화 알고리즘을 위한 최적의 매니코어 프로세서 구조 탐색 (Architecture Exploration of Optimal Many-Core Processors for a Vector-based Rasterization Algorithm)

  • 손동구;김철홍;김종면
    • 대한임베디드공학회논문지
    • /
    • 제9권1호
    • /
    • pp.17-24
    • /
    • 2014
  • In this paper, we implement and evaluate the performance of a vector-based rasterization algorithm for 3D graphics by using a SIMD (single instruction multiple data) many-core processor architecture. In addition, we evaluate the impact of a data-per-processing elements (DPE) ratio that is defined as the amount of data directly mapped to each processing element (PE) within many-core in terms of performance, energy efficiency, and area efficiency. For the experiment, we utilize seven different PE configurations by varying the DPE ratio (or the number PEs), which are implemented in the same 130 nm CMOS technology with a 500 MHz clock frequency. Experimental results indicate that the optimal PE configuration is achieved as the DPE ratio is in the range from 16,384 to 256 (or the number of PEs is in the range from 16 and 1,024), which meets the requirements of mobile devices in terms of the optimal performance and efficiency.

Interactive Colision Detection for Deformable Models using Streaming AABBs

  • Zhang, Xinyu;Kim, Young-J.
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 3부
    • /
    • pp.306-317
    • /
    • 2007
  • We present an interactive and accurate collision detection algorithm for deformable, polygonal objects based on the streaming computational model. Our algorithm can detect all possible pairwise primitive-level intersections between two severely deforming models at highly interactive rates. In our streaming computational model, we consider a set of axis aligned bounding boxes (AABBs) that bound each of the given deformable objects as an input stream and perform massively-parallel pairwise, overlapping tests onto the incoming streams. As a result, we are able to prevent performance stalls in the streaming pipeline that can be caused by expensive indexing mechanism required by bounding volume hierarchy-based streaming algorithms. At run-time, as the underlying models deform over time, we employ a novel, streaming algorithm to update the geometric changes in the AABB streams. Moreover, in order to get only the computed result (i.e., collision results between AABBs) without reading back the entire output streams, we propose a streaming en/decoding strategy that can be performed in a hierarchical fashion. After determining overlapped AABBs, we perform a primitive-level (e.g., triangle) intersection checking on a serial computational model such as CPUs. We implemented the entire pipeline of our algorithm using off-the-shelf graphics processors (GPUs), such as nVIDIA GeForce 7800 GTX, for streaming computations, and Intel Dual Core 3.4G processors for serial computations. We benchmarked our algorithm with different models of varying complexities, ranging from 15K up to 50K triangles, under various deformation motions, and the timings were obtained as 30~100 FPS depending on the complexity of models and their relative configurations. Finally, we made comparisons with a well-known GPU-based collision detection algorithm, CULLIDE [4] and observed about three times performance improvement over the earlier approach. We also made comparisons with a SW-based AABB culling algorithm [2] and observed about two times improvement.

  • PDF

GPGPU 기반의 깊이 영상 화질 개선 기법 (GPGPU based Depth Image Enhancement Algorithm)

  • 한재영;고진웅;유지상
    • 한국정보통신학회논문지
    • /
    • 제17권12호
    • /
    • pp.2927-2936
    • /
    • 2013
  • 본 논문에서는 3D 콘텐츠 생성 시 필요한 깊이 영상의 화질 개선을 위하여 잡음 제거 기법과 홀 채움 기법을 제안한다. 제안하는 기법에서는 컬러 영상과 깊이 영상을 모두 이용하게 된다. 먼저 입력된 컬러 영상을 RGB 색상계에서 HSI 색상계로 변환하여 밝기 영상을 생성한다. 그리고 깊이 영상에서 기준 화소와 주변 화소간의 거리 값, 깊이 값의 차이를 구하고 컬러 영상의 밝기 값 차이를 계산하여 제안하는 잡음 제거 기법에 이용한다. 이후 홀을 탐색하여 홀과 주변 화소간의 거리, 컬러 영상의 밝기 값 차이를 제안하는 홀 채움 기법을 적용하여 깊이 영상 내에 존재하는 홀을 채우게 된다. 마지막으로 실시간 환경에 적용하기 위하여 제안하는 기법을 GPU로 병렬화하여 속도 향상을 하고자 하였다. 실험을 통하여 제안한 기법이 기존 기법에서 발생하는 경계 부분의 흐려짐 현상을 줄이면서 홀을 채우는 것을 확인하였다.

이미지 피라미드 기반 다층 높이 맵을 사용한 변위 매핑 기법 (Displacement mapping using an image pyramid based multi-layer height map)

  • 전영재;오경수
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제14권3호
    • /
    • pp.11-17
    • /
    • 2008
  • 많은 수치 정점 정보를 사용하지 않는 대신 기하의 높이 정보를 저장한 높이 맵을 사용하여 복잡한 표면을 표현하는 기법은 많이 연구되어 왔다. 하지만 단층으로 구성된 높이 맵은 표면으로부터의 각 위치 당 한 개의 높이 정보를 저장하고 있으므로 복잡하고 오목한 물체를 표현할 수 없다. 이 논문에서는 다층으로 구성된 높이 맵을 사용하여 단일 높이 정보로는 재구성할 수 없는 복잡한 물체를 정확하게 그리는 방법에 대하여 소개한다. 우리는 그리고자 하는 장면의 높이 값을 텍스처의 각 채널에 높이에 따라 순차적으로 저장한 다층 높이 맵의 높이 정보가 2채널 마다 쌍을 이루며 기하 블록을 구성하는 점에 착안하였다. 안전하고 정확한 광선 탐색은 다증 높이 맵의 1, 3번 째 채널은 높이의 최대값을 2, 4번 째 채널은 높이의 최소값을 사용하여 이미지 피라미드를 구성함으로써 이루어진다. 이런 구조에서의 광선 탐색은 선형 탐색에 기반 한 기존의 방식들이 스침각에서 화질이 현저히 낮아지는 문제를 개선하였으며 실시간에서 표현이 가능하다.

  • PDF