• 제목/요약/키워드: GPU Parallel Processing

검색결과 226건 처리시간 0.023초

Real-Time Non-Local Means Image Denoising Algorithm Based on Local Binary Descriptor

  • Yu, Hancheng;Li, Aiting
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권2호
    • /
    • pp.825-836
    • /
    • 2016
  • In this paper, a speed-up technique for the non-local means (NLM) image denoising method based on local binary descriptor (LBD) is proposed. In the NLM, most of the computation time is spent on searching for non-local similar patches in the search window. The local binary descriptor which represents the structure of patch as binary strings is employed to speed up the search process in the NLM. The descriptor allows for a fast and accurate preselection of non-local similar patches by bitwise operations. Using this approach, a tradeoff between time-saving and noise removal can be obtained. Simulations exhibit that despite being principally constructed for speed, the proposed algorithm outperforms in terms of denoising quality as well. Furthermore, a parallel implementation on GPU brings NLM-LBD to real-time image denoising.

Heterogeneous Parallel Architecture for Face Detection Enhancement

  • Albssami, Aishah;Sharaf, Sanaa
    • International Journal of Computer Science & Network Security
    • /
    • 제22권2호
    • /
    • pp.193-198
    • /
    • 2022
  • Face Detection is one of the most important aspects of image processing, it considers a time-consuming problem in real-time applications such as surveillance systems, face recognition systems, attendance system and many. At present, commodity hardware is getting more and more heterogeneity in terms of architectures such as GPU and MIC co-processors. Utilizing those co-processors along with the existing traditional CPUs gives the algorithm a better chance to make use of both architectures to achieve faster implementations. This paper presents a hybrid implementation of the face detection based on the local binary pattern (LBP) algorithm that is deployed on both traditional CPU and MIC co-processor to enhance the speed of the LBP algorithm. The experimental results show that the proposed implementation achieved improvement in speed by 3X when compared to a single architecture individually.

3D feature profile simulation for nanoscale semiconductor plasma processing

  • Im, Yeon Ho
    • 한국진공학회:학술대회논문집
    • /
    • 한국진공학회 2015년도 제49회 하계 정기학술대회 초록집
    • /
    • pp.61.1-61.1
    • /
    • 2015
  • Nanoscale semiconductor plasma processing has become one of the most challenging issues due to the limits of physicochemical fabrication routes with its inherent complexity. The mission of future and emerging plasma processing for development of next generation semiconductor processing is to achieve the ideal nanostructures without abnormal profiles and damages, such as 3D NAND cell array with ultra-high aspect ratio, cylinder capacitors, shallow trench isolation, and 3D logic devices. In spite of significant contributions of research frontiers, these processes are still unveiled due to their inherent complexity of physicochemical behaviors, and gaps in academic research prevent their predictable simulation. To overcome these issues, a Korean plasma consortium began in 2009 with the principal aim to develop a realistic and ultrafast 3D topography simulator of semiconductor plasma processing coupled with zero-D bulk plasma models. In this work, aspects of this computational tool are introduced. The simulator was composed of a multiple 3D level-set based moving algorithm, zero-D bulk plasma module including pulsed plasma processing, a 3D ballistic transport module, and a surface reaction module. The main rate coefficients in bulk and surface reaction models were extracted by molecular simulations or fitting experimental data from several diagnostic tools in an inductively coupled fluorocarbon plasma system. Furthermore, it is well known that realistic ballistic transport is a simulation bottleneck due to the brute-force computation required. In this work, effective parallel computing using graphics processing units was applied to improve the computational performance drastically, so that computer-aided design of these processes is possible due to drastically reduced computational time. Finally, it is demonstrated that 3D feature profile simulations coupled with bulk plasma models can lead to better understanding of abnormal behaviors, such as necking, bowing, etch stops and twisting during high aspect ratio contact hole etch.

  • PDF

다중 스케일 텍스처 합성 (Multi-scale Texture Synthesis)

  • 이성호;박한욱;이정;김창헌
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제14권2호
    • /
    • pp.19-25
    • /
    • 2008
  • 이 논문에서는 각기 다른 스케일에서 각각의 구조를 띤 텍스처를 합성하는 기법을 제안한다. 우리의 기법은 GPU로 실시간으로 수행되는 병렬 텍스처 합성 기법에 기반을 두었다. 새로 도입된 좌표 변환 연산자를 이용하면 이미 합성된 좌표 맵을 다른 스케일의 입력 텍스처로의 좌표 공간으로 변환할 수 있다. 이 연산자는 작은 룩업 테이블로 미리 연산될 수 있기 때문에 본 기법을 도입함으로써 생기는 오버헤드는 매우 적다. 우리의 업샘플 기법은 텍스처가 두드러전 이미지의 해상도를 높일 때 특히 유용하다. 그리고, 우리의 기법을 이용하여 저해상도 컨트롤 이미지를 이용한 텍스처 디자인도 가능하다. 이 디자인 툴은 지형을 특정한 스타일로 디자인하는 데에 유용하며 일반적인 높낮이 조절 브러시를 이용할 수 있으므로 직관적이다.

  • PDF

한정된 자원을 갖는 FPGA에서의 이진가중치 신경망 가속처리 구조 설계 및 구현 (Design and Implementation of Accelerator Architecture for Binary Weight Network on FPGA with Limited Resources)

  • 김종현;윤상균
    • 전기전자학회논문지
    • /
    • 제24권1호
    • /
    • pp.225-231
    • /
    • 2020
  • 본 연구에서는 임베디드 시스템에 적용하기 위해 자원이 제한된 조건의 FPGA를 기반으로 BWN 가속처리를 하는 방법을 제시하였다. 사용할 수 있는 로직의 개수가 제한적이기 때문에 다양한 크기의 Conv-layer, FC-layer를 처리할 수 있는 하나의 연산장치를 설계해서 재활용하였다. Input feature map 데이터를 한번에 병렬처리를 할 수 없는 경우 데이터를 여러 번 읽어서 중간결과를계산하고 합산하여 최종 출력을 계산하였다. 사용할 수 있는 BRAM 모듈 개수가 제한적이기 때문에 BWN 가속기내의 데이터 bit수를 최소화한 구조를 사용하였다. 구현한 BWN가속기의 이미지 분류 처리 시간은 소형 시스템과 비교하였을 때 처리시간 측면에서 우수함을 보였고 고성능 시스템과 비교하였을 때는 데스크탑 PC보다는 빠르고 높은 클럭속도의 GPU시스템의 50%정도 느렸다. BWN가속기는 50MHz의 느린 clock을 사용하므로 성능대비 전력측면에서 유리함을 확인할 수 있었다.

CUDA를 이용한 Convolutional Neural Network의 구현 및 속도 비교 (Development and Speed Comparison of Convolutional Neural Network Using CUDA)

  • 기철민;조태훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.335-338
    • /
    • 2017
  • 현재 인공지능과 딥 러닝이 사회적인 이슈로 떠오르고 있는 추세이며, 다양한 분야에 이 기술들을 응용하고 있다. 인공지능 분야의 여러 알고리즘들 중에서 각광받는 방법 중 하나는 Convolutional Neural Network이다. Convolutional Neural Network는 일반적인 Neural Network 방법에 Convolution 연산을 하여 Feature를 추출하는 Convolution Layer를 추가한 형태이다. Convolutional Neural Network를 적은 양의 데이터에서 이용하거나, Layer의 구조가 복잡하지 않은 경우에는 학습시간이 길지 않아 속도에 크게 신경 쓰지 않아도 되지만, 학습 데이터의 크기가 크고, Layer의 구조가 복잡할수록 학습 시간이 상당히 오래 걸린다. 이로 인해 GPU를 이용하여 병렬처리를 하는 방법을 많이 사용하는데, 본 논문에서는 CUDA를 이용한 Convolutional Neural Network를 구현하였으며, CPU를 이용한 방법보다 학습 속도가 빨라지고 큰 데이터를 학습 시키는데 더욱 효율적으로 진행하도록 한다.

  • PDF

Kinect 깊이 카메라를 이용한 실감 원격 영상회의의 시선 맞춤 시스템 (Real-time Eye Contact System Using a Kinect Depth Camera for Realistic Telepresence)

  • 이상범;호요성
    • 한국통신학회논문지
    • /
    • 제37권4C호
    • /
    • pp.277-282
    • /
    • 2012
  • 본 논문에서는 실감 원격 영상회의를 위한 시선 맞춤 시스템을 제안한다. 제안하는 방법은 적외선 구조광을 사용하는 Kinect 깊이 카메라를 이용해서 색상 영상과 깊이 영상을 획득하고, 깊이 영상을 이용해서 사용자를 배경으로부터 분리한다. 깊이 카메라로부터 획득한 가공되지 않은 깊이 영상은 다양한 형태의 잡음을 가지고 있기 때문에, 첫번째 전처리 과정으로 결합형 양방향 필터를 사용해서 잡음을 제거한다. 그 다음, 깊이값의 불연속성에 적응적인 저역 필터를 적용한다. 색상 영상과 전처리 과정을 거친 깊이 영상을 이용해서 우리는 가상시점에서의 화자를 3차원 모델로 복원한다. 전체 시스템은 GPU 기반의 병렬 프로그래밍을 통해 실시간 처리가 가능하도록 했다. 최종적으로, 우리는 시선이 조정된 원격의 화자 영상을 얻을 수 있게 된다. 실험 결과를 통해 제안하는 시스템이 자연스러운 화자간 시선 맞춤을 실시간으로 가능하게 하는 것을 확인했다.

AMG-CG method for numerical analysis of high-rise structures on heterogeneous platforms with GPUs

  • Li, Zuohua;Shan, Qingfei;Ning, Jiafei;Li, Yu;Guo, Kaisheng;Teng, Jun
    • Computers and Concrete
    • /
    • 제29권2호
    • /
    • pp.93-105
    • /
    • 2022
  • The degrees of freedom (DOFs) of high-rise structures increase rapidly due to the need for refined analysis, which poses a challenge toward a computationally efficient method for numerical analysis of high-rise structures using the finite element method (FEM). This paper presented an efficient iterative method, an algebraic multigrid (AMG) with a Jacobi overrelaxation smoother preconditioned conjugate gradient method (AMG-CG) used for solving large-scale structural system equations running on heterogeneous platforms with parallel accelerator graphics processing units (GPUs) enabled. Furthermore, an AMG-CG FEM application framework was established for the numerical analysis of high-rise structures. In the proposed method, the coarsening method, the optimal relaxation coefficient of the JOR smoother, the smoothing times, and the solution method for the coarsest grid of an AMG preconditioner were investigated via several numerical benchmarks of high-rise structures. The accuracy and the efficiency of the proposed FEM application framework were compared using the mature software Abaqus, and there were speedups of up to 18.4x when using an NVIDIA K40C GPU hosted in a workstation. The results demonstrated that the proposed method could improve the computational efficiency of solving structural system equations, and the AMG-CG FEM application framework was inherently suitable for numerical analysis of high-rise structures.

Visualizing sphere-contacting areas on automobile parts for ECE inspection

  • Inui, Masatomo;Umezun, Nobuyuki;Kitamura, Yuuki
    • Journal of Computational Design and Engineering
    • /
    • 제2권1호
    • /
    • pp.55-66
    • /
    • 2015
  • To satisfy safety regulations of Economic Commission for Europe (ECE), the surface regions of automobile parts must have a sufficient degree of roundness if there is any chance that they could contact a sphere of 50.0 mm radius (exterior parts) or 82.5 mm radius (interior parts). In this paper, a new offset-based method is developed to automatically detect the possible sphere-contacting shape of such parts. A polyhedral model that precisely approximates the part shape is given as input, and the offset shape of the model is obtained as the Boolean union of the expanded shapes of all surface triangles. We adopt a triple-dexel representation of the 3D model to enable stable and precise Boolean union computations. To accelerate the dexel operations in these Boolean computations, a new parallel processing method with a pseudo-list structure and axis-aligned bounding box is developed. The possible sphere-contacting shape of the part surface is then extracted from the offset shape as a set of points or a set of polygons.

RGB-Depth 카메라를 이용한 현실-가상 융합 홀로그램 생성 시스템 (Real-Virtual Fusion Hologram Generation System using RGB-Depth Camera)

  • 송중석;박정식;박한훈;박종일
    • 방송공학회논문지
    • /
    • 제19권6호
    • /
    • pp.866-876
    • /
    • 2014
  • 컴퓨터 그래픽스(CG)가 포함된 영상 컨텐츠를 홀로그램으로 만들기 위해서는 가상 객체와 현실 공간의 자연스러운 3차원 정보 융합이 필요하다. 본 논문에서는 RGB-Depth 카메라를 이용하여 현실-가상 공간의 3차원 정보를 자연스럽게 융합하고, 융합된 결과를 다중 GPU 기반의 컴퓨터 생성 홀로그램(CGH) 연산부를 사용하여 디지털 홀로그램을 고속 생성하는 시스템을 제안한다. RGB-Depth 카메라를 이용하여 카메라 투영 행렬을 계산하고, 이를 이용하여 가상 객체의 3차원 정보를 계산한다. 계산된 가상 객체의 깊이 정보와 RGB-Depth 카메라로 입력받은 현실 공간의 깊이 영상을 Z 버퍼에 입력하여 자연스럽게 융합한 후, 그 결과를 다중 GPU 기반의 CGH 연산부로 전송하여 고속으로 디지털 홀로그램을 생성한다. 실험 결과, 제안하는 시스템을 통해 만들어진 가상 객체의 3차원 정보는 현실 공간의 3차원 정보와 약 0.5138%의 평균 상대 오차를 나타내어, 약 99%의 정밀도를 갖고 있는 것을 확인할 수 있었고, 현실-가상 융합 깊이 영상을 생성함과 동시에 다중 GPU를 이용하여 고속으로 디지털 홀로그램을 생성할 수 있음을 확인할 수 있었다.