• 제목/요약/키워드: parallel computer processing

검색결과 650건 처리시간 0.027초

효율적인 유체 시뮬레이션을 위한 투영 단계에서의 멀티 코어 프로세서와 그래픽 프로세서의 병렬처리 (Parallel Processing of Multi-Core Processor and GPUs in Projection Step for Efficient Fluid Simulation)

  • 김선태;정휘룡;홍정모
    • 한국콘텐츠학회논문지
    • /
    • 제13권6호
    • /
    • pp.48-54
    • /
    • 2013
  • 최근 영화나 CF등에 사용되는 컴퓨터 그래픽스(Computer Graphics, 이하 CG)분야의 유체 시뮬레이션에서는 CPU와 GPU를 혼합하여 사용하는 기술들이 소개되고 있다. 본 논문에서는 유체 시뮬레이션 수행을 위한 투영 단계에서 멀티쓰레드를 이용하여 기존의 CPU와 GPU 간의 작업을 순차적으로 수행하던 방식을 개선하여 CPU와 GPU 간의 작업을 병렬처리 방법을 제시하였다. 제시된 방법을 통해 많은 계산량을 필요로 하는 유체시뮬레이션의 효율성을 높일 수 있었다.

병렬처리 기반 정지영상 인식자 생성 (Parallel Processing based Image Identifier Generation)

  • 고미은;박제호;박용범;서원택
    • 반도체디스플레이기술학회지
    • /
    • 제16권1호
    • /
    • pp.6-10
    • /
    • 2017
  • Recent enhancement in the still image acquisition devices has been widely perpetrated into the daily life of the common people. Due to this trend, the voluminous still images, that are produced and shared in the personal or the massive storage, need to controlled with effective and efficient management. The human-devised or system-generated still image identifiers used for the identification of the images are at risk in the situation of unexpected changing or eliminating of the identifiers. In this paper, we propose a parallel processing based method for still image identifier generation by utilizing the still image internal features.

  • PDF

EPR : 지리 정보 시스템을 위한 향상된 병렬 R-tree 색인 기법 (EPR : Enhanced Parallel R-tree Indexing Method for Geographic Information System)

  • 이춘근;김정원;김영주;정기동
    • 한국정보처리학회논문지
    • /
    • 제6권9호
    • /
    • pp.2294-2304
    • /
    • 1999
  • 본 논문은 병렬 입출력과 효율적인 디스크 접근을 이용하여 입출력 성능을 높임으로써 지리 정보 시스템의 질의 처리 성능을 향상시키는 것을 목적으로 한다. 동시에 접근할 가능성이 높은 인접한 공간 데이터를 디스크의 논리적 블록 단위로 패킹하여 하나 또는 연속적인 논리적 블록으로 클러스터링 하면 한번의 디스크 접근으로 많은 공간 데이터를 읽을 수 있어 질의 처리에 따른 디스크 접근 횟수와 디스크 접근 오버 헤드를 줄임으로써 입출력 시간을 줄일 수 있다. 본 논문에서는 기존 Parallel R-tree 기법의 병렬 입출력 기법과 패킹 기반 클러스터링 기법을 결합하여 효율적인 입출력을 지원하는 EPR(Enhanced Parallel R-tree) 색인 기법을 제안한다. EPR 기법의 주요 특징은 다음과 같다. 첫째, 공간 데이터를 Hilbert space filling curve를 이용하여 인접도에 따라 정렬하여 패킹함으로써 상향식으로 R-tree를 생성한다. 둘째, 정렬된 공간 데이터를 패킹하여 하나 또는 연속적인 논리적 블록에 저장하는 패킹 기반 클러스터링을 통해 공간 데이터 클러스터를 구성한다. 셋째, 색인 기법 및 공간 데이터 클러스터를 round-robin 스트라이핑 방식을 통해 다중 디스크에 분산 배치한다. EPR 기법과 기존 PR 기법의 성능을 비교한 결과, 공간 질의 처리 속도가 30% 이상 향상되었으며, 특히 논리적 블록의 크기가 클수록, 공간 데이터의 크기가 작을수록 질의 처리 성능이 향상되는 결과를 보였다.

  • PDF

Accelerating the Sweep3D for a Graphic Processor Unit

  • Gong, Chunye;Liu, Jie;Chen, Haitao;Xie, Jing;Gong, Zhenghu
    • Journal of Information Processing Systems
    • /
    • 제7권1호
    • /
    • pp.63-74
    • /
    • 2011
  • As a powerful and flexible processor, the Graphic Processing Unit (GPU) can offer a great faculty in solving many high-performance computing applications. Sweep3D, which simulates a single group time-independent discrete ordinates (Sn) neutron transport deterministically on 3D Cartesian geometry space, represents the key part of a real ASCI application. The wavefront process for parallel computation in Sweep3D limits the concurrent threads on the GPU. In this paper, we present multi-dimensional optimization methods for Sweep3D, which can be efficiently implemented on the finegrained parallel architecture of the GPU. Our results show that the overall performance of Sweep3D on the CPU-GPU hybrid platform can be improved up to 4.38 times as compared to the CPU-based implementation.

루프인터체인지 병렬컴파일러 구현 (A Implementation of Loop Interchange Parallel Compiler)

  • 송월봉
    • 한국컴퓨터산업학회논문지
    • /
    • 제8권3호
    • /
    • pp.167-172
    • /
    • 2007
  • 일반적으로 응용프로그램에서 병렬성 추출에 대한 핵심 부분은 루프이다 따라서 본 논문에서는 Loop Interchange를 자동으로 처리할 수 있는 병렬컴파일러를 구현하고자한다. Loop Interchange는 반복문에서 cedar Fortran의 CDOALL문장을 바깥쪽으로 보냄으로서 특히 더 많은 병렬화 효과를 얻을 수 있기 때문이다. 이는 향후 선형변환과 혼합하여 더욱 효과적인 실행 결과를 기대하고 불완전 중첩루프에 적용하는 방법의 연구에 기여할 것으로 판단된다.

  • PDF

세포 외곽선 추출 알고리즘의 병렬화 (Parallelization of Cell Contour Line Extraction Algorithm)

  • 이호석;유숙현;권희용
    • 한국멀티미디어학회논문지
    • /
    • 제18권10호
    • /
    • pp.1180-1188
    • /
    • 2015
  • In this paper, a parallel cell contour line extraction algorithm using CUDA, which has no inner contour lines, is proposed. The contour of a cell is very important in a cell image analysis. It could be obtained by a conventional serial contour tracing algorithm or parallel morphology operation. However, the cell image has various damages in acquisition or dyeing process. They could be turn into several inner contours, which make a cell image analysis difficult. The proposed algorithm introduces a min-max coordinates table into each CUDA thread block, and removes the inner contour in parallel. It is 4.1 to 7.6 times faster than a conventional serial contour tracing algorithm.

최소 자료 이동을 위한 최적 병렬 정렬 알고리즘 (An Optimal Parallel Sort Algorithm for Minimum Data Movement)

  • 홍성수;심재홍
    • 한국정보처리학회논문지
    • /
    • 제1권3호
    • /
    • pp.290-298
    • /
    • 1994
  • 본 논문은 p(p= $n^{1-x}$, 0〈x〈1)개 프로세서가 존재하는 EREW-PRAM 모델 병 렬 컴퓨터에서 시간 복잡도가 0( $n^{x}$ log n)이며 비용 (최악의 실행시간*프로세서 수)은 0(nlogn)이고, 자료 이동도가 0( $n^{1-}$x+ $n^{x}$ )인 병렬 정렬 알고리즘을 제안한다. 병렬 정렬 알고리즘은 리스트를 p개 특정키를 중심으로 분리한 다음 블럭 의 크기를 거의 일정하게 할 수 있는 엔코딩 기법을 사용했다.다.

  • PDF

An Optimized Iterative Semantic Compression Algorithm And Parallel Processing for Large Scale Data

  • Jin, Ran;Chen, Gang;Tung, Anthony K.H.;Shou, Lidan;Ooi, Beng Chin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권6호
    • /
    • pp.2761-2781
    • /
    • 2018
  • With the continuous growth of data size and the use of compression technology, data reduction has great research value and practical significance. Aiming at the shortcomings of the existing semantic compression algorithm, this paper is based on the analysis of ItCompress algorithm, and designs a method of bidirectional order selection based on interval partitioning, which named An Optimized Iterative Semantic Compression Algorithm (Optimized ItCompress Algorithm). In order to further improve the speed of the algorithm, we propose a parallel optimization iterative semantic compression algorithm using GPU (POICAG) and an optimized iterative semantic compression algorithm using Spark (DOICAS). A lot of valid experiments are carried out on four kinds of datasets, which fully verified the efficiency of the proposed algorithm.

CPU-GPU 메모리 계층을 고려한 고처리율 병렬 KMP 알고리즘 (High Throughput Parallel KMP Algorithm Considering CPU-GPU Memory Hierarchy)

  • 박소은;김대희;이명호;박능수
    • 전기학회논문지
    • /
    • 제67권5호
    • /
    • pp.656-662
    • /
    • 2018
  • Pattern matching algorithm is widely used in many application fields such as bio-informatics, intrusion detection, etc. Among many string matching algorithms, KMP (Knuth-Morris-Pratt) algorithm is commonly used because of its fast execution time when using large texts. However, the processing speed of KMP algorithm is also limited when the text size increases significantly. In this paper, we propose a high throughput parallel KMP algorithm considering CPU-GPU memory hierarchy based on OpenCL in GPGPU (General Purpose computing on Graphic Processing Unit). We focus on the optimization for the allocation of work-times and work-groups, the local memory copy of the pattern data and the failure table, and the overlapping of the data transfer with the string matching operations. The experimental results show that the execution time of the optimized parallel KMP algorithm is about 3.6 times faster than that of the non-optimized parallel KMP algorithm.

바이노미얼 트리를 이용한 이동 에이전트의 빠른 전송 (A Fast Transmission of Mobile Agents Using Binomial Trees)

  • 조수현;김영학
    • 정보처리학회논문지A
    • /
    • 제9A권3호
    • /
    • pp.341-350
    • /
    • 2002
  • 네트워크 환경이 좋아지고 인터넷 사용이 급증함에 따라 이동 에이전트(Mobile Agent) 기술이 정보검색, 네트워크관리, 전자상거래, 병렬/분산처리 분야에 널리 활용되고 있다. 최근에 다수의 연구자들이 이동 에이전트를 기반으로 한 병렬/분산처리 개념을 연구하고 있다. SPMD(Single Program Multiple Data)는 하나의 프로그램이 병렬환경에 참여하는 모든 컴퓨터에 전송되어 다른 자료를 사용하여 작업을 수행하는 병렬처리 방법이다. 따라서 하나의 프로그램을 모든 컴퓨터에 빠르게 전송하는 것은 전체 수행시간을 줄이기 위한 주요한 요소 중의 하나이다. 본 논문에서는 이동 에이전트 시스템으로 구성된 병렬환경에서 SPMD의 병렬처리를 효율적으로 수행하기 위해, 바이노미얼 트리를 이용하여 하나의 이동 에이전트 코드를 모든 컴퓨터에 빠르게 전송하는 새로운 방법을 제안한다. 제안된 방법은 IBM's Aglets에서 실험적 평가를 통하여 다른 방법과 비교되었으며 다른 방법에 비해서 상당히 좋은 성능을 보였다. 또한 본 문에서는 바이노미얼 트리에서 에이전트 전송 중에 발생될 수 있는 결함허용에 관한 문제를 다룬다.