• 제목/요약/키워드: paralle processing

검색결과 5건 처리시간 0.018초

다중블록 유동해석에서 병렬처리를 위한 시스템의 구조 (A framework for parallel processing in multiblock flow computations)

  • 박상근;이건우
    • 대한기계학회논문집B
    • /
    • 제21권8호
    • /
    • pp.1024-1033
    • /
    • 1997
  • The past several years have witnessed an ever-increasing acceptance and adoption of parallel processing, both for high performance scientific computing as well as for more general purpose applications. Furthermore with increasing needs to perform the complex flow calculations in an efficient manner, the use of the message passing model on distributed networks has emerged as an important alternative to the expensive supercomputers. This work attempts to provide a generic framework to enable the parallelization of all CFD-related works using the master-slave model. This framework consists of (1) input geometry, (2) domain decomposition, (3) grid generation, (4) flow computations, (5) flow visualization, and (6) output display as the sequential components, but performs computations for (2) to (5) in parallel on the workstation clustering. The flow computations are parallized by having multiple copies of the flow-code to solve a PDE on different spatial regions on different processors, while their flow data are exchanged across the region boundaries, and the solution is time-stepped. The Parallel Virtual Machine (PVM) is used for distributed communication in this work.

멀티코어 시스템에서 쓰레드 수에 따른 병렬 색변환 성능 검증 (A Performance Evaluation of Parallel Color Conversion based on the Thread Number on Multi-core Systems)

  • 김정길
    • 한국위성정보통신학회논문지
    • /
    • 제9권4호
    • /
    • pp.73-76
    • /
    • 2014
  • 멀티 코어 프로세서의 보급 확산으로 최근에는 임베디드 시스템에서도 채택되고 있다. 따라서 일반적으로 대규모의 컴퓨팅과 메모리 접근을 필요로 하는 멀티미디어 응용은 멀티 코어 플랫폼 기반의 병렬화가 가능하다. 본 논문에서는 멀티 코어 CPU을 이용한 효율적 색 공간 변환을 위한 스레드 수준 병렬 기법의 성능 향상을 검증하였다. 스레드 수준 병렬화 특히 멀티 코어 프로세서기반 공유 메모리 컴퓨팅 시스템에서는 매우 유용한 병렬 처리 패러다임이 되고 있다. 본 구현에서 스레드 수준 병렬화는 각 스레드에 다른 입력 픽셀을 할당하여 실행하였다. 성능 평가를 위해 직렬 및 병렬 구현들 사이의 처리 속도의 비교에 기초하여 대표적 멀티 코어 프로세서에서 색 변환을 위한 성능 향상 정도를 평가하였다. 결과는 스레드 수준의 병렬 구현에 관계없이 다른 멀티 코어에서 전반적으로 비슷한 성능 향상의 비율을 보여주었다.

오픈 소스 CFD 코드를 이용한 차세대 고속열차 공력 해석 (Aerodynamic Simulation of Korea next generation high speed train using open source CFD code)

  • 김병윤;길재흥;권혁빈
    • 한국전산유체공학회:학술대회논문집
    • /
    • 한국전산유체공학회 2011년 춘계학술대회논문집
    • /
    • pp.327-330
    • /
    • 2011
  • CFD simulation is widely used in various industries, universities and research centers. In Korea most of the researchers use foreign commercial S/W packages especially in industries. But commercial CFD packages have some problems as limit to source code and very high license foe. So from several years ago open source CFD code has been widely spread as an alternative. But in Korea there are a few users of open source code. Insufficiency of performance validation as for accuracy, robustness, convenience and parallel speed-up is important obstacles of open source code. So we tested some validation cases as to incompressible external aerodynamics and internal flaws and now are doing compressible flaws. As the first stage of compressible flow validation, we simulated Korea next generation high speed train(HEMU). It's running condition is 400km/hr and maximum Mach number reaches up to 0.4. With the high speed train we tested accuracy, robustness and parallel performance of open source CFD code OpenFOAM Because there isn't experimental data we compared results with widely used commercial code. When use $1^{st}$ order upwind scheme aerodynamic forces are very similar to commercial code. But using $2^{nd}$ order upwind scheme there was some discrepancy. The reason of the difference is not clear yet. Mesh manipulation, domain decomposition, post-processing and robustness are satisfactory. Paralle lperformance is similar to commercial code.

  • PDF

2D Mesh SIMD 구조에서의 병렬 행렬 곱셈의 수치적 성능 분석 (An Analytical Evaluation of 2D Mesh-connected SIMD Architecture for Parallel Matrix Multiplication)

  • 김정길
    • 정보통신설비학회논문지
    • /
    • 제10권1호
    • /
    • pp.7-13
    • /
    • 2011
  • Matrix multiplication is a fundamental operation of linear algebra and arises in many areas of science and engineering. This paper introduces an efficient parallel matrix multiplication scheme on N ${\times}$ N mesh-connected SIMD array processor, called multiple hierarchical SIMD architecture (HMSA). The architectural characteristic of HMSA is the hierarchically structured control units which consist of a global control unit, N local control units configured diagonally, and $N^2$ processing elements (PEs) arranged in an N ${\times}$ N array. PEs are communicating through local buses connecting four adjacent neighbor PEs in mesh-torus networks and global buses running across the rows and columns called horizontal buses and vertical buses, respectively. This architecture enables HMSA to have the features of diagonally indexed concurrent broadcast and the accessibility to either rows (row control mode) or columns (column control mode) of 2D array PEs alternately. An algorithmic mapping method is used for performance evaluation by mapping matrix multiplication on the proposed architecture. The asymptotic time complexities of them are evaluated and the result shows that paralle matrix multiplication on HMSA can provide significant performance improvement.

  • PDF

GPU를 이용한 R-tree에서의 범위 질의의 병렬 처리 (Parallel Range Query processing on R-tree with Graphics Processing Units)

  • 유보선;김현덕;최원익;권동섭
    • 한국멀티미디어학회논문지
    • /
    • 제14권5호
    • /
    • pp.669-680
    • /
    • 2011
  • R-tree는 데이터베이스 시스템에서 가장 많이 사용되는 색인 구조로 다차원의 데이터를 관리하는데 매우 효율적이다. 하지만 데이터베이스 시스템이 처리해야 하는 데이터의 용량이 증가함에 따라, 기존의 R-tree에서의 범위 질의의 처리는 디스크의 접근 지연 등의 이유로 인하여 수행 시간이 증가하게 되었다. 이러한 문제들을 해결하기 위하여 버퍼를 사용하거나 혹은 다수의 디스크와 프로세서를 사용하여 병렬로 질의를 수행하고자 하는 많은 연구들이 진행되었다. 이러한 연구들의 일환으로 최근 Graphics Processing Unit(GPU)을 이용한 병렬화 기법들에 대한 연구들이 진행되고 있다. 이러한 GPU의 적용을 통한 병렬화는 계산 속도의 증가와 디스크 접근 횟수의 감소를 통하여 수행 속도의 개선을 가능하게 하지만 GPU와 CPU사이의 메모리 교환 및 GPU 메모리의 접근 지연 등에 의한 오버헤드를 발생시킨다. 본 논문에서는 이러한 오버헤드를 해결하고 효과적으로 GPU를 적용하기 위하여 GPU를 버퍼로 사용하여 범위 질의를 병렬화하는 기법을 제안하였다. 버퍼 알고리즘을 통하여 메모리 교환 횟수를 줄이고, 동시 접근 가능한 메모리의 용량을 증가시켜 메모리의 접근 지연을 최소화 할 수 있었다. 제안 기법과 기존의 인덱스의 비교 실험에서 최대의 경우 5배 정도의 성능이 개선되는 것을 확인 할 수 있었다.