• 제목/요약/키워드: 비동기 병렬 알고리즘

검색결과 26건 처리시간 0.023초

MPMD 방식의 동기/비동기 병렬 혼합 멱승법에 의한 거대 고유치 문제의 해법 (A Synchronous/Asynchronous Hybrid Parallel Power Iteration for Large Eigenvalue Problems by the MPMD Methodology)

  • 박필성
    • 정보처리학회논문지A
    • /
    • 제11A권1호
    • /
    • pp.67-74
    • /
    • 2004
  • 대부분의 병렬 알고리즘은 동기 알고리즘으로, 올바른 계산을 위해 작업을 일찍 끝낸 빠른 프로세서들은 동기점에서 느린 프로세서를 기다려야 하는데, 프로세서들의 성능이 다를 경우 연산 속도는 가장 느린 프로세서에 의해 결정된다. 본 논문에서는 거대 고유치 문제의 주요 고유쌍을 구하는 문제에 있어서 빠른 프로세서의 유휴 시간을 줄여 수렴 속도를 가속한 수 있는 동기/비동기 혼합 알고리즘을 고안하고 이를 MPMD 프로그래밍 방식을 사용하여 구현하였다.

A synchronous/asynchronous hybrid parallel method for some eigenvalue problems on distributed systems

  • 박필성
    • 한국전산응용수학회:학술대회논문집
    • /
    • 한국전산응용수학회 2003년도 KSCAM 학술발표회 프로그램 및 초록집
    • /
    • pp.11-11
    • /
    • 2003
  • 오늘날 단일 슈퍼컴퓨터로는 처리가 불가능한 거대한 문제들의 해법이 시도되고 있는데, 이들은 지리적으로 분산된 슈퍼컴퓨터, 데이터베이스, 과학장비 및 디스플레이 장치 등을 초고속 통신망으로 연결한 GRID 환경에서 효과적으로 실행시킬 수 있다. GRID는 1990년대 중반 과학 및 공학용 분산 컴퓨팅의 연구 과정에서 등장한 것으로, 점차 응용분야가 넓어지고 있다. 그러나 GRID 같은 분산 환경은 기존의 단일 병렬 시스템과는 많은 점에서 다르며 이전의 기술들을 그대로 적용하기에는 무리가 있다. 기존 병렬 시스템에서는 주로 동기 알고리즘(synchronous algorithm)이 사용되는데, 직렬 연산과 같은 결과를 얻기 위해 동기화(synchronization)가 필요하며, 부하 균형이 필수적이다. 그러나 부하 균형은 이질 클러스터(heterogeneous cluster)처럼 프로세서들의 성능이 서로 다르거나, 지리적으로 분산된 계산자원을 사용하는 GRID 환경에서는 이기종의 문제뿐 아니라 네트워크를 통한 메시지의 전송 지연 등으로 유휴시간이 길어질 수밖에 없다. 이처럼 동기화의 필요성에 의한 연산의 지연을 해결하는 하나의 방안으로 비동기 반복법(asynchronous iteration)이 나왔으며, 지금도 활발히 연구되고 있다. 이는 알고리즘의 동기점을 가능한 한 제거함으로써 빠른 프로세서의 유휴 시간을 줄이는 것이 목적이다. 즉 비동기 알고리즘에서는, 각 프로세서는 다른 프로세서로부터 갱신된 데이터가 올 때까지 기다리지 않고 계속 다음 작업을 수행해 나간다. 따라서 동시에 갱신된 데이터를 교환한 후 다음 단계로 진행하는 동기 알고리즘에 비해, 미처 갱신되지 않은 데이터를 사용하는 경우가 많으므로 전체적으로는 연산량 대비의 수렴 속도는 느릴 수 있다 그러나 각 프로세서는 거의 유휴 시간이 없이 연산을 수행하므로 wall clock time은 동기 알고리즘보다 적게 걸리며, 때로는 50%까지 빠른 결과도 보고되고 있다 그러나 현재까지의 연구는 모두 어떤 수렴조건을 만족하는 선형 시스템의 해법에 국한되어 있으며 비교적 구현하기 쉬운 공유 메모리 시스템에서의 연구만 보고되어 있다. 본 연구에서는 행렬의 주요 고유쌍을 구하는 데 있어 비동기 반복법의 적용 가능성을 타진하기 위해 우선 이론적으로 단순한 멱승법을 사용하여 실험하였고 그 결과 순수한 비동기 반복법은 수렴하기 어렵다는 결론을 얻었다 그리하여 동기 알고리즘에 비동기적 요소를 추가한 혼합 병렬 알고리즘을 제안하고, MPI(Message Passing Interface)를 사용하여 수원대학교의 Hydra cluster에서 구현하였다. 그 결과 특정 노드의 성능이 다른 것에 비해 현저하게 떨어질 때 전체적인 알고리즘의 수렴 속도가 떨어지는 것을 상당히 완화할 수 있음이 밝혀졌다.

  • PDF

비동기 알고리즘을 이용한 분산 메모리 시스템에서의 초대형 선형 시스템 해법의 성능 향상 (Improving Performance of Large Sparse Linear System Solvers On Distributed Memory Systems By Asynchronous Algorithms)

  • 박필성;신순철
    • 정보처리학회논문지A
    • /
    • 제8A권4호
    • /
    • pp.439-446
    • /
    • 2001
  • 현재 대부분의 병렬 알고리즘은 동기 알고리즘으로 올바른 계산을 위해서는 프로세서들의 동기화와 부하균형이 필수적이다. 만일 부하균형이 불가능하거나 이질적 클러스터처럼 각 프로세서의 성능이 다른 경우, 연산은 가장 느린 프로세서의 성능에 의해 결정된다. 비동기 반복법은 이런 문제를 해결하는 하나의 방안으로 각광받고 있으나, 현재까지의 연구는 비교적 구현이 쉬운 공유 메모리 시스템을 사용한 것이었다. 본 논문에서는 분산 메모리 환경에서 초대형 선형 시스템 문제를 풀기 위해, 빠른 프로세서의 유휴 시간을 최대한 줄임으로써 전체적으로 성능을 향상시키는 비동기 병렬 알고리즘을 제안하고 이를 클러스터에 구현하였다.

  • PDF

선형 시스템의 동기 병렬 연산을 위한 응용 수준의 무정지 연산 시스템 (An Application-Level Fault Tolerant System For Synchronous Parallel Linear System Solver)

  • 박필성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.644-647
    • /
    • 2007
  • 많은 수의 CPU를 사용해 오랜 시간 계산하는 초대형 연산의 경우, 일부 노드나 통신회선의 장애로 연산 실패를 종종 겪는데, 이를 위해 응용 수준의 무정지 연산 시스템의 구현이 중요하다. 본 논문에서는 비동기 알고리즘을 사용한 이전 시스템의 약점을 보완하여, 동기 알고리즘에도 적용가능한 새로운 응용수준의 무정지 연산 시스템을 제안하고 선형시스템의 해법에 적용하였다.

비정렬 격자에 대한 광선 투사를 위한 셀 사이 연결정보 추출 병렬처리 알고리즘 (Parallel Cell-Connectivity Information Extraction Algorithm for Ray-casting on Unstructured Grid Data)

  • 이지훈;김덕수
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제26권1호
    • /
    • pp.17-25
    • /
    • 2020
  • 본 논문은 비정렬 격자에 대한 광선투사 수행의 전처리 과정 중 하나인 셀 사이 연결정보 추출에 대한 멀티코어 CPU 기반 병렬처리 알고리즘을 제안한다. 본 연구는 기존의 직렬처리 알고리즘을 단순히 병렬화하였을 때 발생하는 동기화 문제를 확인하고, 이를 해결할 수 있는 3-단계 병렬처리 알고리즘을 제안한다. 제안하는 알고리즘은 각 단계 내에서의 스레드 간 동기화를 제거함으로서 병렬처리 효율을 높인다. 또한, 연결정보 추출 알고리즘의 핵심 연산인, 삼각형 중복 검사 과정의 메모리 접근에 대한 공간적 지역성을 높이고 캐시 활용 효율을 향상시킨다. 본 연구는 나아가, 스레드 마다 자체 메모리 풀을 사용하게 함으로서 병렬처리 효율을 더욱 높인다. 본 연구의 효용성을 확인하기 위해, 제안하는 알고리즘을 두 개의 옥타코어 CPU를 가지는 시스템에 구현하고 세 개의 비정렬 격자 데이터에 적용하였다. 그 결과, 제안하는 병렬처리 알고리즘은 스레드 수 증가에 따라 지속적으로 성능 향상을 보여주었다. 또한, 32개 스레드(물리코어 16개)를 사용하여 기존 직렬처리 알고리즘 대비 최대 82.9배 높은 성능을 보여주었다. 이는 제안하는 알고리즘의 높은 병렬처리 확장성 및 캐시 활용 효율 개선 효과를 증명하며, 대용량 비정렬 격자 처리에 대한 적합성을 보여주는 결과다.

Cray T3E에서 극한 고유치문제의 효과적인 수행 (Efficient Implementation of an Extreme Eigenvalue Problem on Cray T3E)

  • 김선경
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 추계학술대회 학술발표 논문집
    • /
    • pp.480-483
    • /
    • 2000
  • 공학의 많은 응용분야에서 큰 회소 행렬(Large Sparse Matrices)에 대한 가장 작거나 또는 가장 큰 고유치(Eigenvalues)들을 요구하게 되는데, 이때 많이 이용되는 것은 Krylov Subspace로의 Projection방법이다. 대칭 행렬에 대해서는 Lanczos방법을, 비대칭 행렬에 대해서는 Biorhtogonal Lanczos방법을 이용할 수 있다. 이러한 기존의 알고리즘들은 새롭게 제안되는 병렬처리 시스템에서 효과적이지 못하다. 많은 프로세서를 가지는 병렬처리 컴퓨터 중에서도 분산 기억장치 시스템(Distributed Memory System)에서는 프로세서들 사이의 Data Communication에 필요한 시간을 줄이도록 해야한다. 본 논문에서는 기존의 Lanczos 알고리즘을 수정함으로써, 알고리즘의 동기점(Synchronization Point)을 줄이고 병렬화를 위한 입상(Granularity)을 증가시켜서 MPP인 Cray T3E에서 Data Communication에 필요한 시간을 줄인다. 많은 프로세서를 사용하는 경우 수정된 알고리즘이 기존의 알고리즘에 비해 더 나은 speedup을 보여준다.

  • PDF

분산 메모리 시스템에서의 MPMD 방식의 비동기 반복 알고리즘을 위한 비대칭 전송의 구현 (Implementation Of Asymmetric Communication For Asynchronous Iteration By the MPMD Method On Distributed Memory Systems)

  • 박필성
    • 인터넷정보학회논문지
    • /
    • 제4권5호
    • /
    • pp.51-60
    • /
    • 2003
  • 비동기 반복 알고리즘은 부하 불균형 및 컴퓨터 노드 간의 전송 지연에 의한 병렬 알고리즘의 성능 저하를 완화하는 하나의 방법인데, 이는 노드들 간의 비대칭적 데이터 전송을 필요로 한다 본 논문에서는 분산 메모리 시스템 상에서 MPMD 방식으로 노드당 별도의 서버 프로세스를 추가로 생성하여 비대칭적 전송을 구현하고, 노드당 하나의 프로세스를 생성하는 SPMD 방식과 비교하며 그 장단점에 대해 논의한다.

  • PDF

GPU 병렬처리와 비동기 트리플 버퍼를 적용한 실시간 FD-OCT 시스템 구현 (Implementation of real-time FD-OCT system based on asynchronous triple buffering and parallel processing using GPU)

  • 전준영;김영봉
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.858-860
    • /
    • 2014
  • 최근 영상처리 기법과 하드웨어의 발달로 의학 분야에서는 질병의 진단에 다양한 영상 시스템을 활용하고 있다. 특히 OCT 기술은 인체조직의 고해상도 이미지 획득과 혈류속도 측정을 동시에 할 수 있어 의료분야에 다양하게 적용이 가능하여 많은 관심을 받고 있다. 이에 더욱더 선명한 OCT 영상을 획득하기 위해 다양한 알고리즘과 필터를 사용함에 따라 빠른 프로세스 처리가 요구되고 있는 실정이다. 본 논문에서는 듀얼 코어 이상급의 CPU 를 탑재한 시스템에서 데이터 처리 모듈과 렌더링 모듈을 트리플 버퍼를 통해 비동기식으로 멀티스레드화 하였고, GPU 기반의 병렬처리를 통한 데이터 처리를 하여 속도를 향상시켰다. 이에 광학 카메라 촬영 시 선명한 실시간 OCT 영상을 확인할 수 있었다.

비선형 결합함수에 빠른 병렬 스트림 암호에 관한 연구 (A Study on the Parallel Stream Cipher by Nonlinear Combiners)

  • 이훈재;변우익
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2001년도 춘계학술대회논문집:21세기 신지식정보의 창출
    • /
    • pp.77-83
    • /
    • 2001
  • 최근 암호학계에는 미국의 AES와 더불어 체세대 유럽 암호 표준화 프로젝트 (NESSIE)가 진행 중에 있다. 이 프로젝트의 동기식 스트림 암호 분야에서는 호주의 Simpson이 제안한 LILI-128 암호를 포함하여 6개의 후보가 제안된 상태이며, 상기 알고리즘들은 고속화를 위하여 병렬 형태로 설계 개념을 채택하려하고 있다. 본 논문에서는 스트림 암호의 고속화 설계 방안인 병렬 이동형 PS-LFSR의 구조를 살펴본 다음 여러 가지 형태의 비선형 결합함수에 대한 효율적인 구현 방안을 제안하였다. 즉, 비메모리-비선형 결합함수, 메모리-비선형 결합함수, 비선형 필터함수, 클럭조절형 결합함수 등 4가지 형태의 출력함수 형태에 대한 효율적인 병렬 구현 방안을 제안하였고, 합산 수열 발생기의 병렬구현 기법과 클럭조절형 LILI-128의 병렬구현 기법을 예시하여 안전성과 성능을 분석하였다.

  • PDF

NST알고리즘을 이용한 비동기식 16비트 제산기 설계 (Design of Asynchronous 16-Bit Divider Using NST Algorithm)

  • 이우석;박석재;최호용
    • 대한전자공학회논문지SD
    • /
    • 제40권3호
    • /
    • pp.33-42
    • /
    • 2003
  • 본 논문에서는 NST (new Svoboda-Tung) 알고리즘을 이용한 비동기식 제산기의 효율적 설계에 관해 기술한다. 본 제산기설계에서는 비동기 설계방식을 사용하여 제산연산이 필요할 때에만 동작함으로써 전력소모를 줄이도록 설계한다. 제산기는 비동기식 파이프라인 구조를 이용한 per-scale부, iteration step부, on-the-fly converter부의 세부분으로 구성된다. Per-scale부에서는 새로운 전용 감산기를 이용하여 적은 면적과 고성능을 갖도록 설계한다. Iteration step부에서는 4개의 division step을 갖는 비동기식 링 구조로 설계하고, 아울러 크리티컬 패스(critical path)에 해당하는 부분만을 2선식으로, 나머지 부분은 단선식으로 구성하는 구현방법을 채택하여 하드웨어의 오버헤드를 줄인다. On-the-fly converter부는 iteration step부와 병렬연산이 가능한 on-the-fly 알고리즘을 이용하여 고속연산이 되도록 설계한다. 0.6㎛ CMOS 공정을 이용하여 설계한 결과, 1,480 ×1,200㎛²의 면적에 12,956개의 트랜지스터가 사용되었고, 41.7㎱의 평균지연시간을 가졌다.