• 제목/요약/키워드: 병렬프로세서

검색결과 579건 처리시간 0.031초

디지털 신호처리 기능을 강화한 32비트 마이크로프로세서 (A 32-bit Microprocessor with enhanced digital signal process functionality)

  • 문상국
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.820-822
    • /
    • 2005
  • 본 논문에서는 16비트 혹은 32비트 고정 소수점 연산을 지원하는 디지털 신호처리 기능을 강화한 명령어 축소형 마이크로프로세서를 설계하였다. 설계한 마이크로프로세서는 명령어 축소형 마이크로 아키텍쳐의 표준에 따라서 범용 마이크로프로세서의 기능과 디지털 신호처리 프로세서의 기능을 함께 갖추고 있다. 산술연산기능 유닛, 디지털 신호처리 유닛, 메모리 제어 유닛으로 구성되어 있으며, 이 연산 유닛들이 병렬적으로 수행되어 디지털 신호처리 명령이나 로드/스토어 명령어의 지연된 시간을 보상할 수 있게 설계되었다. 이 연산유닛들을 병렬적으로 동작하게 함으로써 5단계 파이프라인의 구조로 고성능 마이크로프로세서를 구현하였다.

  • PDF

UWB 초고속 무선통신 시스템을 위한 FFT 프로세서 설계에 관한 연구 (A Study on the Design of FFT Processor for UWB Ultrafast Wireless Communication Systems)

  • 이상일;천영일
    • 한국정보통신학회논문지
    • /
    • 제12권12호
    • /
    • pp.2140-2145
    • /
    • 2008
  • UWB 초고속 무선통신 시스템을 위한 MB-OFDM용 128-포인트 FFT 프로세서를 설계하였다. 128-포인트 FFT 프로세서는 Radix-2 FFT 알고리듬과 R2SDF 파이프라인 구조에 기초하고 있으며, VHDL을 이용하여 구현되었다. 그 결과는 Modelsim을 이용하여 검증되었으며, Xilinx Vertex-II FPGA를 이용하여 합성된 결과 18.7MHz의 동작주파수를 얻을 수 있었다. 제안된 128-포인트 FFT 프로세서는 병렬처리 되는 FFT 프로세서의 한 블록으로 이용될 수 있으며, 이를 이용하여 고속의 병렬처리 FFT 모듈이 구현될 수 있게 된다. 따라서 본 논문은 4개의 128-포인트 FFT 프로세서를 병렬로 연결하여 4배의 동작주파수를 얻을 수 있었으며, 결과적으로 MB-OFDM에서 요구되는 동작주파수 이상의 성능을 얻게 되었다.

GPU를 사용한 병렬 정렬 알고리즘의 설계 조건 (Design Conditions for Parallel Sorting Algorithms using GPU)

  • 이호석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(B)
    • /
    • pp.1-4
    • /
    • 2011
  • 본 논문에서는 병렬 정렬(sorting) 알고리즘들에 대하여 논의한다. 정렬 알고리즘은 컴퓨터 과학에서 매우 중요한 위치를 차지하며 지난 50~60년 동안 많은 연구자들에 의하여 연구되었다. 10년 전에는 GPU(Graphics Processing Unit) 병렬 프로세서가 개발되어 병렬 정렬 알고리즘에 대한 연구도 활발히 진행되고 있다. 병렬 정렬 알고리즘은 대체적으로 bitonic 정렬, radix 정렬, merge 정렬, 혹은 이들 정렬 알고리즘들을 혼합하여 사용한 방법으로 분류된다. 논문에서는 GPU를 사용한 새로운 효율적인 병렬 정렬 알고리즘의 설계 조건을 논의한다.

병렬 프로그램에서의 효율적인 대용량 파일 입출력 방식의 비교 연구 (Research for Efficient Massive File I/O on Parallel Programs)

  • 황규현;김영태
    • 인터넷정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.53-60
    • /
    • 2017
  • 분산 메모리형의 병렬 프로그램에서는 프로세서들이 독립적으로 입출력을 처리하기 때문에 여러 유형의 파일 입출력 방식이 사용된다. 본 논문에서는 분산 메모리형 병렬 프로그램에서의 대용량 파일에 대한 효율적인 입출력 방식을 알아보기 위하여 다양한 방식을 구현하고 비교 분석하였다. 구현된 방식으로는 (i) NFS를 활용한 병렬 입출력 방식, (ii) 호스트 프로세서에서의 순차 입출력과 도메인 분산 방식, 그리고 (iii) 메시지 전송 전용 입출력(MPI-IO) 방식 등이 있다. 성능 분석을 위해서 별도의 파일 서버를 사용하였으며 한 대 및 두 대의 계산 클라이언트에서 다중 프로세서를 사용하였다. 비교 분석 결과, 입력의 경우에는 NFS 병렬 입력 방식이, 출력의 경우에는 도메인 전송을 통한 순차 출력 방식이 가장 효율적으로 나타났으며, 예상과는 다르게 메시지 전송 전용 입출력 방식의 성능이 가장 낮게 나왔다.

다중블록/다중영역분할 기법을 이용한 유동해석 코드 병렬화 (Parallelization of Multi-Block Flow Solver with Multi-Block/Multi-Partitioning Method)

  • 주완돈;이보성;이동호;홍승규
    • 한국항공우주학회지
    • /
    • 제31권7호
    • /
    • pp.9-14
    • /
    • 2003
  • 본 연구에서는 다중블록 격자를 병렬화 하기 위해서 다중블록/다중영역분할 기법을 제안하였다. 이 방법은 각 블록을 사용하고자 하는 프로세서의 개수만큼 나눔으로써 전체 프로세서에 대해서 균일한 로드 밸런싱을 유지할 수 있는 장점이 있다. 영역분할 기법에 따른 병렬화 효율 및 속도 향상률을 비교하기 위해서 다중블록/단일 영역분할 기법과 다중블록/다중 영역분할 기법을 서로 비교 하였으며, 블록간의 격자수가 크게 다른 경우 다중영역 분할 기법이 로드 밸런싱에 있어서 보다 안정적임을 확인 할 수 있었다. 또한 이를 CFDS에 적용함으로써 다중블록 다중영역분할 기법의 효용성을 검증하였다. 3차원 계산의 경우 프로세서 16개를 사용하는 경우 약 12배의 속도 향상률을 보였으며, 다중블록을 병렬화 하는데 있어서 다중블록/다중영역 분할 기법이 효율적인 도구가 될 수 있음을 보였다.

MPI 기반의 병렬 성층${\cdot}$회전 난류 시뮬레이션 (Parallel Stratified and Rotating Turbulence Simulation based on MPI)

  • 김병욱;양성봉
    • 한국정보처리학회논문지
    • /
    • 제7권1호
    • /
    • pp.57-64
    • /
    • 2000
  • 본 논문에서는 MPI 기반이 성층${\cdot}$회전 난류 시뮬레이션을 위한 LES코드의 기법에 대해 연구하며 그 결과를 실험한다. 본 논문에서는 병렬화 기법을 위해서 순차 LES코드에 내재되어 있는 Tridiagonal solver의 제거를 통한 병렬화의 성능 향상과 포아선 방정식의 병렬화를 위한 영역 분할 방법을 소개한다. 또한 본 논문에서 연구되어진 병렬 LES 코드를 슈퍼컴퓨터에서 다양한 영역 분할에 대한 실험을 수행하며 그 결과에 대해 나타낸다. 실험 환경은 CRAY-T3E에서 수행하였으며, 다양한 영역 분할에 대해 프로세서의 개수를 변화시키며 수행속도와 그에 따른 속도의 향상을 측정하였다. 그 결과 단일 프로세서에서 순차 LES를 수행하는 것보다 병렬 LES코드에서 최고 16배에 해당되는 속도의 향상의 결과를 얻을 수 있었다.

  • PDF

이산적 DVFS 멀티코어 프로세서 상에서 실시간 병렬 작업을 위한 확률적 저전력 스케쥴링 (Probabilistic Power-saving Scheduling of a Real-time Parallel Task on Discrete DVFS-enabled Multi-core Processors)

  • 이완연
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.31-39
    • /
    • 2013
  • 본 논문에서는 멀티코어 프로세서에서 단일 실시간 병렬 작업의 데드라인을 만족하면서 전력 소모량의 확률적 기대 값을 최소화하는 스케쥴링 기법을 제안하였다. 제안된 기법에서는 단일 작업을 여러 개의 코어들 상에서 동시에 수행하는 병렬 처리 기법을 적용하였고, 전체 코어들 중에서 일부의 코어들만을 사용하고 나머지 코어들의 전원을 소등하여 전력 소모량을 줄였다. 또한 한정된 개수의 이산적 클락 주파수 값들을 가지는 DVFS 기반 멀티코어 프로세서에 대해서, 확률적 계산량 모델을 가진 실시간 병렬 작업의 데드라인을 만족하면서 전력 소모량의 확률적 기대 값을 최소화함을 수학적으로 증명하였다. 성능평가 실험에서, 제안된 기법이 기존 방법의 전력소모량을 최대 81%까지 감소시킴을 확인하였다.

슈퍼스칼라 프로세서에서의 값 예측의 전력 소모 측정 및 분석 (An Analysis of Power Dissipation of Value Prediction in Superscalar Processors)

  • 이명근;이상정
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.688-690
    • /
    • 2002
  • 고성능 슈퍼스칼라 프로세서에서는 명령어 수준 병렬성(Instruction Level Parallelism, ILP)의 장애인 명령어간의 종속 관계 중 데이터 종속관계를 극복하기 위해 값 예측기를 이용하여 모험적으로 명령어들을 실행한다. 값 예측 시에 필요한 테이블 참조와 값 예측 실패 시 실행되는 잘못된 명령어의 실행은 프로세서의 부가적인 전력 소모를 요구한다. 본 논문에서는 값 예측기와 Cai-Lim의 전력모델을 슈퍼스칼라 프로세서 사이클 수준 시뮬레이터인 SimpleScalar 3.0 툴셋에 삽입하여 전력 소모량을 측정하고 분석한다.

  • PDF

A synchronous/asynchronous hybrid parallel method for some eigenvalue problems on distributed systems

  • 박필성
    • 한국전산응용수학회:학술대회논문집
    • /
    • 한국전산응용수학회 2003년도 KSCAM 학술발표회 프로그램 및 초록집
    • /
    • pp.11-11
    • /
    • 2003
  • 오늘날 단일 슈퍼컴퓨터로는 처리가 불가능한 거대한 문제들의 해법이 시도되고 있는데, 이들은 지리적으로 분산된 슈퍼컴퓨터, 데이터베이스, 과학장비 및 디스플레이 장치 등을 초고속 통신망으로 연결한 GRID 환경에서 효과적으로 실행시킬 수 있다. GRID는 1990년대 중반 과학 및 공학용 분산 컴퓨팅의 연구 과정에서 등장한 것으로, 점차 응용분야가 넓어지고 있다. 그러나 GRID 같은 분산 환경은 기존의 단일 병렬 시스템과는 많은 점에서 다르며 이전의 기술들을 그대로 적용하기에는 무리가 있다. 기존 병렬 시스템에서는 주로 동기 알고리즘(synchronous algorithm)이 사용되는데, 직렬 연산과 같은 결과를 얻기 위해 동기화(synchronization)가 필요하며, 부하 균형이 필수적이다. 그러나 부하 균형은 이질 클러스터(heterogeneous cluster)처럼 프로세서들의 성능이 서로 다르거나, 지리적으로 분산된 계산자원을 사용하는 GRID 환경에서는 이기종의 문제뿐 아니라 네트워크를 통한 메시지의 전송 지연 등으로 유휴시간이 길어질 수밖에 없다. 이처럼 동기화의 필요성에 의한 연산의 지연을 해결하는 하나의 방안으로 비동기 반복법(asynchronous iteration)이 나왔으며, 지금도 활발히 연구되고 있다. 이는 알고리즘의 동기점을 가능한 한 제거함으로써 빠른 프로세서의 유휴 시간을 줄이는 것이 목적이다. 즉 비동기 알고리즘에서는, 각 프로세서는 다른 프로세서로부터 갱신된 데이터가 올 때까지 기다리지 않고 계속 다음 작업을 수행해 나간다. 따라서 동시에 갱신된 데이터를 교환한 후 다음 단계로 진행하는 동기 알고리즘에 비해, 미처 갱신되지 않은 데이터를 사용하는 경우가 많으므로 전체적으로는 연산량 대비의 수렴 속도는 느릴 수 있다 그러나 각 프로세서는 거의 유휴 시간이 없이 연산을 수행하므로 wall clock time은 동기 알고리즘보다 적게 걸리며, 때로는 50%까지 빠른 결과도 보고되고 있다 그러나 현재까지의 연구는 모두 어떤 수렴조건을 만족하는 선형 시스템의 해법에 국한되어 있으며 비교적 구현하기 쉬운 공유 메모리 시스템에서의 연구만 보고되어 있다. 본 연구에서는 행렬의 주요 고유쌍을 구하는 데 있어 비동기 반복법의 적용 가능성을 타진하기 위해 우선 이론적으로 단순한 멱승법을 사용하여 실험하였고 그 결과 순수한 비동기 반복법은 수렴하기 어렵다는 결론을 얻었다 그리하여 동기 알고리즘에 비동기적 요소를 추가한 혼합 병렬 알고리즘을 제안하고, MPI(Message Passing Interface)를 사용하여 수원대학교의 Hydra cluster에서 구현하였다. 그 결과 특정 노드의 성능이 다른 것에 비해 현저하게 떨어질 때 전체적인 알고리즘의 수렴 속도가 떨어지는 것을 상당히 완화할 수 있음이 밝혀졌다.

  • PDF

분기 동시 수행을 이용한 단일 칩 멀티프로세서의 성능 개선 (Performance Improvement of Single Chip Multiprocessor using Concurrent Branch Execution)

  • 이승렬;김준식;최재혁;최상방
    • 대한전자공학회논문지SD
    • /
    • 제44권2호
    • /
    • pp.61-71
    • /
    • 2007
  • 프로세서 성능향상에 일반적으로 이용되어 오던 명령어 수준의 병렬성은 이제 그 한계를 드러내고 있다. 명령어 수준의 병렬성을 이용하는데 장애가 되는 요인 중에 하나는 분기문에 의한 제어 흐름의 변화이다. 단일 칩 멀티프로세서는 쓰레드 수준의 병렬성을 이용하는 프로세서이다. 그러나 다중 쓰레드를 고려하지 않고 작성된 프로그램을 수행하는 경우에는 단일 칩 멀티프로세서의 성능을 최대한 사용할 수 없는 단점이 있다. 이와 같은 두 가지 성능 저하 요인을 극복하기 위해 본 논문에서는 다중 경로 수행 기법을 단일 칩 멀티프로세서에 적용한 분기 동시 수행 기법을 제안한다. 제안된 방법에서는 유휴 중인 프로세서를 이용하여 조건 분기의 두 흐름을 모두 수행하게 한다. 이를 통하여 분기문에 의한 제어 흐름이 끊기는 것을 막고 유휴 시간을 줄여서 프로세서의 효율을 높일 수 있다. 시뮬레이션을 통하여 본 논문에서 제시한 분기 동시 수행의 효과를 분석한 결과 분기 동시 수행으로 약 20%의 유휴 시간이 감소하였고, 분기 예측 성공률은 최대 10% 향상 되었다. 전체적으로 일반적인 단일 칩 멀티프로세서에 비해 최대 39%의 성능 향상을 이루었고, 슈퍼스칼라 프로세서에 비해 최대 27%의 성능 향상을 이루었다.