• 제목/요약/키워드: 병렬 연산 처리

검색결과 554건 처리시간 0.025초

저면적 Mixed-radix MDC FFT 프로세서를 위한 효율적인 스케줄링 기법 (Efficient Scheduling Schemes for Low-Area Mixed-radix MDC FFT Processor)

  • 장정근;선우명훈
    • 전자공학회논문지
    • /
    • 제54권7호
    • /
    • pp.29-35
    • /
    • 2017
  • 본 논문에서는 고속 데이터 전송을 위해 orthogonal frequency division multiplexing (OFDM) 시스템에 적용 가능한 고속 fast Fourier transform (FFT) 프로세서를 제안하였다. 제안하는 FFT 프로제서는 높은 처리율을 만족하기 위해 mixed-radix 알고리즘과 8개의 병렬 경로를 가지는 multipath delay commutator (MDC) 파이프라인 구조를 채택하였다. 하드웨어 복잡도를 줄이기 위해서 새로운 스케줄링 기법들을 적용하여 twiddle factor 연산을 위한 read-only memories (ROM)의 크기를 줄이는 구조와 복소 상수 곱셈기의 수를 줄이는 구조를 제안한다. 제안하는 구조는 지연 소자와 연산 사이클의 증가 없이 하드웨어 복잡도를 줄일 수 있다. 또한, IEEE 802.11 ac/ad와 같은 고속 OFDM 시스템을 위해 64/128/256/512-포인트 FFT 연산이 가능하다. 제안하는 FFT 프로세서는 Verilog-HDL로 모델링하여 Samsung 65nm 공정 라이브러리로 합성하여 0.36mm2의 면적과 330MHz의 동작 주파수에서 2.64 GSample/s를 보이고 있다.

Radix-4 Booth Recoding과 RB 연산을 이용한 새로운 복소수 승산 알고리듬 및 10-bit CMAC코어 설계 (A New Complex-Number Multiplication Algorithm using Radix-4 Booth Recoding and RB Arithmetic, and a 10-bit CMAC Core Design)

  • 김호하;신경욱
    • 전자공학회논문지C
    • /
    • 제35C권9호
    • /
    • pp.11-20
    • /
    • 1998
  • 고속 복소수 연산장치는 채널등화, 동기신호 복원, 변조 및 복조 등 디지탈 통신 시스템의 기저대역 신호처리에 필수적인 기능블록이다. 본 논문에서는 redundant binary (RB) 연산과 radix-4 Booth recoding을 결합한 새로운 복소수 승산 알고리듬을 제안한다. 제안되는 복소수 승산 방법은 실수 승산기를 사용하는 기존의 방법과 비교하여 부분곱의 수를 반으로 감소시키며, 단순화된 병렬구조로 구현되므로 고속 동작 및 저전력 소모를 가능하게 한다. 제안된 알고리듬을 적용하여 10-bit operand를 갖는 prototype 복소수 승산-누적기(complex-number multiplier-accumulator ; CMAC) 코어를 0.8-㎛ N-Well CMOS 공정으로 설계, 제작하였다. 제작된 CMAC 칩은 18,000여개의 트랜지스터로 구성되며, 코어부분의 면적은 약 1.60 × 1.93 ㎟이다. 제작된 칩을 테스트 보드에 실장하여 특성을 평가한 결과, 전원전압 V/sub DD/=3.3-V에서 120-MHz의 속도로 동작함을 확인하였으며, 이때의 전력소모는 약 63-mW로 측정되었다.

  • PDF

프로세스 분할 병행에 의한 통합 구조설계 운용 (Integrated Structural Design Operation by Process Decomposition and Parallelization)

  • 황진하;박종회
    • 한국전산구조공학회논문집
    • /
    • 제21권1호
    • /
    • pp.113-124
    • /
    • 2008
  • 본 연구는 제품(구조물)최적화와 프로세스 병렬화가 통시에 실행되는 통합구조설계운용 방법을 제시한다. 관행적 설계방법과 최적화설계방법의 장점들을 선택적으로 수용 보완하는 DB연동 혼성방법을 통해 설계조건을 단계적으로 적용함으로써 대형최적화문제의 계산적 부담 및 이질감을 최소화하였다. PC 네트워크상에서 공학설계를 구성하는 수치연산과 도면작성이 동시공학적 절차로 구현되고, 여기서 설계의 수치연산은 유한요소기반 최적화 방법에 기초하며, 그래픽작업은 AutoLISP 프로그래밍을 통하여 AutoCAD로 표현된다. 수치연산을 병행하는 서버 및 이산최적화를 지원하는 DB서버와 그래픽스테이션 간의 통신은 메시지패싱 방식으로 이루어진다. 표준최적화모델인 트러스구조에 대한 수치실험은 연구의 타당성과 유용성을 보여준다. 공학설계를 구성하는 주된 작업요소를 분산 병행 처리하는 된 연구는 일반적 방법론 및 산업표준환경 등에 기초한다는 점에서 충분한 적용성과 확장성을 갖는다.

CUDA fortran을 이용한 GPU 가속 운동파모형 개발 (Development of GPU-accelerated kinematic wave model using CUDA fortran)

  • 김보람;박선량;김대홍
    • 한국수자원학회논문집
    • /
    • 제52권11호
    • /
    • pp.887-894
    • /
    • 2019
  • 분포형 강우유출모형의 수치모의 연산시간을 단축시키기 위해 GPU(Graphic Processing Unit)를 이용한 가속 운동파모형을 개발하고 정확성과 연산속도에 대한 성능을 검토하였다. 분포형모형의 지배방정식은 운동파모형과 Green-Ampt모형으로 구성되었고, 운동파모형은 유한체적법을 이용하여 이산화 하였다. GPU 가속 운동파모형 개발을 위해 CUDA fortran을 이용하였다. 개발된 모형을 이용하여 이상적인 유역에서 발생하는 강우유출현상을 모의 하였고, 다른 모형 및 실험결과와의 비교를 통하여 개발된 GPU 가속 운동파모형이 비교적 정확하게 유출량을 계산할 수 있음을 확인하였다. 동일한 유한체적법을 이용한 CPU(Central Processing Unit) 기반의 강우유출모형과 비교할 경우, GPU 가속모형의 연산시간 단축비율은 격자의 수가 증가할수록 높아졌으며, 본 연구에 사용된 장비를 기준으로 최대 450배 정도 단축됨을 확인하였다.

유사가능도 기반의 네트워크 추정 모형에 대한 GPU 병렬화 BCDR 알고리즘 (BCDR algorithm for network estimation based on pseudo-likelihood with parallelization using GPU)

  • 김병수;유동현
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권2호
    • /
    • pp.381-394
    • /
    • 2016
  • 그래피컬 모형은 변수들 사이의 조건부 종속성을 노드와 연결선을 통하여 그래프로 나타낸다. 변수들 사이의 복잡한 연관성을 표현하기 위하여 그래피컬 모형은 물리학, 경제학, 생물학을 포함하여 다양한 분야에 적용되고 있다. 조건부 종속성은 공분산 행렬의 역행렬의 비대각 성분이 0인 것과 대응하는 두 변수의 조건부 독립이 동치임에 기반하여 공분산 행렬의 역행렬로부터 추정될 수 있다. 본 논문은 공분산 행렬의 역행렬을 희박하게 추정하는 유사가능도 기반의 CONCORD (convex correlation selection method) 방법에 대하여 기존의 BCD (block coordinate descent) 알고리즘을 랜덤 치환을 활용한 갱신 규칙과 그래픽 처리 장치 (graphics processing unit)의 병렬 연산을 활용하여 고차원 자료에 대하여 보다 효율적인 BCDR (block coordinate descent with random permutation) 알고리즘을 제안하였다. 두 종류의 네트워크 구조를 고려한 모의실험에서 제안하는 알고리즘의 효율성을 수렴까지의 계산 시간을 비교하여 확인하였다.

CUDA를 이용한 효과적인 GPU 광선추적 가속 알고리즘 (An efficient acceleration algorithm of GPU ray tracing using CUDA)

  • 지중현;윤동호;고광희
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.469-474
    • /
    • 2009
  • 본 논문은 CUDA를 이용하여 GPU에서의 최적화된 kd-tree 탐색구조 환경과 광선/삼각형의 교차검사 알고리즘을 통한 실시간의 광선추적 시스템을 제안한다. 기존의 GPU 기반 kd-tree 탐색 알고리즘은 대부분 스택이 없는 GPU 하드웨어의 특성상 임의의 단말노드에서 기하요소의 교차검사가 실패할 경우 상위노드로 상향식 탐색을 진행하기 때문에 노드에 대한 중복 방문이 반드시 필요하거나 혹은 불필요한 메모리의 적재가 필요하기 때문에 큰 장면에 대한 광선추적은 어렵게 된다. 본 논문에서 제안하는 알고리즘은 CPU 방식의 kd-tree 탐색과 비슷하게 동작하도록 stack을 CUDA 프레임워크를 이용하여 GPU의 지역메모리로 구현하였기 때문에 기존의 방법 등에서의 문제점을 해결하였다. 또한 탐색구조를 통해서 찾은 말단 삼각형들의 처리를 위해서 최신의 CPU 기반의 교차검사 알고리즘인 Plucker 좌표계 검사를 CUDA로 구현하여 병렬 가속시켰다. Plucker 검사는 기존의 무게중심 좌표 대신에 광선과 삼각형 edge의 관계를 이용하는 간단한 연산만을 이용하는 장점이 있다. 전체 시스템은 단일 커널로 구성되어 있으며 병렬처리를 위한 복잡한 동기화나 광선패킷의 도입 없이 간단하게 구현되었다. 결과적으로 본 논문의 실험은 기존 알고리즘 대비 제안하는 알고리즘이 약 2배의 성능 향상이 있음을 보여 준다.

  • PDF

계층적 메모리 구성에 따른 GPU 성능 분석 (Analysis on the GPU Performance according to Hierarchical Memory Organization)

  • 최홍준;김종면;김철홍
    • 한국콘텐츠학회논문지
    • /
    • 제14권3호
    • /
    • pp.22-32
    • /
    • 2014
  • 병렬 연산에 최적화된 하드웨어를 가진 GPU를 그래픽스 작업 이외에 범용 작업에 활용하고자, 최근에 GPGPU 기술이 큰 관심을 받고 있다. GPU와 같은 대용량 병렬처리 장치에서는 메모리 시스템이 성능에 큰 영향을 미치게 된다. GPU에서는 메모리 시스템의 효율성을 향상시키기 위하여, 메모리 대역폭 사용률을 감소시켜주는 계층적 메모리 구조와 메모리를 요청하는 트랜잭션을 줄여주는 메모리 주소 접합과 메모리 요청 합병 등의 기술들을 사용한다. 본 논문에서는 메모리 시스템 효율성 향상을 위해 활용되는 기법들이 GPU 성능에 미치는 영향을 정량적으로 평가하고 분석하기 위해, 다양한 메모리 구조에 대한 실험을 수행한다. 실험 결과에 따르면, 캐쉬를 사용하지 않는 경우에 비해 8KB, 16KB, 32KB, 64KB의 L1 캐쉬를 추가하면 평균적으로 15.5%, 21.5%, 25.5%, 30.9%의 성능이 각각 향상된다. 하지만, 일부 벤치마크 프로그램에서는 데이터 일관성을 유지하기 위하여 메모리 트랜잭션이 증가함에 따라 오히려 성능이 감소하는 결과를 보이기도 한다. 그리고 메모리 요청에 대한 미스가 많이 발생하는 경우에는 캐쉬 레벨이 증가함에 따라 평균 메모리 접근 지연 시간이 증가하기도 한다.

HIPSS : SPAX(주전산기 IV) RAID시스템 (HIPSS : A RAID System for SPAX)

  • 이상민;안대영;김중배;김진표;이해동
    • 전자공학회논문지C
    • /
    • 제35C권6호
    • /
    • pp.9-19
    • /
    • 1998
  • 병렬 처리 시스템을 이용한 대용량 온라인 트랜잭션 처리(OLTP: on line transaction processing)와 같이 고 성능, 고 신뢰성을 요구하는 응용 환경에서 RAID 는 입출력 시스템에 필수적으로 요구되는 병렬 디스크 입출력 기술이다. 본 논문은 대용량 OLTP를 주 응용 분야로 설계된 주전산기 IV에 장착될 RAID 시스템인 HIPSS의 구조 및 구현 내용에 대하여 다루고 있다. HIPSS는 고 성능, 고 신뢰성, 외부 인터페이스의 표준화 및 모듈화, 편리한 시스템 관리 등을 설계 목표로 구현된 범용 RAID 시스템으로서, 10개의 독립적인 입출력 채널, 대용량의 데이터 캐쉬, 패리티 연산 하드웨어를 제공하여 시스템 성능 향상을 도모한다. 외부 정합 하드웨어를 쉽게 교체할 수 있게 설계하여 호스트 정합의 재구성이 용이하며, 또한 전원, 제어기의 이중화, 디스크 hot swapping 등의 기능을 제공하여 시스템의 신뢰성을 향상시킨다. HIPSS는 현재 구현이 완료되어 PC와 주전산기 IV를 이용한 기능 시험을 성공적으로 수행하였으며, 성능 개선 요소를 찾기 위한 시험을 수행 중에 있다. 본 논문에서는 HIPSS 시스템의 구조에 대한 자세한 설명과 구현 결과를 중심으로 기술한다.

  • PDF

4-러시안 알고리즘의 CUDA 구현 (CUDA Implementation for the Four-Russian Algorithm)

  • 김영호;정주희;강대웅;심정섭;김민호;박수준;임명은;정호열
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.261-264
    • /
    • 2012
  • 상수 크기의 알파벳 ${\Sigma}$에 대해 길이가 각각 m, n인 두 문자열 X와 Y의 편집거리는 X를 Y로 변환하기 위해 필요한 최소 편집연산의 수로 정의된다. 두 문자열의 편집거리는 잘 알려진 동적프로그래밍을 이용하여 O(mn) 시간과 공간에 계산할 수 있으며, 4-러시안 알고리즘을 이용해도 계산할 수 있다. 4-러시안 알고리즘은 블록 크기를 상수 t라 할 때, 전처리 단계에서 $O\((3{\mid}{\Sigma}{\mid})^{2t}t^2\)$ 시간과 $O\((3{\mid}{\Sigma}{\mid})^{2t}t^2\)$ 공간이 필요하며, 계산 단계에서 O(mn/t) 시간과 O(mn) 공간을 이용하여 편집거리를 계산하는 알고리즘이다. 본 논문에서는 4-러시안 알고리즘의 계산 단계를 CUDA를 이용하여 구현하고 실험을 통해 CPU 기반의 순차적인 수행시간과 GPU 기반의 병렬적인 수행시간의 비교결과를 제시한다. 본 논문의 병렬알고리즘은 m/t개의 쓰레드를 사용하여 O(m+n) 시간에 편집거리를 계산한다. GPU 기반의 알고리즘이 CPU 기반의 알고리즘 보다 t=1일 때 약 10배 빠르고, t=2일 때 약 3배 빠른 결과를 보였다.

유한체 상에서 고속 연산을 위한 직렬 곱셈기의 병렬화 구조 (Parallelized Architecture of Serial Finite Field Multipliers for Fast Computation)

  • 조용석
    • 정보보호학회논문지
    • /
    • 제17권1호
    • /
    • pp.33-39
    • /
    • 2007
  • 유한체 상의 곱셈기는, 오류제어부호, 암호 시스템, 디지털 신호처리 등과 같은 여러 분야에서 기본적인 구성 요소로 사용되고 있다. 그러므로 효율적인 구조를 갖는 유한체 상의 곱셈기를 설계하면 전체적인 시스템의 성능을 대폭 향상시킬 수 있다. 본 논문에서는 기존의 직렬 유한체 곱셈기에 비해 짧은 지연시간을 갖는 새로운 직렬 곱셈기 구조를 제안하였다. 제안한 곱셈기는 유한체의 곱을 표현하는 다항식을 여러 개로 분리한 다음, 이 다항식들을 동시에 처리하는 방식을 사용하여 직렬 곱셈기의 속도를 향상시켰다. 이 곱셈기는 유한체 $GF(2^m)$의 표준기저 상에서 동작하며, 기존의 직렬 곱셈기보다는 짧은 지연시간에 결과를 얻을 수 있고, 병렬 곱셈기보다는 적은 하드웨어로 구현할 수 있다. 제안한 곱셈기는 회로의 복잡도와 지연시간 사이에 적절한 절충을 꾀할 수 있는 장점을 가지고 있다.