• 제목/요약/키워드: 병렬 프로세싱

검색결과 59건 처리시간 0.025초

모바일 초음파 영상신호의 빔포밍 기법을 위한 최적의 매니코어 프로세서 구현 (Implementation of an Optimal Many-core Processor for Beamforming Algorithm of Mobile Ultrasound Image Signals)

  • 최병국;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권8호
    • /
    • pp.119-128
    • /
    • 2011
  • 본 논문에서는 모바일 초음파(mobile ultrasound) 영상신호의 빔포밍 알고리즘에서 요구되는 고성능 및 저전력을 만족시키는 매니코어 프로세서에 대한 디자인 공간 탐색 방법을 소개한다. 매니코어 프로세서의 디자인 공간 탐색을 위해 매니코어의 각 프로세싱 엘리먼트(Processing Element, PE)당 초음파 영상신호 데이터의 수를 변화시키는 실험을 통해 실행시간, 에너지 효율 및 시스템 면적 효율을 측정하고, 측정된 결과를 바탕으로 최적의 매니코어 프로세서 구조를 선택하였다. 모의실험 결과, PE 개수가 4096일 때 에너지 효율이 가장 높았으며, PE 개수가 1024일 때 가장 높은 시스템 면적 효율을 보였다. 또한, PE 개수가 4096인 매니코어 아키텍처는 초음파 영상장치에 가장 많이 사용되는 TI DSP C6416보다 각각 에너지 효율에서 46배, 시스템 면적 효율에서 10배의 향상을 보였다.

OFDM 통신시스템을 위한 radix-22 MDF IFFT의 메모리 감소 기법 (Memory Reduction Method of Radix-22 MDF IFFT for OFDM Communication Systems)

  • 조경주
    • 한국정보전자통신기술학회논문지
    • /
    • 제13권1호
    • /
    • pp.42-47
    • /
    • 2020
  • OFDM 기반 초고속 통신시스템을 위한 IFFT/FFT 프로세서는 저면적 저전력이면서 데이터 처리량이 높고 프로세싱 지연이 적어야 한다. 따라서, 파이프라인과 병렬처리를 적용한 radix-2k 알고리즘 기반 MDF(multipath delay feedback) 구조가 적합하다. 기존의 MDF 구조에서 입력신호의 워드길이에 비례하여 커지는 피드백 메모리는 면적과 전력소모가 크다. 본 논문에서는 OFDM 응용을 위한 radix-22 MDF IFFT 프로세서의 피드백 메모리 크기 감소 방법을 제안한다. MDF 구조에서 첫 두 스테이지의 피드백 메모리의 크기는 전체 피드백 메모리의 75%를 차지하므로 첫 두 스테이지의 피드백 메모리 크기 감소에 초점을 맞춘다. OFDM 전송에서 IFFT 입력신호는 변조데이터와 파일럿과 널 신호로 구성된다는 특징을 이용하여 변조데이터와 파일럿/널 신호를 각각 부호있는 정수로 매핑하여 입력신호의 워드길이를 감소시키는 방법을 제안한다. 시뮬레이션을 통해 제안한 방법이 기존 방법보다 피드백 메모리의 크기를 약 39%까지 감소시킬 수 있음을 보인다.

네트워크 기반 클러스터 시스템을 위한 적응형 동적 부하균등 방법 (Adaptive Dynamic Load Balancing Strategies for Network-based Cluster Systems)

  • 정훈진;정진하;최상방
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제28권11호
    • /
    • pp.549-560
    • /
    • 2001
  • 클러스터 시스템을 계산능력과 메모리 크기에 있어서 바람직한 확장성을 제공한다. 또한 고속의 컴퓨터 네트워크 기술의 발달로 인해 클러스터 시스템은 값비싼 MPPs (Massively Parallel Processors)와 비교하여 경쟁력을 얻고 있다. 부적당한 작업 스케줄링은 시스템의 기능을 충분히 이용할수 없고, 병렬처리 프로그램에서 프로그램 실행 전에 각 태스크의 부하를 예측하기 어려우며, 태스크들은 다양한 형태로 서로 의존적이다. 동적 부하균등 알고리즘에서는 실행시간에 각 프로세서의 부하를 평가한 후, 각 태스크를 적절한 크기로 분할하고 그것들을 각 프로세서의 수행능력에 비례하여 클러스터 시스템에 할당한다. 그러나, 프로세싱 노드간의 통신비용이 높으면, 모든 노드들이 부하분산에 참여하는 것은 효율적이지 못하다. 본 논문에서는 부하분산에 참여하는 프로세서를 통신비용과 평균 부하로부터의 편차를 고려하여 제한하였다. 기존의 부하균등 방식과 제안된 동적 알고리즘을 비교하기 위하여, 통신비용, 노드 수, 그리고 부하의 범위와 같은 파라메터를 사용하여 다양한 모델의 클러스터 시스템에 관한 시뮬레이션을 수행하였다.

  • PDF

Resolving Memory Bottlenecks in Hardware Accelerators with Data Prefetch

  • Hyein Lee;Jinoo Joung
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권6호
    • /
    • pp.1-12
    • /
    • 2024
  • 최근 다양한 분야에서 딥러닝이 사용되면서, 더 빠르고 정확한 결과를 내는 딥러닝이 더욱 중요해졌다. 이를 위해서는 많은 양의 저장 공간이 필요하고, 대용량 연산을 진행해야 한다. 이에 따라 여러 연구는 빠르고 정확하게 연산 처리가 가능한 하드웨어 가속기를 이용한다. 하지만 하드웨어 가속기는 CPU와 하드웨어 사이를 이동하면서 병목현상이 발생하게 된다. 따라서 본 논문에서는 하드웨어 가속기의 병목현상을 효율적으로 줄일 수 있는 데이터 프리패치 전략을 제안한다. 데이터 프리패치 전략의 핵심 아이디어는 Matrix Multiplication Unit(MMU)가 연산을 진행하는 동안 다음 연산에 필요한 데이터를 예측하여 로컬 메모리로 올려 병목현상을 줄인다. 또한, 이 전략은 듀얼 버퍼를 이용하여 읽고 쓰는 두 가지 동작을 동시에 진행하여 처리율을 높인다. 이를 통해 데이터 전송의 지연시간 및 실행 시간을 감소시킨다. 시뮬레이션을 통해 듀얼 버퍼를 이용한 병렬 프로세싱과 데이터 프리패치를 이용한 메모리 간 병목현상을 최대한 감소시켜 하드웨어 가속기의 성능이 24% 향상함을 알 수 있다.

모바일 초음파 영상신호의 빔포밍 알고리즘을 위한 멀티코어 프로세서 구현 (Implementation of Multi-Core Processor for Beamforming Algorithm of Mobile Ultrasound Image Signals)

  • 최병국;김종면
    • 정보처리학회논문지A
    • /
    • 제18A권2호
    • /
    • pp.45-52
    • /
    • 2011
  • 과거에는 환자가 초음파 영상진단장치가 설치되어 있는 방에 가서 진단을 받았지만, 현재는 의사가 초음파 영상 진단장치를 가지고 이동하면서 환자를 진단(모바일 초음파, handheld ultrasound)할 수 있는 시대가 왔다. 그러나 초음파 영상진단장치로서의 기본적인 기능만을 구현하였으며, 초음파 영상의 질을 결정하는 초음파 빔의 포커싱 알고리즘에서 요구되는 고성능을 만족하지 못하는 실정이다. 또한 모바일 기기의 경우 저전력의 요구조건도 만족하여야 한다. 이를 위해 본 논문에서는 모바일 초음파 영상신호의 포커싱을 위한 방법 중 대표적인 빔포밍 알고리즘(Beamforming Algorithm)을 고성능, 저전력으로 처리 가능한 단일 명령어 다중 데이터(Single Instruction Multiple Data, SIMD)기반의 멀티코어 프로세서를 제안한다. 제안한 SIMD기반 멀티코어 프로세서는 16개의 프로세싱 엘리먼트(Processing Element, PE)로 구성되어 있으며, 초음파의 에코 영상데이터에 내재한 무수한 데이터 레벨 병렬성을 활용하여 빔포밍 알고리즘에서 요구되는 고성능을 만족시킨다. 모의실험 결과, 제안한 멀티코어 프로세서는 현재 상용 고성능 프로세서인 TI DSP C6416보다 평균 15.8배의 성능, 6.9배의 에너지 효율 및 10배의 시스템 면적 효율을 보였다.

휴대용 초음파 영상처리를 위한 멀티미디어 확장 명령어 및 최적의 매니코어 프로세서 구조 탐색 (Multimedia Extension Instructions and Optimal Many-core Processor Architecture Exploration for Portable Ultrasonic Image Processing)

  • 강성모;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권8호
    • /
    • pp.1-10
    • /
    • 2012
  • 본 논문에서는 휴대용 초음파 영상의 고성능 및 저전력 처리를 위해 멀티미디어 전용 명령어를 내장한 매니코어의 디자인 공간 탐색 방법론을 제안한다. 이를 위해서 멀티미디어 확장 명령어로 인한 서브워드 병렬처리 방식을 적용한 프로그램과 적용하지 않은 프로그램의 성능을 비교하여 에너지 효율 및 면적효율을 측정하였다. 모의실험 결과, MMX 형태 명령어를 사용한 프로그램은 베이스라인 프로그램 보다 $256{\times}256$ 해상도에서 실행시간은 평균 3.16배, 에너지 효율은 평균 8.13배, 면적 효율은 평균 3.16배의 향상을 보였다. $240{\times}320$ 해상도와 $240{\times}400$ 해상도에서는 각각 실행시간 평균 2.16배, 2.25배, 에너지 효율은 4.04배 4.34배, 면적 효율은 2.16배, 2.25배 향상되었다. 더불어 이러한 MMX 형태 명령어를 포함한 매니코어의 프로세싱 엘리먼트 (Processing Element: PE) 개수 및 메모리 사이즈를 변화시키면서 각 초음파 영상의 해상도별로 최적의 시스템 면적 및 에너지 효율을 보이는 PE 구조를 탐색하였다.

LASPI: 지원점 보간법을 이용한 H/W 구현에 용이한 스테레오 매칭 방법 (LASPI: Hardware friendly LArge-scale stereo matching using Support Point Interpolation)

  • 박상현;기미레 디팍;김정국;한영기
    • 정보과학회 논문지
    • /
    • 제44권9호
    • /
    • pp.932-945
    • /
    • 2017
  • 논문에서는 정류(Rectification), 디스패리티 추정(Disparity Estimation) 및 시각화를 포함한 스테레오 비전 프로세싱 시스템의 새로운 하드웨어 및 소프트웨어 아키텍처를 개발하였다. 개발된 지원점 보간법을 이용한 대형 스테레오 매칭 방법(LASPI)은 고화질 이미지의 지원점 밀도가 높은 영역에서의 디스패리티 매칭에 있어, ELAS 등 기존 스테레오 매칭 방법과 비교할 때, 디스패리티 맵에 대한 품질 수준을 유지하면서도 실시간 성능 지원 측면에서 우수하다. LASPI는 자율주행 자동차에 적용되는 장애물 인식 시스템, 거리 검출 시스템, 장애물 검출 시스템 등, 안전에 민감한 모듈 적용을 위해, 프레임 처리속도의 실시간성, 거리 값 분해 성능의 정확성, 낮은 리소스 사용 등, 요구조건을 충족하도록 설계 되었다. 개발된 LASPI 알고리즘은 H/W 병렬처리 구조와 4 단계 파이프라인으로 구성된 FPGA로 구현되었다. 148.5MHz 클럭의 Xilinx Virtex-7 FPGA 기반으로 구현된 시스템은 각종 실험을 통해, HD급 이미지 ($1280{\times}720$ 픽셀)에 대해 실차에 응용 가능한 디스패리티 맵을 산출하면서도 실시간 처리 요구 조건인 초당 30 프레임 처리가 가능함을 확인하였다.

다중 카메라 기반 대영역 고해상도 영상획득 시스템과 실시간 영상 정합 알고리즘 (Multiple Camera Based Imaging System with Wide-view and High Resolution and Real-time Image Registration Algorithm)

  • 이승현;김민영
    • 전자공학회논문지SC
    • /
    • 제49권4호
    • /
    • pp.10-16
    • /
    • 2012
  • 영상 기반 반도체 검사 장비의 검사 고속화와 검사 정확도를 위해, 넓은 FOV와 고해상도를 동시에 가지는 2차원 영상을 획득하는 것은 검사 장비에 필수적이다. 본 논문에서는 정밀도와 FOV 측면에서 양질의 영상 획득을 위한 새로운 영상획득 시스템을 제안하였다. 제안시스템은 하나의 렌즈와 광분할기, 두 개의 카메라 센서, 스테레오 영상획득 보드로 구성되며, 하나의 렌즈를 통해 입력되는 영상을 두 개의 카메라 센서를 통해 동시에 영상 획득한다. 획득된 영상의 정합을 위해, 첫 번째로 Zhang의 카메라 교정 방법을 적용시켜 각각의 카메라를 교정한다. 두 번째로 다른 카메라에서 획득한 두 영상들 사이의 수학적인 정합 함수를 찾기 위해 각 영상의 호모그래피(homography)를 이용하여, 양측 카메라간의 정합 행렬을 계산한다. 영상 호모그래피를 통해서, 획득된 두 영상은 하나의 최종 검사 영상으로의 통합을 위해 최종적으로 정합될 수 있다. 다중 카메라로부터 입력되는 다중 영상들을 활용하는 제안 검사 시스템은 실시간 영상 정합을 위해 매우 빠른 프로세스 유닛의 도움이 필요하다. 이를 위해 CUDA (Compute Unified Device Architecture)기반 병렬 프로세싱 하드웨어 및 소프트웨어를 활용한다. 두 개의 분할된 영상으로부터 실시간으로 정합된 영상을 얻을 수 있었으며, 마지막으로 연속된 실험을 통해 획득한 호모그래피의 정확도를 확인할 수 있다. 실험으로 얻은 결과들은 제안된 시스템과 방법이 대영역 고해상도 검사영상 획득을 위해 효과적임을 보인다.

단일 벽 탄소 나노 튜브를 이용한 스위칭 레이어 Al2O3/HfOx 기반의 멤리스터 (Memristors based on Al2O3/HfOx for Switching Layer Using Single-Walled Carbon Nanotubes)

  • 장동준;권민우
    • 전기전자학회논문지
    • /
    • 제26권4호
    • /
    • pp.633-638
    • /
    • 2022
  • 최근 인간의 뇌를 모방한 스파이킹 뉴럴 네트워크(SNNs)의 뉴로모픽(Neuromorphic) 시스템이 주목을 받고 있다. 뉴로모픽 기술은 인지 응용과 처리 과정에서 속도가 빠르고 전력 소모가 적다는 장점이 있다. SNNs 기반의 저항성 랜덤 엑세스 메모리(RRAM) 은 병렬 연산을 위한 가장 효율적인 구조이며 스파이크 타이밍 종속 가소성(STDP)의 점진적인 스위칭 동작을 수행한다. 시냅스 소자 동작으로서의 RRAM은 저 전력 프로세싱과 다양한 메모리 상태를 표현한다. 하지만, RRAM 소자의 통합은 높은 스위칭 전압 및 전류를 유발하여 높은 전력 소비를 초래한다. RRAM의 동작 전압을 낮추기 위해서는 스위칭 레이어와 금속 전극의 신소재를 개발하는 것이 중요하다. 본 연구에서는 스위칭 전압을 낮추기 위해 전기적, 기계적 특성이 우수한 단일 벽 탄소나노튜브(SWCNTs)를 갖는 (Metal/Al2O3/HfOx/SWCNTs/N+silicon, MOCS)라는 최적화된 새로운 구조를 제안하였다. 따라서 SWCNTs 기반 멤리스터의 점진적인 스위칭 동작 및 저 전력 I/V 곡선의 향상을 보여준다.