• 제목/요약/키워드: Parallel Implementation

검색결과 883건 처리시간 0.026초

임베디드 병렬 프로세서를 위한 픽셀 서브워드 병렬처리 명령어 구현 (Implementation of Pixel Subword Parallel Processing Instructions for Embedded Parallel Processors)

  • 정용범;김종면
    • 정보처리학회논문지A
    • /
    • 제18A권3호
    • /
    • pp.99-108
    • /
    • 2011
  • 프로세서 기술은 공정비용의 증가와 전력 소모 때문에 단순 동작 주파수를 높이는 방법이 아닌 다수의 프로세서를 집적하는 병렬 프로세싱 기술 발전이 이루어지고 있다. 본 논문에서는 멀티미디어에 내재한 무수한 데이터를 효과적으로 처리할 수 있는 SIMD(Single Instruction Multiple Data) 기반 병렬 프로세서를 소개하고, 또한 이러한 SIMD 기반 병렬 프로세서 아키텍처에서 이미지/비디오 픽셀을 효율적으로 처리 가능한 픽셀 서브워드 병렬처리 명령어를 제안한다. 제안하는 픽셀 서브워드 병렬처리 명령어는 48비트 데이터패스 아키텍처에서 4개의 12비트로 분할된 레지스터에 4개의 8비트 픽셀을 저장하고 동시에 처리함으로써 기존의 멀티미디어 전용 명령어에서 발생하는 오버플로우 및 이를 해결하기 위해 사용되는 패킹/언팽킹 수행의 상당한 오버헤드를 줄일 수 있다. 동일한 SIMD 기반 병렬 프로세서 아키텍처에서 모의 실험한 결과, 제안한 픽셀 서브워드 병렬처리 명령어는 baseline 프로그램보다 2.3배의 성능 향상을 보인 반면, 인텔사의 대표적인 멀티미디어 전용 명령어인 MMX 타입 명령어는 baseline 프로그램보다 단지 1.4배의 성능 향상을 보였다. 또한, 제안한 명령어는 baseline 프로그램보다 2.5배의 에너지 효율 향상을 보인 반면, MMX 타입 명령어는 baseline 프로그램보다 단지 1.8배의 에너지 효율 향상을 보였다.

TMS320C80 MVP 상에서의 연속항공영상으리 이용한 통합 항법 변수 추출 시스템 구현 (Implementation of the Integrated Navigation Parameter Extraction from the Aerial Image Sequence Using TMS320C80 MVP)

  • 신상윤;박인준;이영삼;이민규;김관석;정동욱;김인철;박래홍;이상욱
    • 대한전자공학회논문지SP
    • /
    • 제39권3호
    • /
    • pp.49-57
    • /
    • 2002
  • 본 논문에서는 TMS320C80 MVP(multimedia video processor)를 이용하여 영상 항법변수 추출 알고리듬을 실시간 구현하는 방법에 대해 연구하였다. 영상 항법변수 추출 알고리듬은 상대위치 추정과 절대위치 보정으로 이루어져 있으며, 절대위치 보정은 고해상도 항공영상과 IRS(Indian remote sensing) 위성영상 그리고 DEM(digital elevation model)을 이용한 방법이 있다. 이러한 알고리듬들을 수행하는 통합시스템을 MVP가 탑재된 DSP 보드로 실시간 구현하였다. 이를 위해 영상을 분할하여 병렬처리 함으로써 처리 시간을 줄였다. 모의 실험을 통해 실시간 처리가 가능함을 알 수 있었고, 추정오차 측면에서 성능을 평가하였다.

일반적인 GPU 트리 탐색과의 비교실험을 통한 GPU 기반 병렬 Shifted Sort 알고리즘 분석 (Analysis of GPU-based Parallel Shifted Sort Algorithm by comparing with General GPU-based Tree Traversal)

  • 김희수;박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권6호
    • /
    • pp.1151-1156
    • /
    • 2017
  • 일반적으로 GPU 기반 트리 탐색을 수행할 경우 병렬 처리 속도가 생각보다 크게 향상되지 않는 경우가 대부분이다. 본 논문에서는 이러한 원인을 분석하고 그 분석 결과로 GPU 병렬 처리 하드웨어 아키텍처 내 최소 물리적 스레드 실행 단위인 warp 내에서 분기문(if문)으로 인한 warp divergence가 일어나기 때문임을 제시한다. 또한 이러한 warp divergence를 최소화할 수 있는 병렬 shifted sort 알고리즘과의 비교를 통해 shifted sort 알고리즘이 일반적인 GPU 내 트리 탐색에 비해 우수한 성능을 보이는 구조임을 제시하였다. 분석 결과 GPU 기반 kd-tree 탐색에 비해 warp divergence가 발생하지 않은 shifted sort 탐색은 3차원 공간에서 데이터나 쿼리의 수가 $2^{23}$개 일 때 16배 이상의 빠른 처리 속도를 보였으며 이 성능 차이는 데이터나 쿼리의 개수가 증가함에 따라 더 커지는 경향을 보였다.

IMT-2000 3GPP 시스템을 위한 다중 전송율 병렬형 간섭제거기의 구현 요소들 (Implementation Factors for Multi-rate Parallel Interference Cancellation in the IMT-2000 3GPP System)

  • 김진겸;오성근;선우명훈;김성락
    • 대한전자공학회논문지TC
    • /
    • 제40권2호
    • /
    • pp.56-63
    • /
    • 2003
  • 본 논문은 IMT-2000 3GPP 시스템을 위한 다중 전송율 병렬형 간섭제거기의 구현시 성능에 영향을 미치는 구현 요소들에 대해서 고찰한다. 본 논문에서 고려되는 병렬형 간섭제거기는 복잡도를 고려하여 다중전송률 처리를 위하여 사용자간 비동기 환경에서 블록단위로 신호를 판정하고 샘플단위로 간섭제거를 수행하는 샘플단위 병렬형 간섭제거기를 사용한다. 샘플단위 간섭제거를 사용하면 기존의 블록단위 간섭제거방식에 비하여 복잡도를 크게 줄일 수 있으며, 사용자 수가 증가하는 경우에도 복잡도 증가를 최소화 할 수 있다. 모의실험을 통하여 동기화 되지 않은 사용자와 외부 셀 간섭, 타이밍 오류, 오버샘플링율, 양자화 비트 수가 간섭제거기 성능에 미치는 영향을 분석한다. 이를 바탕으로 성능과 복잡도를 고려한 최적의 파라미터를 도출하고, 실제 구현 시에 고려해야 할 여러 가지 구현 요소들에 대한 모델을 정립한다. 마지막으로, 시스템 복잡도 또한 중요한 구현요소 중의 하나이므로 사전 간섭제거 방식들에 따른 복잡도를 분석한다.

영상 품질 개선을 위한 FPGA 기반 고속 히스토그램 평활화 회로 구현 (FPGA-based Implementation of Fast Histogram Equalization for Image Enhancement)

  • 류상문
    • 한국정보통신학회논문지
    • /
    • 제23권11호
    • /
    • pp.1377-1383
    • /
    • 2019
  • 영상 품질 개선을 위해 사용되는 히스토그램 평활화 알고리즘은 하드웨어 회로로 구현되면 소프트웨어로 구현된 경우보다 작업 속도 면에서 성능이 훨씬 뛰어나다. FPGA를 이용한 히스토그램 평활화 회로 구현에 대부분의 최신 FPGA에 포함된 곱셈기 회로와 상당량의 SRAM을 이용하고, 파이프라인을 적용하면 히스토그램 평활화 회로의 전체적인 동작 성능을 높일 수 있다. 본 논문은 이와 같은 방법을 적용하여 8비트 심도를 갖는 흑백 영상에 대해 히스토그램 평활화 작업을 고속으로 수행 가능한 FPGA 구현 방법을 제안한다. 제안된 회로는 FIFO를 이용하여 한 개의 영상에 대한 평활화가 진행되는 동안 다음 영상에 대한 히스토그램 계산을 수행할 수 있다. FIFO를 이용한 일부 작업의 시간적 중첩과 내장된 곱셈기 회로 그리고 파이프라인 적용 효과로 회로의 전체적인 성능은 대략 매 클럭마다 한 개의 화소에 대해 히스토그램 평활화를 수행할 수 있다. 그리고 영상을 분할하여 히스토그램 평활화 작업의 일부를 병렬 처리하면 그 성능을 속도 면에서 거의 두 배로 향상할 수 있다.

32-bit RISC-V 프로세서 상에서의 경량 블록 암호 SIMECK, SIMON 카운터 운용 모드 최적 구현 (Optimized Implementation of Lightweight Block Cipher SIMECK and SIMON Counter Operation Mode on 32-Bit RISC-V Processors)

  • 심민주;권혁동;오유진;송민호;서화정
    • 정보보호학회논문지
    • /
    • 제33권2호
    • /
    • pp.165-173
    • /
    • 2023
  • 본 논문에서는 32-bit RISC-V 프로세서 상에서 경량 블록 암호인 SIMECK과 SIMON의 카운터 운용 모드에 대한 최적 구현을 제안한다. CTR 운용 모드의 특징을 활용하여 일부 값을 사전 연산하는 라운드 함수 최적화, 단일평문 최적화와 2개의 평문 병렬 최적화를 제안한다. RISC-V 상에서의 SIMECK과 SIMON에 대한 선행 연구 결과가 존재하지 않기 때문에 단일 평문 최적화와 2개의 평문 병렬 최적화 구현물에 대해 사전 연산 기법이 적용된 구현물과 사전 연산이 적용되지 않은 구현물의 성능을 비교하였다. 결과적으로, 사전 연산 기법이 적용된 구현물은 사전 연산이 적용되지 않은 구현물 대비 모두 1%의 성능 향상을 확인하였다.

MISIX 기반의 병렬 파일 시스템의 통신 모듈 설계 및 구현 (Design and Implementation of a Communication Module of the Parallel Operating File System based on MISIX)

  • 진성근;조종현;김해진;서대화
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권4호
    • /
    • pp.373-382
    • /
    • 2000
  • POFS는 SPAX 컴퓨터에서 운용될 병렬 파일 시스템이다. SPAX는 ETRI에서 개발중인 클러스터 SMP 구조를 가지는 다중 프로세서 컴퓨터이며 SPAX의 운영체제는 Chorus 마이크로커널에 기반한 MISIX이다. 마이크로커널 기반의 운영체제는 마이크로커널의 IPC를 기반으로 구현된 서버의 집합이며, 운영체제의 서브시스템들 혹은 서브시스템들과 사용자 프로그램은 클라이언트/서버 구조를 가지게 된다. 그러므로, 운영체제의 서브시스템을 위한 통신 모듈의 설계 방법은 시스템의 성능에 직접적인 영향을 준다. 본 논문은 MISIX의 병렬 파일 시스템인 POFS 개발함에 있어서 제기된 통신 모듈의 구조와 성능에 관해 기술한다. POFS는 높은 병렬성 및 확장성을 가지며, 단일 시스템 이미지를 제공하는 분산 환경의 파일 시스템이다. POFS의 통신 모듈은 클라이언트/서버 구조인 POFS의 특성을 효과적으로 지원한다.

  • PDF

MRQUTER: MapReduce 프레임워크를 이용한 병렬 정성 시간 추론기 (MRQUTER : A Parallel Qualitative Temporal Reasoner Using MapReduce Framework)

  • 김종훈;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권5호
    • /
    • pp.231-242
    • /
    • 2016
  • 빠른 웹 정보의 변화에 잘 대응하기 위해서는, 사실과 지식이 실제로 유효한 시간과 장소들도 함께 표현하고 그들 간의 관계도 추론할 수 있도록 웹 기술의 확장이 필요하다. 본 논문에서는 그동안 소규모 지식 베이스를 이용한 실험실 수준의 정성 시간 추론 연구들에서 벗어나, 웹 스케일의 대규모 지식 베이스를 추론할 수 있는 병렬 정성 시간 추론기인 MRQUTER의 설계와 구현을 소개한다. Hadoop 클러스터 시스템과 MapReduce 병렬 프로그래밍 프레임워크를 이용해 개발된 MRQUTER에서는 정성 시간 추론 과정을 인코딩 및 디코딩 작업, 역 관계 및 동일 관계 추론 작업, 이행 관계 추론 작업, 관계 정제 작업 등 몇 개의 MapReduce 작업으로 나누고, 맵 함수와 리듀스 함수로 구현되는 각각의 단위 추론 작업을 효율화하기 위한 최적화 기술들을 적용하였다. 대규모 벤치마킹 시간 지식 베이스를 이용한 실험을 통해, MRQUTER의 높은 추론 성능과 확장성을 확인하였다.

CMOS 기반 BPSK 수신기와 반사형 위상 천이기를 이용한 QPSK 복조기 설계 (Design of QPSK Demodulator Using CMOS BPSK Receiver and Reflection-Type Phase Shifter)

  • 문성모;박동훈;유종원;이문규
    • 한국전자파학회논문지
    • /
    • 제20권8호
    • /
    • pp.770-776
    • /
    • 2009
  • 본 논문에서는 일반적인 six-port 수신기의 한 구성 성분인 BPSK 수신기와 반사형 위상 천이기를 이용하여 QPSK 신호를 복조하는 방법을 제안, 검증하고자 한다. 기존의 일반적인 곱셈 혼합 방식이나 덧셈 혼합 방식의 I/Q 복조기는 혼합기부터 parallel-to-serial 변환기까지 I/Q 경로가 분리되어 있다. 본 논문에서는 I/Q baseband 신호 경로의 분리가 없는 새로운 I/Q 복조기를 제안한다. 이는 일반적인 수신기에 비하여 baseband 경로의 회로 크기와 전력 소모를 반으로 줄일 수 있는 장점이 있다. 또한, 데이터 복조 후 parallel-to-serial 변환기가 사용될 필요가 없다. 설계된 복조기 모듈은 L-band 반송파 주파수의 데이터 율 20 Mbps까지의 QPSK 변조 신호를 성공적으로 복조하였다.

Development of 3 D.O.F parallel robot's simulator for education

  • Yoo, Jae-Myung;Kim, John-Hyeong;Park, Dong-Jin
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.2290-2295
    • /
    • 2005
  • In this paper, it is developed simulator system of 3 D.O.F parallel robot for educate of expertness. This simulator system is composed of three parts ? 3 D.O.F parallel robot, controller (hardware) and software. First, basic structure of the robot is 3 active rotary actuator that small geared step motor with fixed base. An input-link is connected to this actuator, and this input-link can connect two ball joints. Thus, two couplers can be connected to the input-link as a pair. An end-plate, which is jointed by a ball joint, can be connected to the opposite side of the coupler. A sub-link is produced and installed to the internal spring, and then this sub-link is connected to the upper and bottom side of the coupler in order to prevent a certain bending or deformation of the two couplers. The robot has the maximum diameter of 230 mm, 10 kg of weight (include the table), and maximum height of 300 mm. Hardware for control of the robot is composed of computer, micro controller, pulse generator, and motor driver. The PC used in the controller sends commands to the controller, and transform signals input by the user to the coordinate value of the robot by substituting it into equations of kinematics and inverse kinematics. A controller transfer the coordinate value calculated in the PC to a pulse generator by transforming it into signals. A pulse generator analyzes commands, which include the information received from the micro controller. A motor driver transfer the pulse received from the pulse generator to a step motor, and protects against the over-load of the motor Finally, software is a learning purposed control program, which presents the principle of a robot operation and actual implementation. The benefit of this program is that easy for a novice to use. Developed robot simulator system can be practically applied to understand the principle of parallel mechanism, motors, sensor, and various other parts.

  • PDF