• 제목/요약/키워드: Pipelining Parallel Processing

검색결과 29건 처리시간 0.025초

다중 스레드 파이프라인 병렬처리를 통한 실시간 시뮬레이션 시각화의 성능 향상 해석 및 적용 (Analysis and Application of Performance Improvement of a Real-time Simulation Visualization based on Multi-thread Pipelining Parallel Processing)

  • 이준희;송희강;김탁곤
    • 한국시뮬레이션학회논문지
    • /
    • 제26권3호
    • /
    • pp.13-22
    • /
    • 2017
  • 본 연구는 시뮬레이션을 진행하면서 그 결과를 실시간으로 시각화하는 경우에 파이프라이닝 병렬처리 기법을 적용하여 성능을 개선할 수 있음을 보인다. 일반적으로 실시간 시각화를 포함한 시뮬레이션에서는 모델을 실행하는 프로세스와, 시뮬레이션 결과를 시각화 도구로 전송하는 프로세스, 결과를 받아서 시각화 하는 3개의 프로세스가 있다. 만약 이 프로세스들을 직렬화해서 실행하면 전체 실행시간이 매우 길어져서 시각화의 성능이 저하될 수밖에 없다. 본 연구에서는 기존의 직렬 방식 대신에 파이프라이닝 병렬처리 기법을 적용하여 성능을 개선하고자 한다. 추가적으로 각 프로세스에 다중 스레드 기능을 더하여 더 큰 성능의 개선이 있음을 보인다. 이를 위해 본 논문은 제안된 기법에 대한 이론적 성능모델을 세우고 최대, 최소 성능 향상 조건을 이론적으로 해석하였으며 모의실험하였다. 이 이론을 바탕으로 실시간으로 시각화하는 실시간 공중전 시뮬레이션에 적용한 결과 기존의 직렬화된 실행 성능보다 제안된 이론을 적용한 후의 실행 성능이 크게 향상되었음을 보였다.

재구성 가능한 다중 프로세서 시스템을 이용한 혼합 영상 부호화기 구현에 관한 연구(연구 II : 병렬 알고리즘 구현) (A Study on Hybrid Image Coder Using a Reconfigurable Multiprocessor System (Study II : Parallel Algorithm Implementation)

  • 최상훈;이광기;김인;이용균;박규태
    • 전자공학회논문지B
    • /
    • 제30B권10호
    • /
    • pp.13-26
    • /
    • 1993
  • Motion picture algorithms are realized on the multiprocessor system presented in the Study I. For the most efficient processing of the algorithms, pipelining and geometrical parallel processing methods are employed, and processing time, communication load and efficiency of each algorithm are compared. The performance of the implemented system is compared and analysed with reference to MPEG coding algorithm. Theoretical calculations and experimental results both shows that geometrical partitioning is a more suitable parallel processing algorithm for moving picture coding having the advantage of easy algorithm modification and expansion, and the overall efficiency is higher than pipelining.

  • PDF

TMS320C80시스템에서 Radon 변환의 병렬 구현 (Parallel Implementation of Radon Transform on TMS320C80-based System)

  • 송정호;성효경최흥문
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.727-730
    • /
    • 1998
  • In this paper, we propose an implementation of an efficient parallel Radon transform on TMS320C80-based system. For an N$\times$N SAR image, we can obtain O(NM/p) of the conventional parallel Radon transform, by representing the projection patterns in Radon space variables instead of the image space variables, and pipelining the algorithm, where p is the number of processors and M is the number of projection angles. Also, we can reduce the time for the dynamic load distribution among the nodes and the communication overheads of accessing the global memories, by pipelining the memory and processing operations by using tripple buffer structure. Experimental results show an efficient parallel Radon transform of speedup Sp=3.9 and efficiency E=97.5% for 256$\times$256 image, when implemented on TMS320C80 composed of four parallel slave processors with three memory blocks.

  • PDF

IP기반 H.264 디코더 설계를 위한 동기식 비선형 및 병렬화 파이프라인 설계 (A design of synchronous nonlinear and parallel for pipeline stage on IP-based H.264 decoder implementation)

  • 고병수;공진흥
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.409-410
    • /
    • 2008
  • This paper presents nonlinear and parallel design for synchronous pipelining in IP-based H.264 decoder implementation. Since H.264 decoder includes the dataflow of feedback loop, the data dependency requires one NOP stage per pipelining latency to drop the throughput into 1/2. Further, it is found that, in execution time, the stage scheduled for MC is more occupied than that for CAVLD/ITQ/DF. The less efficient stage would be improved by nonlinear scheduling, while the fully-utilized stage could be accelerated by parallel scheduling of IP. The optimization yields 3 nonlinear {CAVLD&ITQ}|3 parallel (MC/IP&Rec.)| 3 nonlinear {DF} pipelined architecture for IP-based H.264 decoder. In experiments, the nonlinear and parallel pipelined H.264 decoder, including existing IPs, could deal with full HD video at 41.86MHz, in real time processing.

  • PDF

고속 모듈러 승산의 비교와 확장 가능한 시스톨릭 어레이의 설계 (Comparison of High Speed Modular Multiplication and Design of Expansible Systolic Array)

  • 추봉조;최성욱
    • 한국정보처리학회논문지
    • /
    • 제6권5호
    • /
    • pp.1219-1224
    • /
    • 1999
  • This paper derived Montgomery's parallel algorithms for modular multiplication based on Walter's and Iwamura's method, and compared data dependence graph of each parallel algorithm. Comparing the result, Walter's parallel algorithm has small computational index in data dependence graph, so it is selected and used to computed spatial and temporal pipelining diagrams with each projection direction for designing expansible bit-level systolic array. We also evaluated internal operation of proposed expansible systolic array C++ language.

  • PDF

Using DSP Algorithms for CRC in a CAN Controller

  • Juan, Ronnie O. Serfa;Kim, Hi Seok
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제5권1호
    • /
    • pp.29-34
    • /
    • 2016
  • A controller area network (CAN) controller is an integral part of an electronic control unit, particularly in an advanced driver assistance system application, and its characteristics should always be advantageous in all aspects of functionality especially in real time application. The cost should be low, while maintaining the functionality and reliability of the technology. However, a CAN protocol implementing serial operation results in slow throughput, especially in a cyclical redundancy checking (CRC) unit. In this paper, digital signal processing (DSP) algorithms are implemented, namely pipelining, unfolding, and retiming the CAN controller in the CRC unit, particularly for the encoder and decoder sections. It must attain a feasible iteration bound, a critical path that is appropriate for a CAN system, and must obtain a superior design of a high-speed parallel circuit for the CRC unit in order to have a faster transmission rate. The source code for the encoder and decoder was formulated in the Verilog hardware description language.

JPEG 인코더를 위한 고성능 병렬 프로세서 하드웨어 설계 및 검증 (Design and Verification of High-Performance Parallel Processor Hardware for JPEG Encoder)

  • 김용민;김종면
    • 대한임베디드공학회논문지
    • /
    • 제6권2호
    • /
    • pp.100-107
    • /
    • 2011
  • As the use of mobile multimedia devices is increasing in the recent year, the needs for high-performance multimedia processors are increasing. In this regard, we propose a SIMD (Single Instruction Multiple Data) based parallel processor that supports high-performance multimedia applications with low energy consumption. The proposed parallel processor consists of 16 processing elements(PEs) and operates on a 3-stage pipelining. Experimental results for the JPEG encoding algorithm indicate that the proposed parallel processor outperforms conventional parallel processors in terms of performance and energy efficiency. In addition, the proposed parallel processor architecture was developed and verified with verilog HDL and a FPGA prototype system.

병렬처리 알고리즘 적용 유도탄 점검 (Inspection of guided missiles applied with parallel processing algorithm)

  • 정의재;고상훈;이유상;김영성
    • 한국항행학회논문지
    • /
    • 제25권4호
    • /
    • pp.293-298
    • /
    • 2021
  • 일반적으로 유도무기의 탐색기와 유도조종장치는 유도탄의 상태를 나타내기 위해 표적, 탐색, 인지, 포착정보를 처리하여 유도무기의 운용 및 제어를 담당하는 역할을 한다. 유도에 필요한 신호는 시선 변화율 신호, 시각 신호, 종말 단계 동체 지향 신호이며, 발사 통제에 필요한 신호는 표적, 감지 신호가 필요하다. 최근 유도탄의 복잡하고 처리하기 어려운 유도탄 신호를 실시간으로 처리하기 위해 유도탄의 데이터 처리 속도를 높여야 한다. 본 연구는 PLINQ(Parallel Language-Integrated Query)의 병렬 알고리즘 방법 중 스톱앤고와 역 열거형 알고리즘을 적용한 후 유도탄 점검 프로그램을 이용하여 실시간으로 유도탄 필요 신호 데이터 처리속도를 비교 후 처리결과를 나타내었다. 도출된 데이터 처리결과 기준으로 다중코어 처리방식과 단독코어 처리방식 CPU(Central Processing Unit) 처리속도 비교, CPU 코어 이용률을 비교하고 병렬처리 알고리즘 적용 시 유도탄 데이터 처리에 효과적 방법을 제안한다.

버스기반의 VLIW형 프로세서를 위한 최적화 컴파일러 구현 (Implementation of Optimizing Compiler for Bus-based VLIW Processors)

  • 홍승표;문수묵
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권4호
    • /
    • pp.401-407
    • /
    • 2000
  • 최근의 고성능 프로세서들은 명령어 수준의 병렬처리(Instruction Level Parallel Processing) 를 이용하여 성능향상을 꾀하고 있다. 특히 컴파일러의 도움을 받는 VLIW(Very Long Instruction Word) 방식의 프로세서는 고성능 DSP 및 그래픽 프로세싱 등 특수한 분야에서 사용이 증가하고 있다. 이러한 특수 목적의 프로세서 구조로서 버스 기반의 VLIW 구조가 제안되었으며[2], 이는 포워딩 하드웨어의 부담과 명령어 폭을 줄여주는 장점을 갖는다. 본 논문에서는 제안된 버스 기반의 VLIW 프로세서를 위해 개발된 최적화 스케쥴링 컴파일러를 소개한다. 우선 버스간 연결 및 자원사용을 모델링 하는 기법을 설명하고 이를 바탕으로 레지스터-버스 승진, 복사자 융합, 오퍼랜드 대체 등의 기계 의존적인 최적화 기법과 선택 스케쥴링, EPS(Enhanced Pipelining Scheduling) 기법 등 VLIW 스케쥴링 기법을 어떻게 구현했는지 설명한다. 이러한 최적화 기법들을 멀티미디어 응용 프로그램에 대하여 적용하여 보았고 약 20%의 성능향상을 보임을 확인하였다.

  • PDF

CCITT H.261를 위한 효율적인 구조의 움직임 추정 프로세서 VLSI 설계 (An efficient architecture for motion estimation processor satisfying CCITT H.261)

  • 주락현;김영민
    • 전자공학회논문지B
    • /
    • 제32B권1호
    • /
    • pp.30-38
    • /
    • 1995
  • In this paper, we propose an efficient architecture for motion estimation processor which performs one of essential functions in moving picture coding algorithms. Simple control mechanism of data flow in register array which stores pixel data, parallel processing of pixel data and pipelining scheme in arithmetic umit allow this architecture to process a 352*288 pixel image at the frame rate of 30fs, which is compatable with CCITT standard H.261.

  • PDF