• 제목/요약/키워드: Parallel Implementation

검색결과 878건 처리시간 0.023초

Parallel and Sequential Implementation to Minimize the Time for Data Transmission Using Steiner Trees

  • Anand, V.;Sairam, N.
    • Journal of Information Processing Systems
    • /
    • 제13권1호
    • /
    • pp.104-113
    • /
    • 2017
  • In this paper, we present an approach to transmit data from the source to the destination through a minimal path (least-cost path) in a computer network of n nodes. The motivation behind our approach is to address the problem of finding a minimal path between the source and destination. From the work we have studied, we found that a Steiner tree with bounded Steiner vertices offers a good solution. A novel algorithm to construct a Steiner tree with vertices and bounded Steiner vertices is proposed in this paper. The algorithm finds a path from each source to each destination at a minimum cost and minimum number of Steiner vertices. We propose both the sequential and parallel versions. We also conducted a comparative study of sequential and parallel versions based on time complexity, which proved that parallel implementation is more efficient than sequential.

ParaC 언어의 설계 및 구현 (The Design and Implementation of the ParaC Language)

  • 이경석;우영춘;김진미;지동해
    • 한국정보처리학회논문지
    • /
    • 제4권11호
    • /
    • pp.2903-2913
    • /
    • 1997
  • 본 논문은 공유 및 분산 메모리 구조를 가진 병렬 컴퓨터의 프로그래밍 환경을 지원하기 위하여 ParaC 언어를 설계하고 구현한 내용을 기술한다. ParaC 언어는 확장성 높은 병렬 컴퓨터의 시스템 자원을 사용자가 효과적으로 이용할 수 있도록 설계되었다. 이것은 C 언어에 공유 메모리 환경을 위한 병렬 구문과 동기화 구문, 그리고 분산 메모리 환경을 위한 원격 태스크 구문을 추가함으로써 이루어졌다. 언어의 구현을 위하여 C 언어로의 번역 방법을 기술하였으며, 이 방법을 사용한 번역기와 확장 구문을 위한 실행시간 라이브러리를 구현하였다.

  • PDF

64-bit ARM 프로세서 상에서의 블록암호 PIPO 병렬 최적 구현 (Optimized Implementation of Block Cipher PIPO in Parallel-Way on 64-bit ARM Processors)

  • 엄시우;권혁동;김현준;장경배;김현지;박재훈;송경주;심민주;서화정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권8호
    • /
    • pp.223-230
    • /
    • 2021
  • ICISC'20에서 발표된 경량 블록암호 PIPO는 비트 슬라이스 기법 적용으로 효율적인 구현이 되었으며, 부채널 내성을 지니기에 안전하지 않은 환경에서도 안정적으로 사용 가능한 경량 블록암호이다. 본 논문에서는 ARM 프로세서를 대상으로 PIPO의 병렬 최적 구현을 제안한다. 제안하는 구현물은 8평문, 16평문의 병렬 암호화가 가능하다. 구현에는 최적의 명령어 활용, 레지스터 내부 정렬, 로테이션 연산 최적화 기법을 사용하였다. 또한 레지스터 내부 정렬을 매 라운드마다 진행하는 구현물과, 정렬을 최소화하는 구현물 두 종류로 구분하여 구현한다. 구현은 A10x fusion 프로세서를 대상으로 한다. 대상 프로세서 상에서, 기존 레퍼런스 PIPO 코드는 64/128, 64/256 규격에서 각각 34.6 cpb, 44.7 cpb의 성능을 가지나, 제안하는 기법 중, 일반 구현물은 8평문 64/128, 64/256 규격에서 각각 12.0 cpb, 15.6 cpb, 16평문 64/128, 64/256 규격에서 각각 6.3 cpb, 8.1 cpb의 성능을 보여준다. 이는 기존 대비 각 규격별로 8평문 병렬 구현물은 약 65.3%, 66.4%, 16평문 병렬 구현물은 약 81.8%, 82.1% 더 좋은 성능을 보인다. 레지스터 최소 정렬 구현물은 8평문 64/128, 64/256 규격에서 각각 8.2 cpb, 10.2 cpb, 16평문 64/128, 64/256 규격에서 각각 3.9 cpb, 4.8 cpb의 성능을 보여준다. 이는 기존 레퍼런스 코드 구현물 대비 각 규격별로 8평문 병렬 구현물은 약 76.3%, 77.2%, 16평문 병렬 구현물은 약 88.7% 89.3% 더 향상된 성능을 가진다.

Design of Encoder and Decoder for LDPC Codes Using Hybrid H-Matrix

  • Lee, Chan-Ho
    • ETRI Journal
    • /
    • 제27권5호
    • /
    • pp.557-562
    • /
    • 2005
  • Low-density parity-check (LDPC) codes have recently emerged due to their excellent performance. However, the parity check (H) matrices of the previous works are not adequate for hardware implementation of encoders or decoders. This paper proposes a hybrid parity check matrix which is efficient in hardware implementation of both decoders and encoders. The hybrid H-matrices are constructed so that both the semi-random technique and the partly parallel structure can be applied to design encoders and decoders. Using the proposed methods, the implementation of encoders can become practical while keeping the hardware complexity of the partly parallel decoder structures. An encoder and a decoder are designed using Verilog-HDL and are synthesized using a $0.35 {\mu}m$ CMOS standard cell library.

  • PDF

Efficient LDPC coding using a hybrid H-matrix

  • Kim Tae Jin;Lee Chan Ho;Yeo Soon Il;Roh Tae Moon
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 학술대회지
    • /
    • pp.473-476
    • /
    • 2004
  • Low-Density Parity-Check (LDPC) codes are recently emerged due to its excellent performance to use. However, the parity check matrices (H) of the previous works are not adequate for hardware implementation of encoders or decoders. This paper proposes a hybrid parity check matrix for partially parallel decoder structures, which is efficient in hardware implementation of both decoders and encoders. Using proposed methods, the encoding design can become practical while keeping the hardware complexity of partially parallel decoder structures.

  • PDF

Design and Implementation of 256-Point Radix-4 100 Gbit/s FFT Algorithm into FPGA for High-Speed Applications

  • Polat, Gokhan;Ozturk, Sitki;Yakut, Mehmet
    • ETRI Journal
    • /
    • 제37권4호
    • /
    • pp.667-676
    • /
    • 2015
  • The third-party FFT IP cores available in today's markets do not provide the desired speed demands for optical communication. This study deals with the design and implementation of a 256-point Radix-4 100 Gbit/s FFT, where computational steps are reconsidered and optimized for high-speed applications, such as radar and fiber optics. Alternative methods for FFT implementation are investigated and Radix-4 is decided to be the optimal solution for our fully parallel FPGA application. The algorithms that we will implement during the development phase are to be tested on a Xilinx Virtex-6 FPGA platform. The proposed FFT core has a fully parallel architecture with a latency of nine clocks, and the target clock rate is 312.5 MHz.

하드웨어 구현에 적합한 효율적인 LDPC 코덱의 설계 (Design of an Efficient LDPC Codec for Hardware Implementation)

  • 이찬호;박재근
    • 대한전자공학회논문지SD
    • /
    • 제43권7호
    • /
    • pp.50-57
    • /
    • 2006
  • Low-density parity check (LDPC) code는 최근 그 우수한 성능으로 인하여 4세대 무선 이동 통신용 채널 코딩으로 주목받고 있고 유럽의 고화질 위성방송 규격으로 채택되었다. 그러나 기존의 연구들이 제안한 parity check matrix (H-matrix)는 실제로 하드웨어로 구현함에 있어서 인코더 혹은 디코더에 제약을 가지고 있다. 이러한 문제점을 해결하고자 본 논문에서는 인코더와 디코더 양쪽 모두 효율적으로 하드웨어로 구현이 가능한 hybrid H-matrix 구조를 제안한다. Hybrid H-matrix는 semi-random 방식과 partly parallel 방식을 결합하여 하드웨어로 구현시 partly parallel 방식이 가지는 디코더의 복잡도가 감소되는 장점을 유지하면서 인코더 또한 semi-random 방식을 사용하여 복잡도가 감소된다. 제안한 구조를 사용하여 LDPC 인코더와 디코더를 설계하고 합성하여 기존의 결과와 비교하였다.

Assessment of computational performance for a vector parallel implementation: 3D probabilistic model discrete cracking in concrete

  • Paz, Carmen N.M.;Alves, Jose L.D.;Ebecken, Nelson F.F.
    • Computers and Concrete
    • /
    • 제2권5호
    • /
    • pp.345-366
    • /
    • 2005
  • This work presents an assessment of the computational performance of a vector-parallel implementation of probabilistic model for concrete cracking in 3D. This paper shows the continuing efforts towards code optimization as reported in earlier works Paz, et al. (2002a,b and 2003). The probabilistic crack approach is based on the direct Monte Carlo method. Cracking is accounted by means of 3D interface elements. This approach considers that all nonlinearities are restricted to interface elements modeling cracks. The heterogeneity governs the overall cracking behavior and related size effects on concrete fracture. Computational kernels in the implementation are the inexact Newton iterative driver to solve the non-linear problem and a preconditioned conjugate gradient (PCG) driver to solve linearized equations, using an element by element (EBE) strategy to compute matrix-vector products. In particular the paper analyzes code behavior using OpenMP directives in parallel vector processors (PVP), such as the CRAY SV1 and CRAY T94. The impact of the memory architecture on code performance, and also some strategies devised to circumvent this issue are addressed by numerical experiment.

Parallelization of a Purely Functional Bisimulation Algorithm

  • Ahn, Ki Yung
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.11-17
    • /
    • 2021
  • 본 논문에서는 순수 함수형 언어로 작성된 쌍방시뮬레이션 알고리듬의 성능을 멀티코어 프로세서 컴퓨터에서 병렬화로 향상시키는 방법을 연구한다. 이 병렬화에 있어 핵심 아이디어는 순수 함수형 프로그램의 참조 투명성을 십분 활용하면 병렬화가 전혀 고려되지 않고 작성된 초기 구현으로부터 최소한의 수정만으로 성능 개선 효과를 기대할 수 있다는 것이다. 초기 구현과 병렬화 구현 둘 다 순수 함수형 언어인 하스켈로 작성되었다. 초기 구현을 병렬화할 때 변화는 아주 적어서 병렬화된 구현에서도 초기 구현의 프로그램 구조가 거의 그대로 유지되었다. 벤치마크를 통해 제시된 간단한 병렬화만으로도 초기 구현과 비교해 두 배 이상의 성능 개선을 확인했다. 또한, 병렬화와는 별개의 최적화 기법인 메모이제이션이 적용된 버전의 쌍방시뮬레이션 구현에도 같은 방식의 병렬화를 적용함으로써 마찬가지로 성능을 개선할 수 있음을 확인하였다.

루프인터체인지 병렬컴파일러 구현 (A Implementation of Loop Interchange Parallel Compiler)

  • 송월봉
    • 한국컴퓨터산업학회논문지
    • /
    • 제8권3호
    • /
    • pp.167-172
    • /
    • 2007
  • 일반적으로 응용프로그램에서 병렬성 추출에 대한 핵심 부분은 루프이다 따라서 본 논문에서는 Loop Interchange를 자동으로 처리할 수 있는 병렬컴파일러를 구현하고자한다. Loop Interchange는 반복문에서 cedar Fortran의 CDOALL문장을 바깥쪽으로 보냄으로서 특히 더 많은 병렬화 효과를 얻을 수 있기 때문이다. 이는 향후 선형변환과 혼합하여 더욱 효과적인 실행 결과를 기대하고 불완전 중첩루프에 적용하는 방법의 연구에 기여할 것으로 판단된다.

  • PDF