• 제목/요약/키워드: pipelined structure

검색결과 80건 처리시간 0.027초

스마트 분배기를 이용한 효율적인 병렬 IP 주소 검색 구조 (Efficient Parallel IP Address Lookup Architecture with Smart Distributor)

  • 김정환;김진수
    • 한국콘텐츠학회논문지
    • /
    • 제13권2호
    • /
    • pp.44-51
    • /
    • 2013
  • 인터넷에서 초고속 서비스의 제공을 위해서, 라우터는 신속하게 IP 주소 검색을 수행해야 한다. 본 논문에서는 4 단계의 파이프라인으로 구성된 하이브리드 방식의 병렬 IP 주소 검색 구조를 제안한다. 단계 2의 다중 SRAM과 단계 3의 분할 TCAM을 사용하여 저렴한 비용으로 병렬화를 이루고, 파이프라이닝을 통해 처리율을 향상시켰다. 단계 1에서 스마트 분배기는 선행된 IP 주소와 동일한 주소를 다음 단계로 진입시키지 않고 선행의 검색 결과를 그대로 활용하게 한다. 이에 따라, 캐싱 효과에 의해 검색 처리율을 더욱 향상시키고, 단계 3인 TCAM bank로의 접근 충돌도 완화시킬 수 있다. 마지막 단계의 재정렬 버퍼는 처리된 IP 주소 순서를 입력 순서에 맞도록 재조정하는 기능을 수행한다. 또한, 실제 사용되는 라우팅 테이블과 Zipf 법칙에 따라 생성된 트래픽 분포를 사용하여, 병렬 파이프라인 IP 검색 구조의 성능을 기존의 하이브리드 구조와 비교하여 평가한다.

FPGA를 이용한 실시간 영상 워핑 구현 (An Implementation of Real-time Image Warping Using FPGA)

  • 류정래;이은상;도태용
    • 대한임베디드공학회논문지
    • /
    • 제9권6호
    • /
    • pp.335-344
    • /
    • 2014
  • As a kind of 2D spatial coordinate transform, image warping is a basic image processing technique utilized in various applications. Though image warping algorithm is composed of relatively simple operations such as memory accesses and computations of weighted average, real-time implementations on embedded vision systems suffer from limited computational power because the simple operations are iterated as many times as the number of pixels. This paper presents a real-time implementation of a look-up table(LUT)-based image warping using an FPGA. In order to ensure sufficient data transfer rate from memories storing mapping LUT and image data, appropriate memory devices are selected by analyzing memory access patterns in an LUT-based image warping using backward mapping. In addition, hardware structure of a parallel and pipelined architecture is proposed for fast computation of bilinear interpolation using fixed-point operations. Accuracy of the implemented hardware is verified using a synthesized test image, and an application to real-time lens distortion correction is exemplified.

초전도 논리연산자의 개발 (Development of Superconductive Arithmetic and Logic Devices)

  • 강준희
    • Progress in Superconductivity
    • /
    • 제6권1호
    • /
    • pp.7-12
    • /
    • 2004
  • Due to the very fast switching speed of Josephson junctions, superconductive digital circuit has been a very good candidate fur future electronic devices. High-speed and Low-power microprocessor can be developed with Josephson junctions. As a part of an effort to develop superconductive microprocessor, we have designed an RSFQ 4-bit ALU (Arithmetic Logic Unit) in a pipelined structure. To make the circuit work faster, we used a forward clocking scheme. This required a careful design of timing between clock and data pulses in ALU. The RSFQ 1-bit block of ALU used in this work consisted of three DC current driven SFQ switches and a half-adder. We successfully tested the half adder cell at clock frequency up to 20 GHz. The switches were commutating output ports of the half adder to produce AND, OR, XOR, or ADD functions. For a high-speed test, we attached switches at the input ports to control the high-speed input data by low-frequency pattern generators. The output in this measurement was an eye-diagram. Using this setup, 1-bit block of ALU was successfully tested up to 40 GHz. An RSFQ 4-bit ALU was fabricated and tested. The circuit worked at 5 GHz. The circuit size of the 4-bit ALU was 3 mm ${\times}$ 1.5 mm, fitting in a 5 mm ${\times}$ 5 mm chip.

  • PDF

다중 사용자 MIMO 시스템을 위한 고정 복잡도를 갖는 스피어 인코더 (Fixed-complexity Sphere Encoder for Multi-user MIMO Systems)

  • 마나르 모하이센;한동걸;장경희
    • 한국통신학회논문지
    • /
    • 제35권7A호
    • /
    • pp.632-638
    • /
    • 2010
  • 본 논문에서는 다중 사용자 MIMO 시스템을 위한 고정 복잡도를 갖는 스피어 인코더 (FSE)를 제안하고, FSE의 복잡도를 감소시키는 2가지 방법을 제시한다. FSE는 성능과 복잡도 간의 트레이드오프 관계를 적응적으로 조절할 수 있고, 병렬의 트리 탐색구조를 적용함으로써 프리코딩 지연을 상당히 감소시킬 수 있다. $4\times4$ 다중 사용자 MIMO 시스템에서 시뮬레이션을 수행한 결과, 제안한 FSE는 QRDM 인코더 (QRDM-E)에 비하여 작은 BER 성능 감소를 가져오지만 최적의 다이버시티 오더를 달성함과 더불어 일반적인 QRDM-E 복잡도의 16%정도만을 갖고, 인코딩 처리량(throughput)이 7.5배 향상됨을 확인하였다.

초전도 마이크로 프로세서개발을 위한 RSFQ ALU 회로의 타이밍 분석 (Timing analysis of RSFQ ALU circuit for the development of superconductive microprocessor)

  • 김진영;백승헌;김세훈;강준희
    • 한국초전도ㆍ저온공학회논문지
    • /
    • 제7권1호
    • /
    • pp.9-12
    • /
    • 2005
  • We have constructed an RSFQ 4-bit Arithmetic Logic Unit (ALU) in a pipelined structure. An ALU is a core element of a computer processor that performs arithmetic and logic operation on the operands in computer instruction words. We have simulated the circuit by using Josephson circuit simulation tools. We used simulation tools of XIC, $WRspice^{TM}$, and Julia. To make the circuit work faster, we used a forward clocking scheme. This required a careful design of timing between clock and data pulses in ALU. The RSFQ 1-bit block of ALU used in constructing the 4-bit ALU was consisted of three DC current driven SFQ switches and a half-adder. By commutating output ports of the half adder, we could produce AND, OR, XOR, or ADD functions. The circuit size of the 4-bit ALU when fabricated was 3 mm x 1.5 mm, fitting in a 5 mm x 5mm chip. The fabricated 4-bit ALU operated correctly at 5 GHz clock frequency. The chip was tested at the liquid-helium temperature.

High-throughput and low-area implementation of orthogonal matching pursuit algorithm for compressive sensing reconstruction

  • Nguyen, Vu Quan;Son, Woo Hyun;Parfieniuk, Marek;Trung, Luong Tran Nhat;Park, Sang Yoon
    • ETRI Journal
    • /
    • 제42권3호
    • /
    • pp.376-387
    • /
    • 2020
  • Massive computation of the reconstruction algorithm for compressive sensing (CS) has been a major concern for its real-time application. In this paper, we propose a novel high-speed architecture for the orthogonal matching pursuit (OMP) algorithm, which is the most frequently used to reconstruct compressively sensed signals. The proposed design offers a very high throughput and includes an innovative pipeline architecture and scheduling algorithm. Least-squares problem solving, which requires a huge amount of computations in the OMP, is implemented by using systolic arrays with four new processing elements. In addition, a distributed-arithmetic-based circuit for matrix multiplication is proposed to counterbalance the area overhead caused by the multi-stage pipelining. The results of logic synthesis show that the proposed design reconstructs signals nearly 19 times faster while occupying an only 1.06 times larger area than the existing designs for N = 256, M = 64, and m = 16, where N is the number of the original samples, M is the length of the measurement vector, and m is the sparsity level of the signal.

AES Rijndael 암호.복호 알고리듬의 설계 및 구현 (The Design and Implementation of AES Rijndael Cipher Algorithm)

  • 신성호;이재흥
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 추계종합학술대회
    • /
    • pp.196-198
    • /
    • 2003
  • 본 논문에서는 미국 국립표준기술연구소(NIST)에서 채택한 차세대 암호 표준인 Rijndael 암호 알고리듬을 하드웨어로 구현한다. 효율적인 연산을 위해 라운드를 2개의 부분 라운드로 나누고 부분라운드 간에 파이프라인을 사용하였으며, 1 라운드 연산 시 평균적으로 5 클럭이 소요된다. AES-128 암호 알고리듬을 ALTERA FPGA를 사용하여 하드웨어로 구현 후 성능을 분석하였다. 구현된 AES-128 암호 알고리듬은 암호화시 최대 166 Mhz의 동작 주파수와 약 424 Mbps의 암호율을 가지고 복호화시 최대 142 Mhz의 동작 주파수와 약 363 Mbps의 복호율을 얻을 수 있었다.

  • PDF

U-HDTV를 위한 향상된 병렬 비디오 부호화 기법 (A Parallel Video Encoding Technique for U-HDTV)

  • 정승원;고성제
    • 대한전자공학회논문지SP
    • /
    • 제48권1호
    • /
    • pp.132-140
    • /
    • 2011
  • Ultra-High Definition Television (U-HDTV) 는 차세대 TV로 불리는 실감 TV의 가장 유망한 요소 기술로 주목받고 있으며 이를 효과적으로 압축하기 위한 병렬 비디오 부호화 기술 개발의 필요성이 증대되고 있다. 기존의 병렬 부호화 기술은 영상을 공간적으로 분할하고 분할비디오 (sub-sequence)를 독립적으로 부호화 하는 방식을 사용하였다. 본 논문에서는 분할비디오간의 높은 상호상관 (cross-correlation)을 이용하여 부호화 효율을 향상하는 파이프라인 (pipeline) 구조의 병렬 부 복호화기를 제안한다. 실험결과를 통하여 제안하는 기술이 압축 효율을 향상시키며 균일한 화질의 분할비디오를 생성하는 것을 확인한다.

컴퓨터 비전 응용을 위한 VLIW 보조프로세서의 하드웨어 설계 (Hardware Design of VLIW coprocessor for Computer Vision Application)

  • 최병윤
    • 한국정보통신학회논문지
    • /
    • 제18권9호
    • /
    • pp.2189-2196
    • /
    • 2014
  • 본 논문에서는 자동차용 컴퓨터 비전 알고리즘을 고속으로 처리하기 위해 VLIW 보조프로세서를 설계하였다. VLIW 보조프로세서는 8단 파이프라인 구조로 1개의 사이클에 4개의 명령을 처리할 수 있으며, 보행자 인식을 위한 36개의 정수 및 부동 소수점 명령어 집합을 갖고 있다. 프로세서는 45nm CMOS 공정에서 최대 동작 속도는 300-MHz이며 약 210,900 게이트로 구성되며 예상 연산 성능은 1.2 GOPS 이다. VPE와 8개의 VLIW 코어로 구성된 비전 프로세서 시스템은 25~29 FPS의 보행자 검출 성능을 가진다. VLIW 보조 프로세서는 높은 검출 속도와 호스트 프로세서와 느슨한 결합 특성으로 다양한 비전 분야에 응용 가능하다.

높은 처리량을 가지는 AES를 위한 효율적인 파이프라인을 적용한 하드웨어 설계 (Hardware Design with Efficient Pipelining for High-throughput AES)

  • ;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.578-580
    • /
    • 2017
  • IoT 기술의 발전으로 IoT 기기들 사이의 통신에 보안이 중요해지고 있으며, 다양한 보안 알고리즘을 사용하고 있다. 많은 대칭 키 알고리즘 중에 AES (Advanced Encryption Standard) 알고리즘은 높은 보안성으로 지금까지 사용하고 있다. 본 논문에서는 효율적인 AES 알고리즘의 하드웨어 구조를 제안한다. 제안하는 하드웨어 구조는 암호화 모듈과 키 생성 모듈에 4단 파이프라인 구조를 적용하여, 높은 처리량과 낮은 지연시간을 가진다. 총 512비트의 일반 텍스트를 46 사이클에 처리가 가능하다. 제안하는 하드웨어 디자인은 65nm 공정에서 1.18GHz의 최대 주파수와 13Gbps의 처리량을 가지며, 180nm 공정에서 800MHz의 최대 주파수와 8.9Gbps의 처리량을 가진다.

  • PDF