• 제목/요약/키워드: Bit-Parallel

검색결과 406건 처리시간 0.026초

3차원 적층 구조 저항변화 메모리 어레이를 활용한 CNN 가속기 아키텍처 (CNN Accelerator Architecture using 3D-stacked RRAM Array)

  • 이원주;김윤;구민석
    • 전기전자학회논문지
    • /
    • 제28권2호
    • /
    • pp.234-238
    • /
    • 2024
  • 본 논문은 낮은 구동 전류 특성과 3차원 적층 구조로 확장시킬 수 있는 장점을 가진 3차원 적층형 이중 팁 RRAM을 CNN 가속기 아키텍처에 접목하는 연구를 수행한 논문이다. 3차원 적층형 이중 팁을 적층 형태의 병렬연결로 시냅스 어레이에 사용하여 멀티-레벨을 구현하였다. 이를 Network-on-chip 형태의 가속기 내에 DAC, ADC, 버퍼 및 레지스터, shift & add 회로 등 다양한 하드웨어 블록들과 함께 구성하여 CNN 가속기에 대한 시뮬레이션을 수행하였다. 시냅스 가중치와 활성화 함수의 양자화는 16-bit으로 가정하였다. 해당 가속기 아키텍처를 위한 병렬 파이프라인을 통해 CNN 연산을 시뮬레이션한 결과, 연산효율은 약 370 GOPs/W를 달성하였으며, 양자화에 의한 정확도 열화는 3 % 이내가 되는 결과를 나타냈다.

RAM의 병렬 테스팅을 위한 알고리듬개발 및 테스트회로 설계에 관한 연구 (A Study on the Test Circuit Design and Development of Algorithm for Parallel RAM Testing)

  • 조현묵;백경갑;백인천;차균현
    • 한국통신학회논문지
    • /
    • 제17권7호
    • /
    • pp.666-676
    • /
    • 1992
  • 본 논문에서는 RAM에서 발생하는 모든 PSF(Pattern Sensitive Fault)를 검사하기 위한알고리즘과 테스트회로를 제안하였다. 기존의 테스트회로와 사용된 알고리즘은 RAM셀들을 연속적으로 테스트하거나 메모리의 2차원적 구조를 사용하지 못했기 때문에 많은 테스트 시간이 소요되었다. 본 논문에서는 기존의 RAM회로에 테스트를 위한 부가적인 회로를 첨가하여 병렬적으로 RAM을 테스트 하는 방법을 제안하였다. 부가적으로 첨가된 회로로는 병렬 비교기와 오류 검출기, 그룹 선택회로 이고 병렬 테스팅 위해서 수정된 디코더를 사용하였다. 또한, 효과적인 테스트 패턴을 구하기 위해 Eulerian경로의 구성방법에 대해서도 연구를 수행하였다. 결과적으로, 본 논문에서 사용한 알고리즘을 사용하면 b x w=n의 매트릭스 형태로 표현되는 RAM을 테스트하는데 325*워드라인 수 만큼의 동작이 필요하게 된다. 구현한 각 회로에 대해서 회로 시뮬레이션을 수행한 후 10 bit*32 word Testable RAM을 설계하였다.

  • PDF

불완전 전력 제어와 다중 경로 페이딩 채널에서 DS-CDMA 시스템을 위한 역방향링크 동기식 전송을 채용하는 병렬식 간섭 제거기의 성능 (Performance of Parallel Interference Cancellation with Reverse-Link Synchronous Transmission Technique for DS-CDMA System in Multipath Fading Channels with Imperfect Power Control)

  • 황승훈;김용석;이진구
    • 대한전자공학회논문지TC
    • /
    • 제42권11호
    • /
    • pp.87-92
    • /
    • 2005
  • 본 논문에서는 불완전 전력 제어 방식과 주파수 선택적 레일리 페이딩 채널에서 DS-CDMA 시스템을 위한 역방향링크 동기식 전송 방식(Reverse-Link Synchronous Transmission Technique: RLSTT)이 채용된 개선된 다단계 병렬식 간섭 제거기(Parallel Interference Cancellation: PIC)에 대한 성능을 분석한다. 로그 노말 분포의 랜덤 변수로 근사화되는 전력 제어 오차(Power Control Error: PCE)에 의한 성능 열화가 PCE의 표준 편차의 함수로 추정된다. 시스템 수용 용량을 추정하기 위하여 비부호화된 비트 오류 성능을 계산한다. 기존의 단일단계 간섭제거기 시스템과 비교하여 전력 제어 오차가 존재하는 경우에서도 RLSTT를 채용함으로 $60\%$ 정도의 이득을 얻을 수 있음을 보여준다. 즉 결론적으로 RLSTT는 수용용량을 더욱 개선해줄 수 있으며 PCE의 악영향을 감소시켜줄 수 있다.

UD(Ultra Definition) 동영상 실시간 처리를 위한 H.264/AVC CAVLC 병렬 아키텍처 설계 (Parallel Architecture Design of H.264/AVC CAVLC for UD Video Realtime Processing)

  • 고병수;공진흥
    • 전자공학회논문지
    • /
    • 제50권5호
    • /
    • pp.112-120
    • /
    • 2013
  • 본 연구에서는 UHD($3840{\times}2160$)영상을 실시간 처리하는 고성능 H.264/AVC CAVLC 부호화기를 설계하였다. 연산처리 성능을 높이기 위해 통계값 탐색 과정과 코드워드 부호화 과정을 각각 1사이클에 처리하도록 설계하였다. 통계값 탐색과정을 1사이클에 처리하기 위해 16개 계수들의 '0' 또는 '0'이 아님을 표시하는 비트열을 만들어 산술 및 논리연산을 통해 통계값을 한 번에 구하였다. 그리고 코드워드 부호화 과정을 1사이클에 처리하기 위해 레벨의 코드워드 길이를 결정하는 계수들과 임계값들과의 비교 연산을 동시에 처리함으로써 코드워드 부호화 과정의 재귀적 연산을 제거하였다. 제안하는 H.264/AVC 병렬 CAVLC 부호화기는 통계값 탐색 단계과 코드워드 부호화 단계로 나뉘는 2단 파이프라인 구조로 고속 병렬 연산 회로를 구현하였으며, 산술 연산을 적용하여 코드워드 부호화 테이블을 회로의 크기를 줄이고자 하였다. 0.13um 공정에서 시뮬레이션한 결과, 게이트 수는 33.4Kgates이며, 최대동작주파수 100MHz에서 UD 영상을 초당 100프레임으로 실시간 처리가 가능하다.

고성능, 저전력 임베디드 비디오 프로세서를 위한 YUV 인식 명령어의 시뮬레이션 (Simulation of YUV-Aware Instructions for High-Performance, Low-Power Embedded Video Processors)

  • 김철홍;김종면
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권5호
    • /
    • pp.252-259
    • /
    • 2007
  • 멀티미디어 응용과 무선통신 네트워크의 발전 속도가 급속하게 빨라짐에 따라 고성능, 저전력 멀티미디어 처리기술에 대한 소비자의 요구가 급증하고 있다. 이에 본 논문은 고성능, 저전력 임베디드 비디오 프로세서를 위한 YUV (Y: 휘도신호, U, V: 색차신호) 인식 명령어를 제안하고자 한다. 기존의 멀티미디어 전용 명령어 (e.g., MMX, SSE, VIS, AltiVec)는 일반적인 서브워드 병렬 기법을 이용하여 적당한 성능향상을 꾀하는 반면, 제안하는 YUV 인식 명령어는 두 쌍의 16-bit YUV (6-bit Y, 5-bits U, V) 데이타를 32-bit 레지스터에 저장하여 동시에 처리함으로써 칼라 비디오 처리 성능을 효율적으로 향상시킬 수 있다. 또한 데이타 포맷 사이즈를 줄임으로써 전체 시스템의 비용을 절감할 수 있다. 임베디드 슈퍼 스칼라 프로세서에서 모의 실험한 결과, YUV 인식 명령어 기반 프로그램은 baseline 프로그램에 비해 3.9배 성능 향상을 보인 반면, 동일한 프로세서 환경에서 Intel의 대표적인 멀티미디어 명령어인 MMX기반 프로그램은 baseline 프로그램보다 단지 2.1배의 성능 향상을 보인다. 또한 YUV 인식 명령어는 멀티미디어 애플리케이션에 대해 평균 75.8% 소모 에너지를 감소시킨 반면, MMX는 단지 54.8%의 소모 에너지를 감소시키는 결과를 보인다.

CRT를 이용한 하이래딕스 RSA 모듈로 멱승 처리기의 구현 (Implementation of High-radix Modular Exponentiator for RSA using CRT)

  • 이석용;김성두;정용진
    • 정보보호학회논문지
    • /
    • 제10권4호
    • /
    • pp.81-93
    • /
    • 2000
  • 본 논문에서는 RSA 암호 시스템의 핵심 연산인 모듈로 멱승의 처리속도를 향상시키기 위한 방법으로 하이래딕스 (High-Radix) 연산 방식과 CRT(Chinese Remainder Theorem)를 적용한 새로운 하드웨어 구조를 제안한다. 모듈로 멱승의 기본 연산인 모듈로 곱셈은 16진 연산 방법을 사용하여 PE(Processing Element)의 개수를 1/4고 줄임으로써, 기존의 이 진 연산 방식에 비해 클럭 수차 파이프라이닝 플립플롭의 지연시간을 1/4로 줄였다. 복호화시에는 합성수인 계수 N 의 인수, p, q를 알고 있는 점을 이용하여 속도를 향상시키는 일반적인 방법인 CRT 알고리즘을 적용하였다. 즉, s비트 의 키에 대해, s/2비트 모듈로 곱셈기 두 개를 병렬로 동시 수행함으로써 처리 속도를 CRT를 사용하지 않을 때보다 4 배정도 향상시켰다. 암호화의 경우는 두 개의 s/2비트 모듈로 곱셈기를 직렬로 연결하여 s/비트에 대한 연산이 가능하도록 하였으며 공개키는 E는 17비트까지의 지수를 허용하여 빠른 속도를 유지하였다. 모듈로 곱셈은 몽고메리 알고리즘을 변형하여 사용하였으며, 그 내부 계산 구조를 보여주는 데이터 종속 그래프(Dependence Graph)를 수평으로 매핑하여 1차원 선형 어레이 구조로 구성하였다. 그 결과 삼성 0.5um CMOS 스탠다드 셀 라이브러리를 근거로 산출한 때, 1024 비트 RSA 연산에 대해서 160Mhz의 클럭 주파수로 암호화 시에 15Mbps, 복호화 시에 1.22Mbs의 성능을 가질 것으로 예측되며, 이러한 성능은 지금가지 발표된 국내의의 어느 논문보다도 빠른 RSA 처리 시간이다.

통과대역에서 마이크로 리플과 선형 위상 특성을 갖는 폴리페이저 필터에 관한 연구 (A Study on the Polyphase Filter with Micro-ripple and almost Linear phase Characteristic in Pass-band)

  • 김승영;김남호
    • 한국정보통신학회논문지
    • /
    • 제4권3호
    • /
    • pp.627-633
    • /
    • 2000
  • 본 논문은 통과대역내에서 마이크로 리플 특성을 가지는 5차, 7차 폴리페이저 필터를 제시하였다. 이 필터는 병렬구조의 디지털 올패스 필터로 구성되어 있고, 단위원상에서 모든 영점을 가지는 반대역 필터이며, 하드웨어를 쉽게 구현하기 위해서 고정 소숫점 16bit 1.15 형식으로 계수를 정하였다. 그리고 필터의 성능을 입증하기 위해 각각의 branch상에서의 위상 특성을 비교 분석하였고, 통과대역과 저지대역의 위상 특성, 군지 연 특성 등을 시뮬레이션 하였으며, 그 결과 통과대역에서 마이크로 리플 특성과 선형 위상을 얻었다.

  • PDF

견실, 저지연 멀티트리 9.6Kbits/s 음성부호기에 관한 연구 (Robust, Low Delay Multi-tree Speech Coding at 9.6Kbits/sec)

  • 우홍체;문병현;이채욱
    • 한국통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.348-354
    • /
    • 1993
  • 본 논문에서는 음성의 short-term 계수 추출에 대한 새로운 방식을 제안하였으며, 데이타량 9.6Kbits/sec의 멀티 트리 부호기를 실현하였다. 이 트리 부호기는 총 지연시간 2.5msec을 (6.4KHz 샘플링 주파수에서 16샘플) 가지며, 좋은 출력 음질을 가지며, bit 오욜 (BER) $10^{-3}$에서도 견실한 상태를 유지한다. 이 견실성은 short-term 계수 추출을 위해 수신된 여기 신호를 smoothing 하여, 병렬 구성과 함께 사용하므로 가능 하였다. 이 부호기의 출력 음성은 SNR, SNRSEG, 그리고 듣기 시험으로 평가 되었다.

  • PDF

다층 기판 위에 표면실장된 SRAM 모듈 설계 제작 (The Design and Fabrication of SRAM Modules Surface Mounted on Multilayer Borads)

  • 김창연;지용
    • 전자공학회논문지A
    • /
    • 제32A권3호
    • /
    • pp.89-99
    • /
    • 1995
  • In this paper, we ecamined the effect that MCM-L technique influencess on the design and fabrication of multichip memory modules in increasing the packing desity of memory capacity and maximizing its electrical characteristics. For that purpose, we examined the effective methods of reducing the area of module layout and the wiring length with the variation of chip allocation and the number of wiring layers. We fabricated a 256K${\times}$8bit SRAM module with eight 32K${\times}$8bit SRAM chips. The routing experiment showed that we could optimize the area of module layout and wiring length by placing chips in a row, arranging module I/O pads parallel to chip I/O pads, and equalizing the number of terminal sides of module I/O's to that of chip I/O's. The routing was optimized when we used three wire layers in case of one sided chip mounting or five wire layers in case of double sided chip mounting. The fabricated modules showed 18.9 cm/cm$^{2}$ in wiring density, 65 % in substrate occupancy efficiency, and module substrate and functionally tested to find out the module working perfectly.

  • PDF

디지털/아날로그 입력을 통한 백게이트 튜닝 2.4 GHz VCO 설계 (A 2.4GHz Back-gate Tuned VCO with Digital/Analog Tuning Inputs)

  • 오범석;이대희;정웅
    • 한국전자파학회:학술대회논문집
    • /
    • 한국전자파학회 2003년도 종합학술발표회 논문집 Vol.13 No.1
    • /
    • pp.234-238
    • /
    • 2003
  • In this work, we have designed a fully integrated 2.4GHz LC-tuned voltage-controlled oscillator (VCO) with multiple tuning inputs for a $0.25-{\mu}m$ standard CMOS Process. The design of voltage-controlled oscillator is based on an LC-resonator with a spiral inductor of octagonal type and pMOS-varactors. Only two metal layer have been used in the designed inductor. The frequency tuning is achieved by using parallel pMOS transistors as varactors and back-gate tuned pMOS transistors in an active region. Coarse tuning is achieved by using 3-bit pMOS-varactors and fine tuning is performed by using back-gate tuned pMOS transistors in the active region. When 3-bit digital and analog inputs are applied to the designed circuits, voltage-controlled oscillator shows the tuning feature of frequency range between 2.3 GHz and 2.64 GHz. At the power supply voltage of 2.5 V, phase noise is -128dBc/Hz at 3MHz offset from the carrier, Total power dissipation is 7.5 mW.

  • PDF