• 제목/요약/키워드: Memory Bandwidth

검색결과 240건 처리시간 0.024초

쓰기 횟수 감소를 위한 하이브리드 캐시 구조에서의 캐시간 직접 전송 기법에 대한 연구 (A Study on Direct Cache-to-Cache Transfer for Hybrid Cache Architecture to Reduce Write Operations)

  • 최주희
    • 반도체디스플레이기술학회지
    • /
    • 제23권1호
    • /
    • pp.65-70
    • /
    • 2024
  • Direct cache-to-cache transfer has been studied to reduce the latency and bandwidth consumption related to the shared data in multiprocessor system. Even though these studies lead to meaningful results, they assume that caches consist of SRAM. For example, if the system employs the non-volatile memory, the one of the most important parts to consider is to decrease the number of write operations. This paper proposes a hybrid write avoidance cache coherence protocol that considers the hybrid cache architecture. A new state is added to finely control what is stored in the non-volatile memory area, and experimental results showed that the number of writes was reduced by about 36% compared to the existing schemes.

  • PDF

Low-latency SAO Architecture and its SIMD Optimization for HEVC Decoder

  • Kim, Yong-Hwan;Kim, Dong-Hyeok;Yi, Joo-Young;Kim, Je-Woo
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제3권1호
    • /
    • pp.1-9
    • /
    • 2014
  • This paper proposes a low-latency Sample Adaptive Offset filter (SAO) architecture and its Single Instruction Multiple Data (SIMD) optimization scheme to achieve fast High Efficiency Video Coding (HEVC) decoding in a multi-core environment. According to the HEVC standard and its Test Model (HM), SAO operation is performed only at the picture level. Most realtime decoders, however, execute their sub-modules on a Coding Tree Unit (CTU) basis to reduce the latency and memory bandwidth. The proposed low-latency SAO architecture has the following advantages over picture-based SAO: 1) significantly less memory requirements, and 2) low-latency property enabling efficient pipelined multi-core decoding. In addition, SIMD optimization of SAO filtering can reduce the SAO filtering time significantly. The simulation results showed that the proposed low-latency SAO architecture with significantly less memory usage, produces a similar decoding time as a picture-based SAO in single-core decoding. Furthermore, the SIMD optimization scheme reduces the SAO filtering time by approximately 509% and increases the total decoding speed by approximately 7% compared to the existing look-up table approach of HM.

Meshfree/GFEM in hardware-efficiency prospective

  • Tian, Rong
    • Interaction and multiscale mechanics
    • /
    • 제6권2호
    • /
    • pp.197-210
    • /
    • 2013
  • A fundamental trend of processor architecture evolving towards exaflops is fast increasing floating point performance (so-called "free" flops) accompanied by much slowly increasing memory and network bandwidth. In order to fully enjoy the "free" flops, a numerical algorithm of PDEs should request more flops per byte or increase arithmetic intensity. A meshfree/GFEM approximation can be the class of the algorithm. It is shown in a GFEM without extra dof that the kind of approximation takes advantages of the high performance of manycore GPUs by a high accuracy of approximation; the "expensive" method is found to be reversely hardware-efficient on the emerging architecture of manycore.

SoC 메모리 대역폭을 줄이기 위한 준- 비손실 압축 알고리즘 (Near- lossless Compression Algorithm for Reducing Memory Bandwidth of SoC)

  • 최지훈;송병철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 하계학술대회
    • /
    • pp.262-263
    • /
    • 2018
  • 최근 디스플레이 크기 및 영상 해상도가 커짐에 따라 디스플레이와 외부 메모리 간 대역폭이 큰 부담이 되고 있다. 본 논문은 이런 문제를 해결하기 위해 라인 단위 영상 압축 기법을 제안한다. 방향성 인트라 예측, 컬러 성분 간 보상 등으로 구성된 제안기법은 50dB 정도 PSNR 에서 최대 12:1 정도의 압축률을 보인다.

  • PDF

High-Bandwidth DRAM용 온도 및 전원 전압에 둔감한 1Gb/s CMOS Open-Drain 출력 구동 회로 (A Temperature- and Supply-Insensitive 1Gb/s CMOS Open-Drain Output Driver for High-Bandwidth DRAMs)

  • 김영희;손영수;박홍준;위재경;최진혁
    • 대한전자공학회논문지SD
    • /
    • 제38권8호
    • /
    • pp.54-61
    • /
    • 2001
  • High-bandwidth DRAM을 위해 1Gb/s의 데이터 전송률까지 동작하고 그 출력 전압 스윙이 온도와 전원 전압(VDD) 변동에 무관한 CMOS open-drain 출력 구조 회로를 설계하였다. 출력 구동 회로는 여섯 개의 binary-weighted NMOS 트랜지스터로 구성되는데, 이 여섯 개 중에서 ON시킬 current control register의 내용은 추가 호로 없이 DRAM 칩에 존재하는 auto refresh 신호를 이용하여 새롭게 수정하였다. Auto refresh 시간 구간동안 current control register를 수정하는데, 이 시간 구간동안 부궤환 (negative feedback) 동작에 의해 low level 출력 전압($V_OL$)이 저전압 밴드갭 기준전압 발생기(bandgap reference voltage generator)에 의해서 만들어진 기준전압($V_{OL.ref}$)과도 같도록 유지된다. 테스트 칩은 1Gb/s의 데이터 전송률까지 성공적으로 동작하였다. 온도 $20^{\circ}C$~$90^{\circ}C$, 전원 전압 2.25V~2.75V영역에서 최악의 경우 제안된 출력 구동 회로의 $V_{OL.ref}$$V_OL$의 변동은 각각 2.5%와 725%로 측정된 반면, 기존의 출력 구동 회로의 $V_OL$의 변동은 같은 온도의 전원 접압의 영역에 대해 24%로 측정되었다.

  • PDF

XOR연산 기반의 데이터 재구성 기법을 활용한 컨볼루셔널 뉴럴 네트워크 성능 향상 기법 (Techniques for Performance Improvement of Convolutional Neural Networks using XOR-based Data Reconstruction Operation)

  • 김영웅
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권1호
    • /
    • pp.193-198
    • /
    • 2020
  • 컨볼루셔널 뉴럴 네트워크 기술의 다양한 활용은 컴퓨팅 분야의 발전을 가속화하고 있으나, 이에 대한 반대급부로 심각한 하드웨어 성능 부족을 초래하고 있다. 그 대응책으로 뉴럴 네트워크 가속기, 차세대 메모리 소자 기술, 그리고 고대역폭 메모리 구조 등이 제안되었으나, 이들은 각각 범용성, 기술 성숙도, 그리고 높은 비용의 문제를 야기하여 적극적으로 도입되기 어려운 실정이다. 따라서 현재의 하드웨어 범용성을 그대로 유지하면서도 컨볼루셔널 뉴럴 네트워크 기술의 성능을 증대시킬 수 있는 방안이 필요하다. 본 연구는 메인메모리 내부에서 리프레쉬 동작이 수행되는 상황에서도 미리 저장된 XOR 비트 값을 사용하여 리프레쉬 동작의 종료 시점까지 대기하지 않아도 읽기 동작을 완료할 수 있는 DRAM 기반 메인메모리 기술을 제안한다. 실험 결과 제안 기법은 5.8%의 수행 속도 향상 및 1.2%의 에너지 절감, 그리고 10.6%의 EDP 향상을 보여주었다.

고화질 영상에서 고속 안개 제거를 위한 SIMD 구조에 적합한 병렬메모리 (A Parallel Memory Suitable for SIMD Architecture Processing High-Definition Image Haze Removal in High-Speed)

  • 이형
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권7호
    • /
    • pp.9-16
    • /
    • 2014
  • Dark channel prior를 이용한 안개제거 알고리즘으로 만족할만한 연구결과가 발표된 이후로 이 알고리즘의 처리 속도를 높이기 위한 많은 연구들이 진행되었다. 이들 중에서 median dark channel prior를 이용한 알고리즘이 주목을 받고 있지만 여전히 낮은 처리속도의 한계를 갖고 있다. 그래서 본 논문에서는 고화질 영상에서 고속 안개 제거를 위한 SIMD 구조에 적합한 병렬메모리 모델을 제안한다. 제안하는 병렬메모리 모델은 n개의 화소들에 동시에 접근할 수 있으며, 3, 5, 7 또는 11의 크기를 갖는 4가지 종류의 median filter를 위한 간격들을 허용한다. 그래서 충분한 데이터 대역폭을 지원하기에 median dark channel prior를 이용한 알고리즘을 고속으로 처리할 수 있다.

Multi-Access Memory System을 이용한 3D 그래픽 프로세서 제안 (Proposal of 3D Graphic Processor Using Multi-Access Memory System)

  • 이스라엘;김재희;고경식;박종원
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.119-128
    • /
    • 2019
  • 3D 그래픽 프로세서의 시스템의 특성상 많은 수학적 계산이 요구되면서 고속처리를 위하여 GPU(Graphics Processing Unit)를 이용한 병렬처리 연구가 많이 진행되고 있다. 본 논문에서는 GPU에서 발생하는 문제점 중 캐시메모리 미스에 의하여 발생하는 대역폭 증가와 3D 셰이더 처리 속도가 일정하지 않은 문제점을 해결하기 위하여 캐시메모리를 사용하지 않는 병렬처리기인 MAMS를 이용한 3D 그래픽 프로세서를 제안한다. 본 논문에서 제안된 MAMS를 이용한 3D 그래픽 프로세서는 DirectX 명령 분석을 이용해 Vertex shader, Pixel shader와 Tiling 및 Rasterizing 구조를 설계 하였고, MAMS를 위한 FPGA(Xilinx Virtex6@100MHz) 보드를 구성하여, Verilog를 사용하여 설계된 구조를 개발하였다. 개발된 FPGA(100Mhz)와 nVidia GeForce GTX 660(980Mhz)의 처리시간을 확인한 결과 GTX 660를 이용한 처리 시간은 일정하지 않음을 확인하였고, MAMS를 이용한 처리 시간은 일정함을 확인하였다.

멀티캐스트 기반의 VOD 시스템에서 MPEG의 특성을 고려한 VCR 기능의 설계 (Design of VCR Functions With MPEG Characteristics for VOD based on Multicast)

  • 이좌형;정인범
    • 정보처리학회논문지C
    • /
    • 제16C권4호
    • /
    • pp.487-494
    • /
    • 2009
  • VOD(Video On Demand) 시스템은 실시간으로 사용자의 요구를 받아들여 동영상 서비스를 제공하는 시스템으로서 크게 서비스를 제공하는 서버와 사용자의 요구를 처리하는 클라이언트로 구성된다. 하나의 서버에서 다수의 사용자에게 1:1로 서비스를 제공하기에는 네트워크 대역폭의 제약이 크기 때문에 이를 해결하기 위한 다양한 연구들이 진행되어왔다. 그 동안 제안된 다양한 멀티캐스트 기반의 VOD시스템들 중에서 Batching방식의 VOD시스템이 단순하면서 네트워크 부하가 적은 것으로 알려져 있다. 하지만 Batching방식에 의한 VOD시스템에서는 VCR(Video Cassette Recorder)기능을 제공하기 어렵기 때문에 VOD시스템의 On-Demand 특성을 제대로 제공하지 못하는 단점이 있다. 본 논문에서는 대표적인 동영상 압축표준인 MPEG의 특성을 이용하여 VCR기능을 제공하기 위해 필요한 대역폭을 최소화하는 기법을 제안한다. 제안하는 기법에서는 MPEG로 압축된 동영상에서 독립적 재생이 가능한 I픽쳐만 추출하여 빠른 재생을 위한 데이터를 별도로 구성한다. 이렇게 구성된 빠른 재생을 위한 데이터와 일반적인 재생을 위한 데이터 모두 Batching방식으로 멀티캐스팅으로 전송한다. 성능분석을 통하여 제안된 기법을 사용할 경우 클라이언트의 버퍼요구량과 네트워크 사용량을 줄이고 이와 더불어 CPU사용량도 줄어드는 것을 확인하였다.

확장형 디스플레이를 위한 분산 렌더링 시스템의 네트워크 대역폭 감소 기법 (A New Network Bandwidth Reduction Method of Distributed Rendering System for Scalable Display)

  • 박우찬;이원종;김형래;김정우;한탁돈;양성봉
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권10호
    • /
    • pp.582-588
    • /
    • 2002
  • 확장형 디스플레이(Scalable Display)는 큰 화면과 높은 화질의 영상을 생성하여 사용자들에게 보다 현실적인 느낌을 주고 이에 몰입할 수 있는 환경을 제공하는 시스템이다. 최근 들어서 이러한 확장형 디스플레이는 자체 그래픽 가속기와 메모리, CPU, 저장장치를 갖는 개별 PC들을 네트워크로 연결한 클러스터 환경에서 구축되고 있다. 하지만 클러스터 환경에서 분산 렌더링을 수행하면 제한된 대역폭 때문에 네트워크 병목점을 갖게 된다. 본 논문은 이러한 네트워크 트래픽을 줄이는 새로운 알고리즘을 제안하고, 이를 기존의 분산 렌더링 시스템에 적용하여 구현한 내용을 소개한다. 제안하는 기하 추적(geometry tracking) 알고리즘은 전송되는 데이터들을 색인화하여 중복된 기하정보 전송을 방지하여 네트워크 부하를 줄이는 방법으로, 실험을 통해서 최대 42%까지 네트워크 트래픽을 감소시킬 수 있었다.