• 제목/요약/키워드: Memory Bandwidth

검색결과 239건 처리시간 0.023초

Bandwidth-aware Memory Placement on Hybrid Memories targeting High Performance Computing Systems

  • Lee, Jongmin
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권8호
    • /
    • pp.1-8
    • /
    • 2019
  • Modern computers provide tremendous computing capability and a large memory system. Hybrid memories consist of next generation memory devices and are adopted in high performance systems. However, the increased complexity of the microprocessor makes it difficult to operate the system effectively. In this paper, we propose a simple data migration method called Bandwidth-aware Data Migration (BDM) to efficiently use memory systems for high performance processors with hybrid memory. BDM monitors the status of applications running on the system using hardware performance monitoring tools and migrates the appropriate pages of selected applications to High Bandwidth Memory (HBM). BDM selects applications whose bandwidth usages are high and also evenly distributed among the threads. Experimental results show that BDM improves execution time by an average of 20% over baseline execution.

Memory Design for Artificial Intelligence

  • Cho, Doosan
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제12권1호
    • /
    • pp.90-94
    • /
    • 2020
  • Artificial intelligence (AI) is software that learns large amounts of data and provides the desired results for certain patterns. In other words, learning a large amount of data is very important, and the role of memory in terms of computing systems is important. Massive data means wider bandwidth, and the design of the memory system that can provide it becomes even more important. Providing wide bandwidth in AI systems is also related to power consumption. AlphaGo, for example, consumes 170 kW of power using 1202 CPUs and 176 GPUs. Since more than 50% of the consumption of memory is usually used by system chips, a lot of investment is being made in memory technology for AI chips. MRAM, PRAM, ReRAM and Hybrid RAM are mainly studied. This study presents various memory technologies that are being studied in artificial intelligence chip design. Especially, MRAM and PRAM are commerciallized for the next generation memory. They have two significant advantages that are ultra low power consumption and nearly zero leakage power. This paper describes a comparative analysis of the four representative new memory technologies.

정지궤도 위성통신 환경모의를 위한 100 MHz 대역폭의 위성링크 시뮬레이터 개발 (Satellite Link Simulator Development in 100 MHz Bandwidth to Simulate Satellite Communication Environment in the Geostationary Orbit)

  • 이성재;김용선;한태균
    • 한국군사과학기술학회지
    • /
    • 제14권5호
    • /
    • pp.842-849
    • /
    • 2011
  • The transponder simulator designed to simulate the transponder of military satellite communication systems in the geostationary orbit is required to have time delay function, because of 250 ms delay time, when a radio wave transmits the distance of 36,000 km in free space. But, it is very difficult to develop 250 ms time delay device in the transponder simulator of 100 MHz bandwidth, due to unstable operation of FPGA, loss of memory data for the high speed rate signal processing. Up to date, bandwidth of the time delay device is limited to 45 MHz bandwidth. To solve this problem, we propose the new time delay techniques up to 100 MHz bandwidth without data loss. Proposed techniques are the low speed down scaling and high speed up scaling methods to read and write the external memory, and the matrix structure design of FPGA memory to treat data as high speed rate. We developed the satellite link simulator in 100 MHz bandwidth using the proposed new time delay techniques, implemented to the transponder simulator and verified the function of 265 ms time delay device in 100 MHz bandwidth.

GPU 에서의 고속 스테레오 정합을 위한 메모리 효율적인 Belief Propagation (Memory-Efficient Belief Propagation for Stereo Matching on GPU)

  • 최영규;윌리엄;박인규
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 추계학술대회
    • /
    • pp.52-53
    • /
    • 2012
  • Belief propagation (BP) is a commonly used global energy minimization algorithm for solving stereo matching problem in 3D reconstruction. However, it requires large memory bandwidth and data size. In this paper, we propose a novel memory-efficient algorithm of BP in stereo matching on the Graphics Processing Units (GPU). The data size and transfer bandwidth are significantly reduced by storing only a part of the whole message. In order to maintain the accuracy of the matching result, the local messages are reconstructed using shared memory available in GPU. Experimental result shows that there is almost an order of reduction in the global memory consumption, and 21 to 46% saving in memory bandwidth when compared to the conventional algorithm. The implementation result on a recent GPU shows that we can obtain 22.8 times speedup in execution time compared to the execution on CPU.

  • PDF

BLOCK-BASED ADAPTIVE BIT ALLOCATION FOR REFENCE MEMORY REDUCTION

  • Park, Sea-Nae;Nam, Jung-Hak;Sim, Dong-Gy;Joo, Young-Hun;Kim, Yong-Serk;Kim, Hyun-Mun
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2009년도 IWAIT
    • /
    • pp.258-262
    • /
    • 2009
  • In this paper, we propose an effective memory reduction algorithm to reduce the amount of reference frame buffer and memory bandwidth in video encoder and decoder. In general video codecs, decoded previous frames should be stored and referred to reduce temporal redundancy. Recently, reference frames are recompressed for memory efficiency and bandwidth reduction between a main processor and external memory. However, these algorithms could hurt coding efficiency. Several algorithms have been proposed to reduce the amount of reference memory with minimum quality degradation. They still suffer from quality degradation with fixed-bit allocation. In this paper, we propose an adaptive block-based min-max quantization that considers local characteristics of image. In the proposed algorithm, basic process unit is $8{\times}8$ for memory alignment and apply an adaptive quantization to each $4{\times}4$ block for minimizing quality degradation. We found that the proposed algorithm could improve approximately 37.5% in coding efficiency, compared with an existing memory reduction algorithm, at the same memory reduction rate.

  • PDF

JPEG2000의 웨이블릿 변환용 메모리 크기 및 대역폭 감소를 위한 새로운 Embedded Compression 알고리즘 (A New Embedded Compression Algorithm for Memory Size and Bandwidth Reduction in Wavelet Transform Appliable to JPEG2000)

  • 손창훈;송성근;김지원;박성모;김명민
    • 한국멀티미디어학회논문지
    • /
    • 제14권1호
    • /
    • pp.94-102
    • /
    • 2011
  • JPEG2000 시스템에서 요구하는 메모리의 크기와 대역폭을 감소시키기 위하여 본 논문은 약간의 화질 손실이 있는 새로운 임베디드 압축(Embedded Compression) 알고리즘을 제안한다. 또한, 메모리 내의 압축된 데이터에 임의 접근성(Random Accessibility)과 짧은 지연 시간(Latency)을 보장하기 위해서 매우 단순하면서도 효율적인 하다마드(Hadamard) 변환 기반의 부호화 방식을 제안한다. JPEG2000 표준안의 알고리즘에 변경을 주지 않고, 제안한 EC 알고리즘을 통해 LL 임시 메모리의 크기와 코드블록 메모리의 크기를 약 2 배로 줄이며, 약 52~73%의 메모리 대역폭을 감소시킬 수 있다.

A Study on Efficient Use of Dual Data Memory Banks in Flight Control Computers

  • Cho, Doosan
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제9권1호
    • /
    • pp.29-34
    • /
    • 2017
  • Over the past several decades, embedded system and flight control computer technologies have been evolved to meet the diverse needs of the mobile device market. Current embedded systems are at the heart of technologies that can take advantage of small-sized specialized hardware while still providing high-efficiency performance at low cost. One of these key technologies is multiple memory banks. For example, a dual memory bank can provide two times more memory bandwidth in the same memory space. This benefit take lower cost to provide the same bandwidth. However, there is still few software technologies to support the efficient use of multiple memory banks. In this study, we present a technique to efficiently exploit multiple memory banks by software support. Specifically, our technique use an interference graph to optimally allocate data to different memory banks by an optimizing compiler. As a result, the execution time can be improved upto 7% with the proposed technique.

JPEG2000 시스템의 코드블록 메모리 크기 및 대역폭 감소를 위한 Multi-mode Embedded Compression 알고리즘 및 구조 (Multi-mode Embedded Compression Algorithm and Architecture for Code-block Memory Size and Bandwidth Reduction in JPEG2000 System)

  • 손창훈;박성모;김영민
    • 대한전자공학회논문지SD
    • /
    • 제46권8호
    • /
    • pp.41-52
    • /
    • 2009
  • Motion JPEG2000과 같은 동영상 압축 시스템에서는 데이터 메모리에 대한 빈번한 접근이 전체 시스템에 큰 병목 현상이 된다. 이처럼 시스템에서 요구하는 메모리의 대역폭을 감소시키기 위해서, 본 논문은 약간의 화질 손실이 있는 새로운 embedded compression(EC) 알고리즘과 구조를 고안하였다. 또한, 메모리 내의 압축된 데이터에 임의 접근성(Random Accessibility)과 짧은 지연 시간(Latency)을 보장하기 위해서 매우 단순하면서도 효율적인 entropy 부호화 방법을 제안하였다. 본 논문에서는 JPEG2000 표준안 알고리즘에는 어떠한 변경도 하지 않으면서, 제안한 multi-mode 알고리즘을 통해 JPEG2000 시스템에서 요구하는 메모리의 대역폭의 감소(약 52${\sim}$81%) 와 코드블록 메모리의 크기를 약 2 배 이상 감소시킬 수 있었다.

HEVC 복호화기의 메모리 접근 복잡도 분석 (An Analysis of Memory Access Complexity for HEVC Decoder)

  • 조송현;김영남;송용호
    • 전자공학회논문지
    • /
    • 제51권5호
    • /
    • pp.114-124
    • /
    • 2014
  • HEVC는 JCT-VC에 의해 개발된 최신 비디오 코딩 표준이다. HEVC는 H.264/AVC에 비해 약 2배의 주관적 코딩효율을 제공한다. HEVC 개발의 주요목표 중 하나는 UHD급 비디오를 효율적으로 코딩하는 것이기 때문에, HEVC는 UHD급 비디오를 코딩하는데 널리 사용될 것으로 예측된다. 이러한 고해상도 비디오의 복호화는 많은 양의 메모리 접근을 발생시키기 때문에 복호화 시스템은 고대역폭의 메모리 시스템 및 내부 통신 아키텍처가 필요하다. 이러한 요구사항을 파악하기 위해서 본 논문은 HEVC 복호화기의 메모리 접근 복잡도를 분석한다. 우리는 먼저 임베디드 프로세서와 데스크탑에서 동작하는 소프트웨어 HEVC 복호화기의 메모리 접근량을 측정하였다. 또한 우리는 HEVC 복호화기의 데이터흐름을 분석하여 HEVC 복호화기의 메모리 대역폭 모델을 만들었다. 측정결과, 소프트웨어 복호화기는 6.9~40.5GB/s의 DRAM 접근을 하였다. 또한 분석결과에 따르면 하드웨어 복호화기는 2.4GB/s의 DRAM 대역폭을 요구하는 것으로 파악된다.

DPCM-GR 방식을 이용한 CUDA 기반 초고해상도 게임 영상 무손실 비동기 압축 (CUDA based Lossless Asynchronous Compression of Ultra High Definition Game Scenes using DPCM-GR)

  • 김영식
    • 한국게임학회 논문지
    • /
    • 제14권6호
    • /
    • pp.59-68
    • /
    • 2014
  • 초고해상도 UHD($096{\times}2160$) 게임 영상의 메모리 대역폭 요구량은 기하급수적으로 늘어난다. 본 논문에서는 화질 저하 없이 메모리 대역폭 문제를 해결하기 위하여 CUDA 환경에서 비트 병렬 파이프라인을 지원하는 논문 [4]의 DDPCM-GR 압축 알고리즘을 변형한 DPCM-GR 방식을 적용한 무손실 압축을 구현하였다. CUDA 공유메모리 사용을 통한 효율성을 증대하였으며, paged-locked 호스트 메모리 비동기 전송을 통한 커널과 데이터 전송 중첩의 다양한 구성을 구현하였다. 실험을 통하여 CPU 방식에 비하여 최대 31.3배 속도 향상을 이루었으며, 비동기 전송 구성의 변화를 통하여 최대 30.3% 수행 시간이 감소하였다.