• 제목/요약/키워드: Memory Bandwidth

검색결과 239건 처리시간 0.027초

NOC 인터커넥트를 활용한 메모리 반도체 병렬 테스트 효율성 개선 (Improving Parallel Testing Efficiency of Memory Chips using NOC Interconnect)

  • 홍찬의;안진호
    • 전기학회논문지
    • /
    • 제68권2호
    • /
    • pp.364-369
    • /
    • 2019
  • Generally, since memory chips should be tested all, considering its volume, the reduction in test time for detecting faults plays an important role in reducing the overall production cost. The parallel testing of chips in one ATE is a competitive solution to solve it. In this paper, NOC is proposed as test interface architecture between DUTs and ATE. Because NOC can be extended freely, there is no limit on the number of DUTs tested at the same time. Thus, more memory can be tested with the same bandwidth of ATE. Furthermore, the proposed NOC-based parallel test method can increase the efficiency of channel usage by packet type data transmission.

Implementing I/O Bandwidth Sharing Scheme between Multiple Linux Containers based on Dm-zoned for Zoned Namespace SSDs

  • Seokjun Lee;Sungyong Ahn
    • International journal of advanced smart convergence
    • /
    • 제12권4호
    • /
    • pp.237-245
    • /
    • 2023
  • In the cloud service, system resource such as CPU, memory, I/O bandwidth are shared among multiple users. Particularly, in Linux containers environment, I/O bandwidth is distributed in proportion to the weight of each container through the BFQ I/O scheduler. However, since the I/O scheduler can only be applied to conventional block storage devices, it cannot be applied to Zoned Namespace(ZNS) SSD, a new storage interface that has been recently studied. To overcome this limitation, in this paper, we implemented a weighted proportional I/O bandwidth sharing scheme for ZNS SSDs in dm-zoned, which emulates conventional block storage using ZNS SSDs. Each user receives a different amount of budget, which is required to process the user's I/O requests based on the user's weight. If the budget is exhausted I/O requests cannot be processed and requests are queued until the budget replenished. Each budget refill period, the budget is replenished based on the user's weight. In the experiment, as a result, we can confirm that the I/O bandwidth can be distributed on their weight as we expected.

CUDA를 이용한 효율적인 합산 영역 테이블의 생성 방법 (Bandwidth Efficient Summed Area Table Generation for CUDA)

  • 하상원;최문희;전태준;김진우;변혜란;한탁돈
    • 한국게임학회 논문지
    • /
    • 제12권5호
    • /
    • pp.67-78
    • /
    • 2012
  • 합산 영역 테이블은 모든 픽셀에 대해 임의의 크기 사각영역의 이미지 필터링 처리를 일정시간 안에 가능케 한다. 이러한 특성은 각각의 픽셀에 대해서 주변 픽셀의 밝기의 합 혹은 평균을 필요로 하는 이미지 처리 적용 분야에 유용하게 쓰일 수 있다. 합산 영역 테이블의 생성은 단지 행 혹은 열 단위의 합만을 구하는 메모리 바운드 작업임에도 불구하고 기존 연구들은 이미 존재하는 데이터 병렬성만을 활용하기 위하여 대기 시간이 긴 전역 메모리에 과도한 접근을 하여야만 했다. 본 논문에서는 입력 데이터를 정방의 서브 이미지로 분할하고 매개 데이터를 이들 간에 파급시킴으로써 GPGPU 환경 적합한 알고리즘을 제안하고자 한다. 이를 통하여 기존 방법 대비 전역 메모리 접근 량을 거의 반으로 줄임으로써 주어진 메모리 대역폭을 효율적으로 사용한다. 결과에서도 성능이 대폭 향상되었다.

웨이블릿 변환의 메모리 크기와 대역폭 감소를 위한 Prediction 기반의 Embedded Compression 알고리즘 (A New Predictive EC Algorithm for Reduction of Memory Size and Bandwidth Requirements in Wavelet Transform)

  • 최우수;손창훈;김지원;나승유;김영민
    • 한국멀티미디어학회논문지
    • /
    • 제14권7호
    • /
    • pp.917-923
    • /
    • 2011
  • 본 논문에서는 JPEG2000 부호화 시스템의 과도한 메모리 요구 사항을 감소시키기 위해 예측 부호화 기반의 새로운 임베디드 압축(Embedded Compression, EC) 알고리즘을 제안한다. 본 논문의 EC 기법은 EC가 적용되지 않은 DWT 프로세서와 비교하여 DWT 과정에서 발생하는 임시적인 저주파 웨이블릿 계수들의 메모리 접근 및 크기를 50 %로 줄일 수 있다. 무손실의 영상 압축 시스템에 널리 쓰이면서 단순하지만 좋은 성능을 갖는 LOCO-I(LOw COmplexity LOssless COmpression for Image)와 MAP(Median Adaptive Predictor) 예측기를 제안한 EC 알고리즘에 적용하였다. 제안한 예측 기반의 EC 알고리즘은 예측 오차 값들을 인코딩하기 위하여 포워드 적응형 양자화와 고정 길이 코드를 사용한다. 시뮬레이션 결과를 통해 예측기가 LOCO-I와 MAP인 경우, 본 논문에서 제안한 EC 알고리즘에 의한 평균적인 PSNR 저하는 각각 0.48 dB와 0.26 dB임을 알 수 있다. 선행 논문 [9]에서 제안한 하다마드 변환(MHT) 기반의 EC 알고리즘과 비교하여 평균적인 PSNR이 약 1.39 dB 향상된다.

컬러 디모자이킹이 결합된 저 복잡도의 실시간 배럴 왜곡 보정 프로세서 (A Low-Complexity Real-Time Barrel Distortion Correction Processor Combined with Color Demosaicking)

  • 정희성;박윤주;김태환
    • 전자공학회논문지
    • /
    • 제51권9호
    • /
    • pp.57-66
    • /
    • 2014
  • 본 논문에서는 컬러 영상을 실시간 신호 처리 과정을 통해 보정하기 위한 낮은 복잡도의 배럴 왜곡 보정 프로세서의 구조를 제시하고, 이를 구현한 결과를 보인다. 제안하는 배럴 왜곡 보정 프로세서는 컬러 디모자이킹과 배럴 왜곡 보정 과정의 두 보간과정을 결합하여 하드웨어 복잡도를 낮추었다. 또한 배럴 왜곡 보정 과정의 공간적 지역성을 이용한 메모리 인터페이스를 설계하여 한 픽셀을 보정하는데 요구되는 메모리 대역폭을 크게 감소시켰다. 설계된 보정 프로세서는 $0.11-{\mu}m$ CMOS 공정을 사용하여 35K의 논리 게이트로 구현되었고, $2048{\times}2048$ 크기의 컬러 영상을 최대 606 MHz의 동작 주파수로 150 Mpixels/s의 속도로 보정할 수 있으며, 요구되는 메모리 대역폭은 1 read/correction이다.

Adaptive Memory Controller for High-performance Multi-channel Memory

  • Kim, Jin-ku;Lim, Jong-bum;Cho, Woo-cheol;Shin, Kwang-Sik;Kim, Hoshik;Lee, Hyuk-Jun
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제16권6호
    • /
    • pp.808-816
    • /
    • 2016
  • As the number of CPU/GPU cores and IPs in SOC increases and applications require explosive memory bandwidth, simultaneously achieving good throughput and fairness in the memory system among interfering applications is very challenging. Recent works proposed priority-based thread scheduling and channel partitioning to improve throughput and fairness. However, combining these different approaches leads to performance and fairness degradation. In this paper, we analyze the problems incurred when combining priority-based scheduling and channel partitioning and propose dynamic priority thread scheduling and adaptive channel partitioning method. In addition, we propose dynamic address mapping to further optimize the proposed scheme. Combining proposed methods could enhance weighted speedup and fairness for memory intensive applications by 4.2% and 10.2% over TCM or by 19.7% and 19.9% over FR-FCFS on average whereas the proposed scheme requires space less than TCM by 8%.

계층적 메모리 구성에 따른 GPU 성능 분석 (Analysis on the GPU Performance according to Hierarchical Memory Organization)

  • 최홍준;김종면;김철홍
    • 한국콘텐츠학회논문지
    • /
    • 제14권3호
    • /
    • pp.22-32
    • /
    • 2014
  • 병렬 연산에 최적화된 하드웨어를 가진 GPU를 그래픽스 작업 이외에 범용 작업에 활용하고자, 최근에 GPGPU 기술이 큰 관심을 받고 있다. GPU와 같은 대용량 병렬처리 장치에서는 메모리 시스템이 성능에 큰 영향을 미치게 된다. GPU에서는 메모리 시스템의 효율성을 향상시키기 위하여, 메모리 대역폭 사용률을 감소시켜주는 계층적 메모리 구조와 메모리를 요청하는 트랜잭션을 줄여주는 메모리 주소 접합과 메모리 요청 합병 등의 기술들을 사용한다. 본 논문에서는 메모리 시스템 효율성 향상을 위해 활용되는 기법들이 GPU 성능에 미치는 영향을 정량적으로 평가하고 분석하기 위해, 다양한 메모리 구조에 대한 실험을 수행한다. 실험 결과에 따르면, 캐쉬를 사용하지 않는 경우에 비해 8KB, 16KB, 32KB, 64KB의 L1 캐쉬를 추가하면 평균적으로 15.5%, 21.5%, 25.5%, 30.9%의 성능이 각각 향상된다. 하지만, 일부 벤치마크 프로그램에서는 데이터 일관성을 유지하기 위하여 메모리 트랜잭션이 증가함에 따라 오히려 성능이 감소하는 결과를 보이기도 한다. 그리고 메모리 요청에 대한 미스가 많이 발생하는 경우에는 캐쉬 레벨이 증가함에 따라 평균 메모리 접근 지연 시간이 증가하기도 한다.

H.264 복호기에서 움직임 보상기와 연계하여 메모리 접근면에서 효율적인 인트라 예측기 설계 (Design of Memory-Access-Efficient H.264 Intra Predictor Integrated with Motion Compensator)

  • 박종식;이성수
    • 대한전자공학회논문지SD
    • /
    • 제45권6호
    • /
    • pp.37-42
    • /
    • 2008
  • H.264/AVC 복호기에서는 인트라 예측기 뿐만 아니라 움직임 보상기, 디블럭킹 필터 등 각 IP들이 복호화를 위한 참조 영상 값들을 필요로 한다. 이들 IP들은 참조 영상을 읽어들이기 위하여 외부 메모리에 빈번하게 접근하는데, 이때문에 시스템 동작 속도도 낮아지고 전력 소모도 증가한다. 본 논문에서는 공통적이고 반복적인 블록의 재사용을 통하여 연산량을 줄이고 전력 소모 및 메모리 대역폭을 최소화하도록 외부 메모리를 사용하지 않는 움직임 보상기와 연계한 인트라 예측기를 제안하였다. 제안된 인트라 예측기는 기존에 비해 $45%\;{\sim}\;75%$ 가량 사이클 수를 감소시켰다.

다중처리기 시스템의 시뮬레이션에 관한 연구 (A Study on Simulation of A Multiprocessor System)

  • 박찬정;신인철;이상범
    • 대한전자공학회논문지
    • /
    • 제27권10호
    • /
    • pp.78-88
    • /
    • 1990
  • 본 논문은 다중 버스 상호 적속망을 갖는 다중처리기 시스템에서, 기억장치 접근 요구의 경쟁에 의하여 영향을 받는 시스템의 성능을 평가하기 위하여 이산 사건 모델을 구성하였다. 또한 시스템의 해석적 모델과 시뮬레이터 모델을 구성하여 해석적 모델의 결과와 시뮬레이터 모델의결과를 상호 검증하였다. 검증 방법으로는 프로세서의 수, 기억장치 모듈의 수, 버스의 수와 국부 기억장치 실패율을 입력인수로 하여 기억장치 밴드폭, 프로세서, 기억장치 모듈 및 버스의 이용율, 버스 상호 충돌의 정도를 결정할 수 있었다. 따라서 시스템을 설RP할 때 시뮬레이션을 통하여 입력인수의 상호작용을 해석함으로써 시스템의 성능을 평가할 수 있게 된다.

  • PDF

An Energy-Efficient Matching Accelerator Using Matching Prediction for Mobile Object Recognition

  • Choi, Seongrim;Lee, Hwanyong;Nam, Byeong-Gyu
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제16권2호
    • /
    • pp.251-254
    • /
    • 2016
  • An energy-efficient object matching accelerator is proposed for mobile object recognition based on matching prediction scheme. Conventionally, vocabulary tree has been used to save the external memory bandwidth in object matching process but involved massive internal memory transactions to examine each object in a database. In this paper, a novel object matching accelerator is proposed based on matching predictions to reduce unnecessary internal memory transactions by mitigating non-target object examinations, thereby improving the energy-efficiency. Experimental results show a 26% reduction in power-delay product compared to the prior art.