• Title/Summary/Keyword: 메모리 뱅크

Search Result 38, Processing Time 0.031 seconds

An Improvement MPEG-2 Video Encoder Through Efficient Frame Memory Interface (효율적인 프레임 메모리 인터페이스를 통한 MPEG-2 비디오 인코더의 개선)

  • 김견수;고종석;서기범;정정화
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.24 no.6B
    • /
    • pp.1183-1190
    • /
    • 1999
  • This paper presents an efficient hardware architecture to improve the frame memory interface occupying the largest hardware area together with motion estimator in implementing MPEG-2 video encoder as an ASIC chip. In this architecture, the memory size for internal data buffering and hardware area for frame memory interface control logic are reduced through the efficient memory map organization of the external SDRAM having dual bank and memory access timing optimization between the video encoder and external SDRAM. In this design, 0.5 m, CMOS, TLM (Triple Layer Metal) standard cells are used as design libraries and VHDL simulator and logic synthesis tools are used for hardware design add verification. The hardware emulator modeled by C-language is exploited for various test vector generation and functional verification. The architecture of the improved frame memory interface occupies about 58% less hardware area than the existing architecture[2-3], and it results in the total hardware area reduction up to 24.3%. Thus, the (act that the frame memory interface influences on the whole area of the video encoder severely is presented as a result.

  • PDF

Performance Evaluation and Optimization of Dual-Port SDRAM Architecture for Mobile Embedded Systems (모바일 내장형 시스템을 위한 듀얼-포트SDRAM의 성능 평가 및 최적화)

  • Yang, Hoe-Seok;Kim, Sung-Chan;Park, Hae-Woo;Kim, Jin-Woo;Ha, Soon-Hoi
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.14 no.5
    • /
    • pp.542-546
    • /
    • 2008
  • Recently dual-port SDRAM (DPSDRAM) architecture tailored for dual-processor based mobile embedded systems has been announced where a single memory chip plays the role of the local memories and the shared memory for both processors. In order to maintain memory consistency from simultaneous accesses of both ports, every access to the shared memory should be protected by a synchronization mechanism, which can result in substantial access latency. We propose two optimization techniques by exploiting the communication patterns of target applications: lock-priority scheme and static-copy scheme. Further, by dividing the shared bank into multiple blocks, we allow simultaneous accesses to different blocks thus achieve considerable performance gain. Experiments on a virtual prototyping system show a promising result - we could achieve about 20-50% performance gain compared to the base DPSDRAM architecture.

Data Cache System based on the Selective Bank Algorithm for Embedded System (내장형 시스템을 위한 선택적 뱅크 알고리즘을 이용한 데이터 캐쉬 시스템)

  • Jung, Bo-Sung;Lee, Jung-Hoon
    • The KIPS Transactions:PartA
    • /
    • v.16A no.2
    • /
    • pp.69-78
    • /
    • 2009
  • One of the most effective way to improve cache performance is to exploit both temporal and spatial locality given by any program executive characteristics. In this paper we present a high performance and low power cache structure with a bank selection mechanism that enhances exploitation of spatial and temporal locality. The proposed cache system consists of two parts, i.e., a main direct-mapped cache with a small block size and a fully associative buffer with a large block size as a multiple of the small block size. Especially, the main direct-mapped cache is constructed as two banks for low power consumption and stores a small block which is selected from fully associative buffer by the proposed bank selection algorithm. By using the bank selection algorithm and three state bits, We selectively extend the lifetime of those small blocks with high temporal locality by storing them in the main direct-mapped caches. This approach effectively reduces conflict misses and cache pollution at the same time. According to the simulation results, the average miss ratio, compared with the Victim and STAS caches with the same size, is improved by about 23% and 32% for Mibench applications respectively. The average memory access time is reduced by about 14% and 18% compared with the he victim and STAS caches respectively. It is also shown that energy consumption of the proposed cache is around 10% lower than other cache systems that we examine.

Key Frame Detection Using Contrastive Learning (대조적 학습을 활용한 주요 프레임 검출 방법)

  • Kyoungtae, Park;Wonjun, Kim;Ryong, Lee;Rae-young, Lee;Myung-Seok, Choi
    • Journal of Broadcast Engineering
    • /
    • v.27 no.6
    • /
    • pp.897-905
    • /
    • 2022
  • Research for video key frame detection has been actively conducted in the fields of computer vision. Recently with the advances on deep learning techniques, performance of key frame detection has been improved, but the various type of video content and complicated background are still a problem for efficient learning. In this paper, we propose a novel method for key frame detection, witch utilizes contrastive learning and memory bank module. The proposed method trains the feature extracting network based on the difference between neighboring frames and frames from separate videos. Founded on the contrastive learning, the method saves and updates key frames in the memory bank, witch efficiently reduce redundancy from the video. Experimental results on video dataset show the effectiveness of the proposed method for key frame detection.

A High Speed FFT Processor for OFDM Systems (OFDM 시스템을 위한 고속 FFT 프로세서)

  • 조병각;손병수;선우명훈
    • Journal of the Institute of Electronics Engineers of Korea TC
    • /
    • v.39 no.12
    • /
    • pp.513-519
    • /
    • 2002
  • This paper proposes a high-speed FFT processor for orthogonal frequency-division multiplexing(OFDM) systems. The Proposed architecture uses a single-memory architecture and uses a radix-4 algorithm for high speed. The proposed memory is partitioned into four banks for high-speed computation. It uses an in-place memory strategy that stores butterfly outputs in the same memory location used by butterfly inputs. Therefore, the memory size can be reduced. The SQNR of about 80dB is achieved with 20-bit input and 20-bit twiddle factors. The architecture has been modeled by VHDL and logic synthesis has been performed using the SamsungTM 0.5㎛ SOG cell library (KG80). The implemented FFT processor consists of 98,326 gates excluding memory. It has smaller hardware than existing pipeline FFT processors for more than 1024-point FFTs. The processor can operate at 42MHz and calculate a 256-point complex FFT in 6us. It satisfies tile required processing speed of 8.4㎲ in the HomePlug standard.

Improved Grouping and Buffer Sharing Method in VOD Server (주문형 비디오 서버에서의 개선된 그룹핑과 버퍼 공유 기법)

  • Jeong, Hong-Gi;Park, Seung-Gyu
    • Journal of KIISE:Information Networking
    • /
    • v.27 no.4
    • /
    • pp.489-497
    • /
    • 2000
  • 주문형 비디오(Video On Demand)서버의 구현은 현재까지도 많은 부분에 한계를 가지고 있으며 이를 해결하기 위한 연구들이 활발히 진행되고 있다. 주문형 비디오 서비스의 한계는 대부분이 자원(디스크, 버퍼)의 제한 때문에 발생하고 있으며 디스크어레이(Disk Array)나, 메모리 뱅크(Memory Bank)와 같은 특수한 하드웨어를 사용하여 해결하고 있다. 또한 이와 아울러 그룹핑이나 버퍼 공유기법과 같은 소프트웨어적인 방법도 제안되었다. 본논문에서는 주분형 비디오 서버의 한계 중 디스크대역폭과 버퍼공간의 한계점에 의한 문제를 해결하기위하여 개선된 그룹핑 방법과 버퍼 공유 및 관리 방법을 제안한다. 제안하는 그룹핑 방법은 비디오의 인기도에 기반을 둔 방법을 사용하며 버퍼 공유방법은 버퍼의 크기 및 디스크의 대역폭 가용량에 따라 적응적으로 병합 분할하는 방법을 사용한다, 제안하는 병합 분할 방법은 피기백킹(piggy-backing)개념을 도입하였으며 시뮬레이션을 통해 제안하 방법의 우수성을 보였다.

  • PDF

The Efficient Buffer Management Schemes in a VOD Server (주문형 비디오 서버에서의 효율적인 버퍼관리 기법)

  • 정홍기;박승규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10c
    • /
    • pp.42-44
    • /
    • 1999
  • 주문형 비디오(Video On Demand) 서버를 구현하는데, 현재까지도 많은 부분에서 한계에 부딪치고 있으며, 이를 해결하기 위한 연구들이 활발히 진행되고 있다. 주문형 비디오 서비스에서의 한계는 대부분이 자원(디스크, 버퍼)의 제한 때문에 발생하고 있으며, 디스크어레이나, 메모리 뱅크와 같은 특수한 하드웨어를 사용하여 해결하고 있다. 또한, 이에 맞추어 여러 가지 소프트웨어적인 방법도 제안되었다. 본 논문에서는 주문형 비디오 서버의 한계 중 디스크대역폭과 버퍼 공간의 한계점에 의한 문제를 해결하기 위하여 기존의 연구분야인 버퍼 공유 및 관리 방법을 제안한다. 제안하는 버퍼 공유 및 관리 방법은 버퍼의 크기 및 디스크의 대역폭 가용량에 따른 적응적 병합, 분할 방식을 사용한다. 제안한는 병합, 분할방식은 피기백킹(piggybacking) 개념을 도입한 방법을 사용한다. 이러한 적응적 버퍼관리의 효율성을 보기 위해 주워진 환경을 설정한 시뮬레이션을 통해 제안방법의 성능을 보였다.

  • PDF

The Design of DWT Processor for RealTime Image Compression (실시간 영상압축을 위한 DWT 프로세서 설계)

  • Gu, Dae Seong;Kim, Jong Bin
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.29 no.5C
    • /
    • pp.654-654
    • /
    • 2004
  • 본 논문에서는 이산웨이블렛 변환을 이용한 영상 압축 프로세서를 하드웨어로 구현하였다. 웨이블렛 변환을 위하여 필터뱅크 및 피라미드 알고리즘을 이용하였고 각 필터들은 FIR 필터로 구현하였다. 병렬구조로 이루어져 동일 클럭 싸이클에서 하이패스와 로패스를 동시에 수행함으로써 속도를 향상시킬 뿐 아니라 QMF 특성을 이용하여 DWT 연산에 필요한 승산기의 수를 절반으로 줄임으로써 하드웨어 크기를 줄이고 이용효율 또한 높일 수 있다. 다중 해상도 분해 시 필요한 메모리 컨트롤러를 하드웨어로 구현하여 DWT 계산이 수행되므로 이 융자는 단순한 파라메터 입력만으로 효과적인 압축율을 얻을 수 있도록 구조적으로 설계하였다. 실시간 영상압축 프로세서의 성능 예측을 위하여 MATLAB을 통하여 시뮬레이션 하였고, VHDL을 이용하여 각 모듈들을 설계하였다. 설계한 영상압축기는 Leonaro-Spectrum에서 합성하였고, ALTERA FLEX10KE(EPF10K100 EFC256) FPGA에 이식하여 하드웨어적으로 동작을 검증하였다. 설계된 부호화기는 512×512 Woman 영상에 대하여 33㏈의 PSNR값을 갖는다. 그리고 설계된 프로세서를 FPGA 구현 시 35㎒에서 정상적으로 동작한다.

Acceleration of GPU-based Shear-Skew Warp Volume Rendering (GPU 기반 쉐아-스큐 워프 볼륨 렌더링 가속 기법)

  • Cho, Chang-Woo;Kim, Yoon-Ki;Jeong, Chang-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1418-1420
    • /
    • 2013
  • GPU는 범용 CPU와는 달리 수백 개의 코어로 이루어져 병렬처리에 특화된 형태로 발전되어 왔으며, 이미지 및 동영상 처리, 유체 역학 시뮬레이션, 의료, 지진 분석 등 점차 많은 영역에서 사용 되고 있다. 최근에는 GPU를 이용하여 볼륨 렌더링을 가속화하는 많은 기법들이 연구되고 있다. 본 논문에서는 볼륨 렌더링을 가속화하기 위한 GPU 기반의 쉐아-스큐 워프 기법을 제안한다. 여기서는 GPU를 이용하여 효율적인 메모리 사용, 코어의 활성화, 뱅크 충돌 감소 기법을 이용하여 기존의 CPU 기반 볼륨 렌더링 기법과 비교하여 빠른 시간에 동일한 결과물을 생성한다.

A Design on the Wavelet Transform Digital Filter for an Image Processing (영상처리를 위한 웨이브렛 변환 디지털 필터의 설계)

  • Kim, Yun-Hong;Jeon, Gyeong-Il;Bang, Gi-Cheon;Lee, U-Sun;Park, In-Jeong;Lee, Gang-Hyeon
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.37 no.3
    • /
    • pp.45-55
    • /
    • 2000
  • In this paper, we proposed the hardware architecture of wavelet transform digital filter for an image processing. Filter bank pyramid algorithm is used for wavelet transform and each fillet is implemented by the FIR filter. For DWT computation, because the memory controller is implemented by hardware, we can efficiently process the multisolution decomposition of the image data only input the parameter. As a result of the image Processing in this paper, 33㏈ PSNR has been obtained on 512$\times$512 B/W image due to 11-bit mantissa processing in FPGA Implementation. And because of using QMF( Quadrature Mirror Filter) properties, it reduces half number of the multiplier needed DWT(Discrete Wavelet Transform) computation so the hardware size is reduced largely. The proposed scheme can increase the efficiency of an image Processing as well as hardware size reduced. The hardware design proposed of DWT fillet bank is synthesized by VHDL coding and then the test board is manufactured, the operating Program and the application Program are implemented using MFC++ and C++ language each other.

  • PDF