• 제목/요약/키워드: Memory Bandwidth

검색결과 245건 처리시간 0.028초

낮은 대역폭을 갖는 이동 단말기에서 멀티미디어 프리젠테이션을 재생하기 위한 프리패치 방법 (A Study on the Prefetch Method for Multimedia Presentations to play on the Low Bandwidth Mobile Devices)

  • 홍마리아;양혁;임영환
    • 인터넷정보학회논문지
    • /
    • 제4권4호
    • /
    • pp.65-74
    • /
    • 2003
  • 최근 이동단말기로 멀티미디어 데이터를 서비스 받는 사례가 증가하고 있다. 그러나 이동단말기는 저장공간이나 주 메모리가 부족하여 멀티미디어 데이터를 한꺼번에 다운로드 받는 것이 쉽지 않으므로 스트리밍 형태로 서비스를 받는 것이 일반적이다. 이러한 스트리밍 서비스는 정해진 시간 안에 지속적으로 데이터가 전송되어야 끊이지 않게 서비스를 받을 수 있다. 따라서 이 논문에서는 멀티미디어 프리젠테이션을 협소한 저장 공간을 갖는 이동단말기에서 재생이 가능할 수 있도록 하기 위한 여러 가지 기법을 제안하고자 한다. 먼저 프리젠테이션이 이동단말기에서 재생이 가능한지 파악하는 프리젠테이션 영역 분할 기법과 재생가능성 분석기법을 통해 재생여부를 분석한다. 만약 이 분석 시에 재생이 불가능한 멀티미디어 프리젠테이션이 있다면 EPOB(End point or over Bandwidth)지점을 이용한 선인출(prefetch)기법을 적용한다. 이 기법은 선인출을 통해서 멀티미디어 프리젠테이션들을 사용자 QoS를 유지시키며 재생이 가능하도록 해준다. 즉, 선인출 스케줄링 기법을 통해서 각각의 프리젠테이션들이 선인출하는 시점과 데이터의 양을 지정해 줌으로서 원활한 멀티미디어 프리젠테이션을 재생 할 수 있도록 제안하였다.

  • PDF

VoD 시스템에서 선반입 기법을 이용한 대화식 동작의 설계 (Design of Interactive Operations using Prefetching in VoD System)

  • 김순철
    • 한국산업정보학회논문지
    • /
    • 제15권2호
    • /
    • pp.31-39
    • /
    • 2010
  • VoD(Video-on-Demand) 시스템에서 다루는 데이터는 대용량이면서 실시간에 처리되어야 하는 연속 매체의 특성을 지니고 있다. 대용량의 데이터가 차지하는 저장 공간과 전송 대역폭을 줄이기 위해 사용되는 압축 기법과 데이터의 실시간 처리를 보장하기 위한 자원의 예약 기법은 모두 연속 매체를 처리하는데 있어 필수적이다. VoD 시스템에서는 사용자들에게 영화의 재생뿐만 아니라 고속 전진이나 고속 후진과 같은 대화식 동작도 함께 제공할 수 있어야 하는데 대화식 동작이 야기하는 데이터 요구량의 변화는 디스크 대역폭, 통신망 대역폭, 메모리와 같은 시스템 자원의 관리를 어렵게 한다. VoD 시스템의 경우 기 저장된 비디오 데이터를 처리하기 때문에 데이터 블록에 대한 선반입이 가능하다. 본 논문에서는 가변 비트율의 비디오 데이터를 처리하는 VoD 서버에서 서버의 버퍼를 이용하여 데이터 블록들을 선반입함으로써 대화식 동작을 지원할 수 있는 버퍼 관리 기법을 제안한다. 본 논문에서 제안한 버퍼 관리 기법은 모의실험 결과 수용 사용자 수에서 LRU 기법에 비해 약 34%의 성능 향상을 보였다.

0.11-2.5 GHz All-digital DLL for Mobile Memory Interface with Phase Sampling Window Adaptation to Reduce Jitter Accumulation

  • Chae, Joo-Hyung;Kim, Mino;Hong, Gi-Moon;Park, Jihwan;Ko, Hyeongjun;Shin, Woo-Yeol;Chi, Hankyu;Jeong, Deog-Kyoon;Kim, Suhwan
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제17권3호
    • /
    • pp.411-424
    • /
    • 2017
  • An all-digital delay-locked loop (DLL) for a mobile memory interface, which runs at 0.11-2.5 GHz with a phase-shift capability of $180^{\circ}$, has two internal DLLs: a global DLL which uses a time-to-digital converter to assist fast locking, and shuts down after locking to save power; and a local DLL which uses a phase detector with an adaptive phase sampling window (WPD) to reduce jitter accumulation. The WPD in the local DLL adjusts the width of its sampling window adaptively to control the loop bandwidth, thus reducing jitter induced by UP/DN dithering, input clock jitter, and supply/ground noise. Implemented in a 65 nm CMOS process, the DLL operates over 0.11-2.5 GHz. It locks within 6 clock cycles at 0.11 GHz, and within 17 clock cycles at 2.5 GHz. At 2.5 GHz, the integrated jitter is $954fs_{rms}$, and the long-term jitter is $2.33ps_{rms}/23.10ps_{pp}$. The ratio of the RMS jitter at the output to that at the input is about 1.17 at 2.5 GHz, when the sampling window of the WPD is being adjusted adaptively. The DLL consumes 1.77 mW/GHz and occupies $0.075mm^2$.

Fine-scalable SPIHT Hardware Design for Frame Memory Compression in Video Codec

  • Kim, Sunwoong;Jang, Ji Hun;Lee, Hyuk-Jae;Rhee, Chae Eun
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제17권3호
    • /
    • pp.446-457
    • /
    • 2017
  • In order to reduce the size of frame memory or bus bandwidth, frame memory compression (FMC) recompresses reconstructed or reference frames of video codecs. This paper proposes a novel FMC design based on discrete wavelet transform (DWT) - set partitioning in hierarchical trees (SPIHT), which supports fine-scalable throughput and is area-efficient. In the proposed design, multi-cores with small block sizes are used in parallel instead of a single core with a large block size. In addition, an appropriate pipelining schedule is proposed. Compared to the previous design, the proposed design achieves the processing speed which is closer to the target system speed, and therefore it is more efficient in hardware utilization. In addition, a scheme in which two passes of SPIHT are merged into one pass called merged refinement pass (MRP) is proposed. As the number of shifters decreases and the bit-width of remained shifters is reduced, the size of SPIHT hardware significantly decreases. The proposed FMC encoder and decoder designs achieve the throughputs of 4,448 and 4,000 Mpixels/s, respectively, and their gate counts are 76.5K and 107.8K. When the proposed design is applied to high efficiency video codec (HEVC), it achieves 1.96% lower average BDBR and 0.05 dB higher average BDPSNR than the previous FMC design.

가상화 환경에서 NVMe SSD 성능 분석 및 직접 접근 엔진 개발 (Performance Analysis of NVMe SSDs and Design of Direct Access Engine on Virtualized Environment)

  • 김세욱;최종무
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권3호
    • /
    • pp.129-137
    • /
    • 2018
  • 낸드 플래시 메모리 기반의 NVMe(Non-Volatile Memory express) SSD(Solid State Drive)는 멀티 I/O 큐 환경을 제공하는 PCIe 인터페이스 기반에 NVMe 프로토콜을 사용하는 저장장치이다. NVMe SSD는 Multi-core 시스템에서 병렬 I/O 처리가 가능하고 SATA SSD에 비해 대역폭이 크며 대용량의 저장 공간을 제공하기 때문에 데이터 센터, 클라우드 컴퓨팅 등에 사용될 차세대 저장장치로 주목받고 있다. 하지만 가상화 시스템에서는 소프트웨어 I/O 스택의 병목으로 인하여 NVMe SSD의 성능을 충분히 활용하지 못하고 있다. 특히, Xen과 KVM과 같이 호스트 시스템의 I/O 스택을 사용하는 경우에는, 호스트 시스템과 가상머신의 중복된 I/O 스택을 통해서 입출력이 처리되기 때문에 성능 저하가 크게 발생한다. 본 논문에서는 NVMe SSD에 직접 접근하는 기술을 KVM 가상화 시스템에 적용함으로써 가상 머신 I/O의 성능을 향상시키는 Direct-AIO (Direct-Asynchronous I/O)엔진을 제안한다. 그리고 QEMU 에뮬레이터에 제안한 엔진을 개발하고 기존의 I/O 엔진과의 성능 차이를 비교 및 분석한다.

Flexible, Extensible, and Efficient VANET Authentication

  • Studer, Ahren;Bai, Fan;Bellur, Bhargav;Perrig, Adrian
    • Journal of Communications and Networks
    • /
    • 제11권6호
    • /
    • pp.574-588
    • /
    • 2009
  • Although much research has been conducted in the area of authentication in wireless networks, vehicular ad-hoc networks (VANETs) pose unique challenges, such as real-time constraints, processing limitations, memory constraints, frequently changing senders, requirements for interoperability with existing standards, extensibility and flexibility for future requirements, etc. No currently proposed technique addresses all of the requirements for message and entity authentication in VANETs. After analyzing the requirements for viable VANET message authentication, we propose a modified version of TESLA, TESLA++, which provides the same computationally efficient broadcast authentication as TESLA with reduced memory requirements. To address the range of needs within VANETs we propose a new hybrid authentication mechanism, VANET authentication using signatures and TESLA++ (VAST), that combines the advantages of ECDSA signatures and TESLA++. Elliptic curve digital signature algorithm (ECDSA) signatures provide fast authentication and non-repudiation, but are computationally expensive. TESLA++ prevents memory and computation-based denial of service attacks. We analyze the security of our mechanism and simulate VAST in realistic highway conditions under varying network and vehicular traffic scenarios. Simulation results show that VAST outperforms either signatures or TESLA on its own. Even under heavy loads VAST is able to authenticate 100% of the received messages within 107ms. VANETs use certificates to achieve entity authentication (i.e., validate senders). To reduce certificate bandwidth usage, we use Hu et al.'s strategy of broadcasting certificates at fixed intervals, independent of the arrival of new entities. We propose a new certificate verification strategy that prevents denial of service attacks while requiring zero additional sender overhead. Our analysis shows that these solutions introduce a small delay, but still allow drivers in a worst case scenario over 3 seconds to respond to a dangerous situation.

모바일 향 저전력 동영상 압축을 위한 고집적 MPEG4@SP 동영상 압축기 (A full-Hardwired Low-Power MPEG4@SP Video Encoder for Mobile Applications)

  • 신선영;박현상
    • 방송공학회논문지
    • /
    • 제10권3호
    • /
    • pp.392-400
    • /
    • 2005
  • 모바일 환경에서의 효과적인 동영상 압축을 위한 고집적 MPEG-4@SP 동영상 압축기인 VideoCore의 구조를 제안한다. 동영상 압축을 수행할 때 움직임 추정, 움직임 보상, 양자화, 이산여현부호화, 가변장부호화와 같은 기능은 외부 메모리 처리가 빈번하기 때문에 높은 메모리 대역폭을 필요로 한다. 본 논문에서 제안한 움직임 추정기는 소용량의 로컬 메모리를 효과적으로 운용함으로써 대용량 외부 메모리와의 메모리 대역폭을 최소화하는 동영상 압축을 가능하게 한다. 또한 제안한 동영상 압축기 구조는 가장 계산량이 많은 움직임 추정부와 이를 제외한 나머지 기능들을 동시에 구동시키는 파이프라인 구조를 채택함으로써 낮은 동작 주파수에서 실시간 고화질 동영상 압축을 실현한다.

Composite Measures of Supercomputer Technology

  • Kim, Nam-Gyu;On, Noo Ri;Koh, Myoung-Ju;Lee, JongSuk Ruth;Cho, Keun-Tae
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권8호
    • /
    • pp.4142-4159
    • /
    • 2019
  • We have developed composite measures of supercomputer technology, reflecting various factors of supercomputers using Martino's scoring model. CPUs, accelerators, memory, interconnection networks, and power consumption are chosen as factors of the model. The weight values of the factors are derived based on a survey of 129 domestic and international experts. The measured values are then standardized to integrate measurement units of the factors in the model. This model has been applied to 50 supercomputers, and rank correlation analysis was performed using representative measures. As a consequence, the ranking drastically changes except for the 1st and 2nd supercomputers on the TOP500. In addition, the characteristics of memory and interconnection networks influence the ranking, and the results demonstrate that the proposed model has low correlations with HPL and HPCG but a high correlation with Green500. This indicates that power consumption is an important factor that has a significant effect on the measures of supercomputer technology. In addition, it is determined that the differences between the HPL ranking and the proposed model ranking are influenced by power consumption, CPU theoretical peak performance, and main memory bandwidth in order of significance. In conclusion, the composite measures proposed in this study are more suitable for comprehensively describing supercomputer technology than existing performance measures. The findings of this study are expected to support decision making related to management and policy in the procurement and operation of supercomputers.

동적 그래프에서 GPU 기반의 점진적 연결 요소 처리 (GPU Based Incremental Connected Component Processing in Dynamic Graphs)

  • 김남영;최도진;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제22권6호
    • /
    • pp.56-68
    • /
    • 2022
  • 최근 실시간 처리의 요구가 증가하면서 시간에 따라서 변화하는 동적 그래프에 관한 연구가 활발하게 진행되고 있다. 동적 그래프를 분석하기 위한 알고리즘의 하나로 연결 요소가 있다. GPU는 높은 메모리 대역폭, 연산 성능으로 대규모의 그래프 계산에 적합하다. 그러나 동적 그래프의 연결 요소를 GPU를 이용하여 처리할 때, GPU의 제한된 메모리로 인해 실제 그래프 처리 시 CPU와 GPU 간에 잦은 데이터 교환이 발생한다. 본 논문에서는 동적 그래프에서 GPU 기반의 효율적인 점진적 연결 요소 처리 기법을 제안한다. 제안하는 기법은 Weighted-Quick-Union 알고리즘을 기반으로 연결 요소 레이블에 구성 요소의 개수를 이용하여 연결 요소를 빠르게 계산한다. 또한, 재계산할 부분을 판별하여 GPU로 전송할 데이터를 최소화하여 대규모 그래프에 대하여 CPU와 GPU 간의 데이터 교환 횟수를 감소시킨다. 뿐만 아니라 GPU와 CPU 간에 데이터 전송 시간 낭비를 줄이기 위해 GPU와 CPU가 비동기로 실행하는 처리 구조를 제안한다. 실제 데이터 집합을 사용한 성능 평가를 통해 제안하는 기법의 우수성을 입증한다.

그래픽 프로세서를 이용한 탄성파 수치모사의 계산속도 향상 (Acceleration of computation speed for elastic wave simulation using a Graphic Processing Unit)

  • Nakata, Norimitsu;Tsuji, Takeshi;Matsuoka, Toshifumi
    • 지구물리와물리탐사
    • /
    • 제14권1호
    • /
    • pp.98-104
    • /
    • 2011
  • 탐사 지구물리학에서 수치 모사는 지하매질에서의 탄성파 전파 현상을 이해하는데 중요한 통찰력을 제공한다. 탄성파 모사는 음향파 근사에 의한 수치 모사보다 계산시간이 많이 소요되지만 전단응력 성분을 포함하여 보다 현실적인 파동의 모사를 가능하게 한다. 그러므로 탄성파 모사는 탄성체의 반응을 탐사하는데 적합하다고 할 수 있다. 계산 시간이 길다는 단점을 극복하기 위해 본 논문에서는 그래픽 프로세서(GPU)를 이용하여 탄성파 수치 모사 시간을 단축하고자 하였다. GPU는 많은 수의 프로세서와 광대역 메모리를 갖고 있기 때문에 병렬화된 계산 아카텍쳐에서 사용할 수 있는 장점이 있다. 본 연구에서 사용한 GPU 하드웨어는 NVIDIA Tesla C1060으로 240개의 프로세서로 구성되어 있으며 102 GB/s의 메모리 대역폭을 갖고 있다. NVIDIA에서 개발된 병렬계산 아카텍쳐인 CUDA를 사용할 수 있음에도 불구하고 계산효율을 상당히 향상시키기 위해서는 GPU 장치의 여러 가지 다양한 메모리의 사용과 계산 순서를 최적화해야만 한다. 본 연구에서는 GPU 시스템에서 시간영역 유한차분법을 이용하여 2차원과 3차원 탄성과 전파를 수치 모사하였다. 파동전파 모사에 가장 널리 사용되는 유한차분법 중의 하나인 엇갈린 격자기법을 채택하였다. 엇갈린 격자법은 지구물리학 분야에서 수치 모델링을 위해 사용하기에 충분한 정확도를 갖고 있는 것으로 알려져 있다. 본 논문에서 제안한 모델링기법은 자료 접근 시간을 단축하기 위해 GPU 장치를 메모리 사용을 최적화하여 가능한 더 빠른 메모리를 사용한다. 이점이 GPU를 이용한 계산의 핵심 요소이다. 하나의 GPU 장치를 사용하고 메모리 사용을 최적화함으로써 단일 CPU를 이용할 경우보다 2차원 모사에서는 14배 이상, 3차원에서는 6배 이상 계산시간을 단축할 수 있었다. 세 개의 GPU를 사용한 경우에는 3차원 모사에서 계산효율을 10배 향상시킬 수 있었다.