• 제목/요약/키워드: memory performance

검색결과 3,145건 처리시간 0.028초

범용 그래픽 처리 장치의 메모리 설계를 위한 그래픽 처리 장치의 메모리 특성 분석 (Analysis on Memory Characteristics of Graphics Processing Units for Designing Memory System of General-Purpose Computing on Graphics Processing Units)

  • 최홍준;김철홍
    • 스마트미디어저널
    • /
    • 제3권1호
    • /
    • pp.33-38
    • /
    • 2014
  • 소비전력 증가와 같은 문제점들로 인하여, 마이크로프로세서만으로는 컴퓨팅 시스템의 성능을 향상시키기 점점 어려워지고 있다. 이와 같은 상황에서, 대용량 병렬 연산에 특화된 그래픽 처리 장치를 활용하여 중앙 처리 장치가 담당하던 범용 작업을 수행하게 하는 범용 그래픽 처리 장치 기술이 컴퓨터 시스템의 성능을 개선시킬 수 있는 방안으로 주목을 받고 있다. 하지만, 그래픽스 관련 응용프로그램과 범용 응용프로그램의 특징은 매우 상이하기 때문에, 그래픽 처리 장치가 범용 응용프로그램을 수행하는 경우에는 많은 제약 사항으로 인하여 자신의 뛰어난 연산 자원을 활용하지 못하는 실정이다. 일반적으로 그래픽스 관련 응용프로그램에 비해 범용 응용프로그램은 메모리를 매우 많이 요청하기 때문에 범용 그래픽 처리 장치 기술을 효율적으로 활용하기 위해서는 메모리 설계가 매우 중요하다. 특히, 긴 접근 시간을 요구하는 외부 메모리 요청은 성능에 큰 오버헤드이다. 그러므로 외부 메모리로의 접근 횟수를 줄일 수 있는 다중 레벨 캐쉬 구조를 효율적으로 활용할 수 있다면, GPU의 성능은 크게 향상 될 것이 분명하다. 본 논문에서는 다중 레벨 캐쉬 구조에 따른 그래픽 처리 장치의 성능을 다양한 벤치마크 프로그램을 통하여 정량적으로 분석하고자 한다.

Recent Advance of Flexible Organic Memory Device

  • Kim, Jaeyong;Hung, Tran Quang;Kim, Choongik
    • Journal of Semiconductor Engineering
    • /
    • 제1권1호
    • /
    • pp.38-45
    • /
    • 2020
  • With the recent emergence of foldable electronic devices, interest in flexible organic memory is significantly growing. There are three types of flexible organic memory that have been researched so far: floating-gate (FG) memory, ferroelectric field-effect-transistor (FeFET) memory, and resistive memory. Herein, performance parameters and operation mechanisms of each type of memory device are introduced, along with a brief summarization of recent research progress in flexible organic memory.

메인 메모리상에 가상 데스크탑 이미지를 운용하는 고속 가상 데스크탑 시스템 설계 및 구현 (Design and Implementation of High Performance Virtual Desktop System Managing Virtual Desktop Image in Main Memory)

  • 오수철;김성운
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권8호
    • /
    • pp.363-368
    • /
    • 2016
  • 기존의 스토리지 기반 가상 데스크탑 시스템은 디스크에 입출력이 집중될 경우 성능이 저하되는 문제가 발생하였다. 따라서, 부트 스톰과 같이 여러 대의 가상 데스크탑이 동시에 부팅할 경우, 시스템의 성능이 급격히 저하되었다. 본 논문에서는 가상 데스크탑 시스템의 성능을 향상시킬 수 있는 메인 메모리 기반 가상 데스크탑 시스템을 제안한다. 본 시스템에서는 가상 데스크탑 이미지를 메인 메모리에 저장함으로써 전체 시스템의 성능을 향상시키고, 중복 제거 기술을 적용하여 용량이 많은 가상 데스크탑 이미지를 한정된 크기의 메인 메모리에 저장하였다. 본 시스템의 구현 및 실험을 통하여 가상 데스크탑을 동시 부팅할 때, 스토리지 기반 가상 데스크탑 보다 부팅 속도가 4배 빠름을 확인하였다.

Study on the Performance Evaluation and Analysis of Mobile Cache Memory

  • Lee, Sangmin;Kim, Jongwan;Kim, Ji Young;Oh, Dukshin
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권6호
    • /
    • pp.99-107
    • /
    • 2020
  • 본 논문에서는 모바일 기기에서 앱 실행 시 데이터 접근 속도를 향상하기 위해 사용하는 모바일 캐시의 특징을 분석하고 캐시 데이터 접근 실험을 통해 모바일 캐시의 중요성을 검증한다. 지난 10년간 모바일 기기 시장은 빠른 속도로 성장하였지만, 배터리가 제한적이고, 기기의 크기와 가격이 고려돼야 하므로 속도가 빠른 하드웨어를 사용하기 어렵다. 따라서 캐시 메모리와 같이 메모리 완충 구조를 통해 성능을 보완한다. 본 논문의 주요분석 대상은 캐시 메모리 크기, 캐시의 계층구조 그리고 교체방식과 그에 따른 모바일 성능을 확인한다. 시뮬레이션 데이터는 마이크로프로세서 시스템 연구에서 캐시 성능 확인용으로 사용한 데이터를 사용하였다. 실험결과 모바일 기기에서 캐시 메모리를 사용할 때 데이터에 대한 평균 접근 속도는 캐시 메모리가 없을 때 보다 10배의 성능향상을 보였으며 결과적으로 캐시 메모리는 같은 사양일 때 모바일 기기의 성능향상에 도움이 되는 것으로 나타났다.

A Case Study of a Navigator Optimization Process

  • Cho, Doosan
    • International journal of advanced smart convergence
    • /
    • 제6권1호
    • /
    • pp.26-31
    • /
    • 2017
  • When mobile navigator device accesses data randomly, the cache memory performance is rapidly deteriorated due to low memory access locality. For instance, GPS (General Positioning System) of navigator program for automobiles or drones, that are currently in common use, uses data from 32 satellites and computes current position of a receiver. This computation of positioning is the major part of GPS which accounts more than 50% computation in the program. In this computation task, the satellite signals are received in real time and stored in buffer memories. At this task, since necessary data cannot be sequentially stored, the data is read and used at random. This data accessing patterns are generated randomly, thus, memory system performance is worse by low data locality. As a result, it is difficult to process data in real time due to low data localization. Improving the low memory access locality inherited on the algorithms of conventional communication applications requires a certain optimization technique to solve this problem. In this study, we try to do optimizations with data and memory to improve the locality problem. In experiment, we show that our case study can improve processing speed of core computation and improve our overall system performance by 14%.

듀얼코어 임베디드 리눅스 시스템에서 공유 메모리 성능 개선 방안 및 성능 분석 (Improvement Method and Performance Analysis of Shared Memory in Dual Core Embedded Linux system)

  • 정지성;김창봉
    • 인터넷정보학회논문지
    • /
    • 제11권4호
    • /
    • pp.95-106
    • /
    • 2010
  • 최근 복잡한 프로그래밍 환경에서 다수의 프로세스들은 서로 협력하기 위하여 서로 통신하고 자원과 정보를 공유한다. 커널에서는 이것이 가능한 방법으로 프로세스간 통신이라는 IPC(Inter-Process Communication)를 제공한다. 리눅스에서 사용되는 공유 메모리는 동일한 메모리 영역에 여러개의 프로세스가 접근할 수 있도록 해 주는 기술이다. 본 논문에서는 서로 다른 코어에 서로 다른 운영체제를 갖는 듀얼코어 임베디드 리눅스 시스템에서 공유 메모리 성능 개선 방안을 제시하고, MP2530F(ARM926F+ARM946E)의 임베디드 리눅스 시스템을 구축하여 성능을 측정한다. 공유 메모리를 이용한 프로세스의 동작이 별개의 CPU에서 동작되도록 함으로써 성능 향상을 꾀한다.

버스기반의 공유메모리 시스템에서 사용된 비트맵 테이블의 크기 축소와 성능 분석 (Size Reduction and Performance Analysis of the Bit-map Table Used in the Bus-based Shared Memory System)

  • 우종정;이가영
    • 한국정보처리학회논문지
    • /
    • 제5권1호
    • /
    • pp.24-32
    • /
    • 1998
  • 버스기반 공유메모리-다중프로세서는 공유버스의 사용으로 인한 병목 현상이 시스템의 성능을 제한하며, 특히 분리형 트랜잭션 환경 하에서 각 프로세서들로부터 생성되는 메모리 접근에 대한 요청의 일부가 불필요하게 메모리 입력 버퍼에 대기함으로써 시스템의 성능을 저하시킨다. 이와 같은 불필요한 메모리 입력버퍼에서의 대기는 각 블록에 대한 상태정보를 이용함으로써 제거될 수 있지만, 메모리의 각 블록에 대하여 상태정보가 완전 사상된 비트맵테이블을 저장하기 위한 SRAM에 대한 부담이 발생되었다. 본 연구에서는 이와 같은 문제점을 해결하기 위하여 비공유부분의 배제와 참조 국부성의 원리를 적용하여 상태정보를 저장하기 위한 SRAM의 용량을 줄이기를 제안한다. 시뮬레이션 결과에 의하면 시스템의 성능에는 거의 영향을 미치지 않으면서 상태정보의 저장 용량을 줄일 수 있어 가격-대-성능의 향상을 도모할 수 있다.

  • PDF

Assessment of long-term working memory by a delayed nonmatch-to-place task using a T-maze

  • Kim, Jung-Eun;Choi, Jun-Hyeok;Kaang, Bong-Kiun
    • Animal cells and systems
    • /
    • 제14권1호
    • /
    • pp.11-15
    • /
    • 2010
  • Long-term working memory (LTWM) is a subdivision concept of working memory and indicates the enhancement of performance in a working memory task. LTWM has been shown in humans who have been engaged in a specific task requiring working memory over a long time. However, there is very little understanding of the exact mechanism of LTWM because of limitations of experimental methods in human studies. We have modified the standard T-maze task, which is used to test working memory in mice, to demonstrate LTWM in an animal model. We observed an enhancement of performance by repeated experience with the same working memory load in mice, which can be regarded as an LTWM. This effect seems to depend on the condition wherein a delay was given. This task may be a good experimental protocol to assess LTWM in animal studies.

Efficient Hybrid Transactional Memory Scheme using Near-optimal Retry Computation and Sophisticated Memory Management in Multi-core Environment

  • Jang, Yeon-Woo;Kang, Moon-Hwan;Chang, Jae-Woo
    • Journal of Information Processing Systems
    • /
    • 제14권2호
    • /
    • pp.499-509
    • /
    • 2018
  • Recently, hybrid transactional memory (HyTM) has gained much interest from researchers because it combines the advantages of hardware transactional memory (HTM) and software transactional memory (STM). To provide the concurrency control of transactions, the existing HyTM-based studies use a bloom filter. However, they fail to overcome the typical false positive errors of a bloom filter. Though the existing studies use a global lock, the efficiency of global lock-based memory allocation is significantly low in multi-core environment. In this paper, we propose an efficient hybrid transactional memory scheme using near-optimal retry computation and sophisticated memory management in order to efficiently process transactions in multi-core environment. First, we propose a near-optimal retry computation algorithm that provides an efficient HTM configuration using machine learning algorithms, according to the characteristic of a given workload. Second, we provide an efficient concurrency control for transactions in different environments by using a sophisticated bloom filter. Third, we propose a memory management scheme being optimized for the CPU cache line, in order to provide a fast transaction processing. Finally, it is shown from our performance evaluation that our HyTM scheme achieves up to 2.5 times better performance by using the Stanford transactional applications for multi-processing (STAMP) benchmarks than the state-of-the-art algorithms.

Algorithmic GPGPU Memory Optimization

  • Jang, Byunghyun;Choi, Minsu;Kim, Kyung Ki
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제14권4호
    • /
    • pp.391-406
    • /
    • 2014
  • The performance of General-Purpose computation on Graphics Processing Units (GPGPU) is heavily dependent on the memory access behavior. This sensitivity is due to a combination of the underlying Massively Parallel Processing (MPP) execution model present on GPUs and the lack of architectural support to handle irregular memory access patterns. Application performance can be significantly improved by applying memory-access-pattern-aware optimizations that can exploit knowledge of the characteristics of each access pattern. In this paper, we present an algorithmic methodology to semi-automatically find the best mapping of memory accesses present in serial loop nest to underlying data-parallel architectures based on a comprehensive static memory access pattern analysis. To that end we present a simple, yet powerful, mathematical model that captures all memory access pattern information present in serial data-parallel loop nests. We then show how this model is used in practice to select the most appropriate memory space for data and to search for an appropriate thread mapping and work group size from a large design space. To evaluate the effectiveness of our methodology, we report on execution speedup using selected benchmark kernels that cover a wide range of memory access patterns commonly found in GPGPU workloads. Our experimental results are reported using the industry standard heterogeneous programming language, OpenCL, targeting the NVIDIA GT200 architecture.