• 제목/요약/키워드: buffer cache

검색결과 132건 처리시간 0.03초

리눅스 커널에서 네트워크 멀티미디어 서비스를 위한 메모리 복사 감소 기법 구현 (Implementation of Memory Copy Reduction Scheme for Networked Multimedia Service in Linux)

  • 김정원
    • 한국통신학회논문지
    • /
    • 제28권2B호
    • /
    • pp.129-137
    • /
    • 2003
  • MPEG(Motion Picture Expert Group)과 같은 멀티미디어 스트림은 연속적 재생으로 인해 데이터의 지속적인 디스크 검색을 요구한다. 따라서, 커널의 효율적인 지원이 필요한데, 유닉스 계열의 리눅스 버퍼 캐시 시스템은 비정기적이고 비실시간 데이터인 텍스트 데이터용으로 설계되었다. 대용량의 연속 미디어의 경우 커널 주소공간에서 사용자 주소공간으로의 대량의 복사가 이루어지므로 이 과정에서 CPU의 과중한 오버헤드가 발생한다. 이것은 시스템 처리율을 저하시킬 뿐만 아니라 QOS(Quality of Service)도 보장할 수 없다. 본 논문에서 이 메모리 복사 오버헤드를 감소시키기 위한 direct I/O와 one copy 기법을 리눅스 커널에서 설계 및 구현하였다. direct I/O는 디스크의 데이터를 커널 버퍼로 복사하지 않고 사용자 버퍼로 직접 복사하므로 CPU 오버헤드를 획기적으로 감소시킬 수 있다. 그리고, one-copy는 사용자 버퍼로 데이터를 복사하지 않고 직접 네트워크로 전송하는 기법이다. 구현 결과, CPU 오버헤드의 상당한 감소와 시스템의 처리율이 향상됨을 확인하였다.

분산 이질형 객체 환경에서 캐슁 알고리즘의 설계 및 성능 분석 (Design and Performance Analysis of Caching Algorithms for Distributed Non-uniform Objects)

  • 반효경;노삼혁;민상렬;고건
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권6호
    • /
    • pp.583-591
    • /
    • 2000
  • 캐슁 기법은 저장 장치 계층 간의 속도차를 완충시키기 위해 캐쉬 메모리, 페이징 기법, 버퍼링 기법 등으로 널리 연구되어 왔다. 하지만, 최근 웹을 비롯한 다양한 광역 분산 환경의 보편화에 따라 단일 시스템 내의 저장 장치 간에 이루어지는 캐슁 기법 뿐 아니라 타 노드의 객체를 캐슁하는 기법의 중요성이 커지고 있다. 광역 분산 환경에서의 캐슁 기법은 객체의 캐슁에 드는 비용과 캐슁으로 인한 이득이 객체의 근원지 노드의 위치에 따라 이질적이기 때문에 비용 차이를 고려한 캐쉬 교체 알고리즘이 필요하다. 한편, 캐쉬 교체 알고리즘은 온라인 알고리즘으로서 매 시점 교체 대상이 되는 객체를 즉시 선택해야 하기 때문에 알고리즘의 시간 복잡도가 지나치게 높지 않아야 한다. 그러나, 광역 분산 환경에서의 교체 알고리즘에 대한 지금까지의 연구는 객체들의 이질성을 고려하는 문제와 캐쉬 운영의 시간 복잡도 측면 모두에서 만족스러운 결과를 보이지는 못하고 있다. 본 논문은 이러한 점을 극복하여 우수한 성능을 나타내면서 효율적인 구현이 가능한 새로운 교체 알고리즘을 설계하고, 그 우수성을 트레이스 기반 모의 실험을 통해 보여 준다.

  • PDF

프록시 시스템에서 multi-level 스트리밍 서비스를 위한 세그먼트 기반의 버퍼관리 (Segment-based Buffer Management for Multi-level Streaming Service in the Proxy System)

  • 이종득
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권11호
    • /
    • pp.135-142
    • /
    • 2010
  • 프록시 시스템에서의 QoS는 혼잡 (congestion), 지연 (delay), 재전송 (retransmission) 등과 같은 간섭에 의해 많은 영향을 받는다. 또한 멀티-레벨 스트리밍 서비스는 시간 동기화에 의해 영향을 받으며, 이로 인하여 서비스 성능이 저하된다. 본 논문에서는 프록시 시스템에서 발생하는 스트리밍 서비스의 성능 저하를 개선하고 스트리밍 처리율을 향상시키기 위한 세그먼트 기반의 버퍼 관리 메커니즘을 제안한다. 제안된 논문의 목적은 다음과 같다. 1) 세그먼트 기반의 버퍼관리 메커니즘을 이용하여 다중 스트리밍 서비스를 최적화한다. 2) 혼잡, 간섭 등으로 인해 발생되는 오버헤드를 줄인다. 3) 끊김 현상, 지연 등으로 인해 발생하는 재전송의 문제를 최소화한다. 이러한 목적을 수행하기 위해 우리는 퍼지 값 $\mu$와 비용 가중치 $\omega$를 이용한다. 시뮬레이션 결과 제안된 메커니즘은 버퍼 캐시 제어율, 평균 패킷 손실률, 그리고 스트림 적합성 척도에 따른 지연 절약율에 있어서 기존의 고정길이 세그먼트기법, 피라미드 (pyramid) 세그먼트 기법, 그리고 스카이스크렙퍼 (skyscraper) 세그먼트 기법보다 성능이 효율적임을 보였다.

플래시 메모리를 위한 Not-cold-Page 쓰기지연을 통한 LRU 버퍼교체 정책 개선 (Enhancing LRU Buffer Replacement Policy with Delayed Write of Not-cold-dirty-pages for Flash Memory)

  • 정호영;박성민;차재혁;강수용
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권9호
    • /
    • pp.634-641
    • /
    • 2006
  • 플래시 메모리는 비휘발성이며 빠른 I/O 처리 속도와 같은 많은 장점들이 있으나, in-placeupdate가 불가능하고 읽기/쓰기/지우기 작업의 속도가 다르다는 단점을 지니고 있다. 버퍼 캐시를 통해 플래시 메모리 기반 저장장치의 성능을 향상시키기 위해서는 수행 속도가 느림은 물론 지우기 작업의 수행 횟수에 직접적인 영향을 끼치는 쓰기 작업의 횟수를 줄이는 알고리즘이 필요하다. 본 논문에서는 기존의 LRU 버퍼교체 정책에 not-cold-dirty-page에 대한 교체를 지연하는 알고리즘을 적용한 새로운 버퍼교체 정책(LRU-Dirty Page Later-Cold Detection, 이하 LRU-DPL-CD)을 제시하고 성능을 분석한다. 트레이스 기반 시뮬레이션 실험에서 LRU-DPL-CD는 버퍼 적중률의 큰 감소 없이 쓰기 작업과 지우기 작업의 횟수를 감소시켰으며, 그 결과 전체 플래시 메모리의 I/O 수행속도가 증가하는 결과를 보였다.

슈퍼스칼라 프로세서에서 명령 윈도우 크기에 따른 혼합형 값 예측기 (Hybrid Value Predictor in Wide-Issue Superscalar Processor)

  • 전병찬;최규석
    • 한국인터넷방송통신학회논문지
    • /
    • 제9권2호
    • /
    • pp.97-103
    • /
    • 2009
  • 본 논문에서는 슈퍼스칼라에서 윈도우 크기에 따른 명령 페치율에 따라 혼합형 값 예측기의 성능을 평가한다. 일반적으로, 명령의 데이터 의존성은 명령의 페치수에 따라 증가된다. 그러므로, 명령 페치율이 증가할 때 값 예측기의 성능이 높다고 본다. 이러한 성능은 명령 페치 메카니즘인 컬랩싱 버퍼와 트레이스 캐쉬로 연구한다. 실험결과는 명령 윈도우 크기에 따른 명령 페치율 증가와 혼합형에서 non-tc 와 tc을 적용한 IPC와 예측률의 값 예측기의 성능 효과를 평가한다.

  • PDF

고성능 데이터 발간/구독 미들웨어의 이벤트, 버퍼 처리 기술 및 성능 분석 (Implementation and Performance Analysis of Event Processing and Buffer Managing Techniques for DDS)

  • 윤군재;최 훈
    • 정보과학회 논문지
    • /
    • 제44권5호
    • /
    • pp.449-459
    • /
    • 2017
  • DDS(Data Distribution Service)는 유연성, 확장성, 실시간 통신 환경을 지원하는 통신 미들웨어이다. 본 논문에서는 DDS 미들웨어의 성능을 향상시키기 위한 방법들을 제안한다. DDS 미들웨어 내부 동작과 관련된 세부 이벤트를 정의하고, 이벤트 구동형 구조에 적용하기 위해 하나의 DDS 메시지를 의미 있는 서브메시지 단위로 분해함으로써 처리 복잡도를 낮출 수 있다. 제안하는 히스토리캐시 관리 기법은 DDS의 특성 상 상태접근과 임의접근이 빈번하게 발생한다는 사실을 이용한다. 제안한 방법들을 본 연구팀이 개발한 EchoDDS에 적용하여 성능을 향상시켰다.

지역성 결정 메커니즘을 기반으로 한 이중 캐쉬 시스템 (Dual Cache System Based on the Locality Decision Mechanism)

  • 이정훈;이장수;김신덕
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권11호
    • /
    • pp.908-918
    • /
    • 2000
  • 캐쉬의 성능을 향상시키는 가장 효과적인 방법은 프로그램 수행 특성에 내재되어 있는 시간적 (temporal locality) -공간적 지역성 (spatial locality)을 활용하는 것이다. 본 논문에서는 추가적인 장치나 컴파일러의 도움 없이 단지 캐쉬의 구조적인 특징과 간단한 메커니즘만을 이용하여 두 가지 타입의 지역성을 효과적으로 반영할 수 있는 새로운 캐쉬 시스템이 제안된다. 제안하는 새로운 캐쉬 시스템은 다른 블록 크기와 다른 연관도를 가지는 두 개의 캐쉬로써 구성되어 진다. 즉 작은 블록 크기를 지원하는 직접사상 캐쉬 (direct-mapped cache)와 큰 블록을 지원하는 완전 연관 버퍼 (fully-associative buffer)로 구성되어 진다. 큰 블록은 여러 개의 작은 블록으로 구성되어지며 두 캐쉬에서 접근 실패가 발생할 경우 직접사상 캐쉬의 접근 실패가 발생한 작은 블록과 그 이웃 작은 블록을 완전 연관 버퍼에 저장시킴으로써 한번 참조가 일어난 블록의 이웃 블록이 참조될 확률이 높다는 공간적 지역성의 특성을 효과적으로 반영할 수 있다. 또한 참조가 일어난 블록은 제어 비트를 사용하여 선택적으로 작은 블록을 직접사상 캐쉬에 저장함으로써 시간적 지역성을 보다 효과적으로 사용할 수 있다 시뮬레이션 결과에 따르면 기존의 직접사상 캐쉬의 4배 크기보다도 좋은 성능 향상을 보이고 있으며, 동일한 크기의 victim 캐쉬보다 우수한 성능을 보이고 소비 전력 면에서는 5% 정도의 전력 감소를 보이고 있다.

  • PDF

An Industrial Case Study of the ARM926EJ-S Power Modeling

  • Kim, Hyun-Suk;Kim, Seok-Hoon;Lee, Ik-Hwan;Yoo, Sung-Joo;Chung, Eui-Young;Choi, Kyu-Myung;Kong, Jeong-Taek;Eo, Soo-Kwan
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제5권4호
    • /
    • pp.221-228
    • /
    • 2005
  • In this work, our goal is to develop a fast and accurate power model of the ARM926EJ-S processor in the industrial design environment. Compared with existing work on processor power modeling which focuses on the power states of processor core, our model mostly focuses on the cache power model. It gives more than 93% accuracy and 1600 times speedup compared with post-layout gate-level power estimation. We also address two practical issues in applying the processor power model to the real design environment. One is to incorporate the power model into an existing commercial instruction set simulator. The other is the re-characterization of power model parameters to cope with different gate-level netlists of the processor obtained from different design teams and different fabrication technology.

수퍼스칼라 프로세서의 해석적 모델 및 성능 분석 (Analytical Models and their Performance Analysis of Superscalar Processors)

  • 김학준;김선모;최상방
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권7호
    • /
    • pp.847-862
    • /
    • 1999
  • 본 논문에서는 유한버퍼의(finite-buffered) 동기화된(synchronous) 큐잉모델(queueing model)을 이용하여 명령어들간의 병렬성, 분기명령의 빈도수, 분기예측(branch prediction)의 정확도, 캐쉬미스 등의 파라미터들을 고려하여 프로세서의 명령어 실행율을 예측하며 캐쉬의 성능과 파이프라인 성능간의 관계를 분석할 수 있는 새로운 해석적 모델을 제안하였다. 해석적 모델은 모델의 타당성을 검증하기 위해서 시뮬레이션을 수행하여 얻은 결과와 비교하였다. 해석적 모델과 시뮬레이션을 비교한 결과 대부분 10% 오차 내에서 일치하였다. 본 연구를 통하여 얻은 해석적 모델을 사용하면 시뮬레이션에서는 드러나지 않는 성능제약의 원인에 대한 명확한 규명이 가능하기 때문에 성능향상을 위한 설계자료를 얻을 수 있으며, 시스템 성능 밸런스를 위한 캐쉬와 비순차이슈 파이프라인 성능간의 관계에 대한 정확한 분석이 가능하다.Abstract This research presents a novel analytic model to predict the instruction execution rate of superscalar processors using the queuing model with finite-buffer size and synchronous operation mode. The proposed model is also able to analyze the performance relationship between cache and pipeline. The proposed model takes into account various kinds of architectural parameters such as instruction-level parallelism, branch probability, the accuracy of branch prediction, cache miss, and etc.. To prove the correctness of the model, we performed extensive simulations and compared the results with the analytic model. Simulation results showed that the proposed model can estimate the average execution rate accurately within 10% error compared to simulation results. The proposed model can explain the causes of performance bottleneck which cannot be uncovered by the simulation method only. The model is also able to show the effect of the cache miss on the performance of out-of-order issue superscalar processors, which can provide an valuable information in designing a balanced system.

변위 히스토리 버퍼를 이용한 명령어 및 데이터 프리페치 기법 (Instructions and Data Prefetch Mechanism using Displacement History Buffer)

  • 정용수;김진혁;조태환;최상방
    • 전자공학회논문지
    • /
    • 제52권10호
    • /
    • pp.82-94
    • /
    • 2015
  • 본 논문에서는 변위 필드를 이용해 히스토리 레코드를 생성하는 방법과 히스토리 레코드의 기준이 되는 트리거 블록에 우선 순위를 부여하여 효율적인 캐시 교체를 가능하게 하는 하드웨어 프리페치 기법을 제안한다. 히스토리 레코드의 트리거 블록을 기준으로 히스토리를 생성하기 때문에 프로그램의 시퀀스를 고려할 수 있으며, 히스토리를 변위 값으로 저장하기 때문에 트리거 주소와 변위필드에 저장된 값을 더해 빠르게 명령어 또는 데이터 주소를 프리페치 할 수 있다. 또한, 트리거 블록에 우선순위를 부여하고 캐시 교체 정책으로 랜덤 교체 방법을 사용해 캐시 공간이 가득 찼을 때 우선순위가 낮은 블록부터 랜덤하게 교체하는 방법을 제안한다. 제안하는 하드웨어 프리페처의 성능을 평가하기 위해 메모리 분석 시뮬레이터인 gem5와 PARSEC 벤치마크 프로그램을 사용하였다. 그 결과 비트벡터를 이용해 공간영역을 생성하는 기존의 하드웨어 프리페처와 비교해 L1 데이터 캐시의 미스율은 평균 약 44.5% 감소하였고 L1 명령어 캐시의 미스율은 평균 약 31% 감소하였다. 또한 IPC (Instruction Per Cycle)는 평균 약 23.7% 향상을 보였다.