• 제목/요약/키워드: Cache Miss

검색결과 99건 처리시간 0.026초

내장형 시스템을 위한 저전력 2-레벨 캐쉬 메모리의 설계 (Low-Power 2-level Cache Architectures for Embedded System)

  • 이종민;김순태;김경아;박수호;김용호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.806-809
    • /
    • 2008
  • 온칩(on-chip) 캐쉬는 외부 메모리로의 접근을 감소시키는 중요한 역할을 한다. 본 연구에서는 내장형 시스템에 맞추어 설계된 2-레벨 캐쉬 메모리 구조를 제안하고자 한다. 레벨1(L1) 캐쉬의 구성으로 작은 크기, 직접사상(direct-mapped) 그리고 바로쓰기(write-through)를 채용한다. 대조적으로 레벨2(L2) 캐쉬는 일반적인 캐쉬 크기와 집합연관(Set-associativity) 그리고 나중쓰기(write-back) 정책을 채용한다. 결과적으로 L1캐쉬는 한 사이클 이내에 접근될 수 있고 L2캐쉬는 전체 캐쉬의 미스율(global miss rate)을 낮추는데 효과적이다. 두 캐쉬 계층간 바로쓰기(write-thorough) 정책에서 오는 빈번한 L2 캐쉬 접근으로 인한 에너지 소비를 줄이기 위해 본 연구에서는 One-way 접근 기법을 제안하였다. 본 연구에서 제안한 2-레벨 캐쉬 메모리 구조는 평균적으로 26%의 성능향상과 43%의 에너지 소비 그리고 77%의 에너지-지연 곱에서 이득을 보여주었다.

실시간 모바일 GIS 응용 구축을 위한 주기억장치 데이터베이스 시스템 설계 및 구현 (Design and Implementation of a Main-Memory Database System for Real-time Mobile GIS Application)

  • 강은호;윤석우;김경창
    • 정보처리학회논문지D
    • /
    • 제11D권1호
    • /
    • pp.11-22
    • /
    • 2004
  • 최근 들어 계속되는 램 가격 하락으로 인해 대용량의 램을 사용하는 주기억장치 데이터베이스 시스템의 구축이 실현 가능하게 되었다. 주기억장치 데이터베이스는 여러 다양한 실시간 응용 분야를 위해 사용되며, 매년 CPU 속도가 60% 정도 증가되고, 메모리 속도가 10% 증가되는 현실에서, 케쉬 미스(Cache miss)를 얼마나 줄이느냐 하는 문제가 주기억장치 데이터베이스의 검색 성능 측면에서 가장 중요한 문제로 대두되고 있다. 본 논문에서는 이러한 환경을 고려한 실시간 모바일 GIS응용을 위한 주기억장치 데이터베이스 시스템을 설계 및 구현한다. 본 시스템은 크게 PDA를 사용하는 모바일 사용자를 위한 인터페이스 관리기와 가상 메모리 기법을 사용해 전체 데이터를 주기억장치에 상주시키며 관리하는 주기억 데이터 관리기, 공간 및 비 공간 질의를 처리하는 질의처리기, 새롭게 제시하는 공간 데이터를 위한 MR-트리 인덱스와 비 공간 데이터를 위한 T-트리 인덱스 구조를 관리하는 인덱스 관리기, 데이터를 디스크에 저장하기 위한 GIS 서버 인터페이스로 구성된다. 새롭게 제시하는 공간 인덱싱을 위한 MR-트리는 노트 분할이 발생될 경우, 입력 경로 상에 하나 이상의 빈 엔트리를 지니는 노드가 존재할 경우에만, 노드 분할을 상위로 전송한다. 그러므로 중간 노드들은 항상 100%에 가깝게 채워져 있게 된다. 본 논문의 실험 결과, 2차원의 MR-트리는 기존의 R-트리에 비해 2.4배 이상의 빠른 검색 속도를 나타냈다. 한편, 주 기억 데이터 관리기는 가상 메모리 제공을 위해 전체 벡터 데이터 및 MR-트리, T-트리, 데이터 객체 텍스트 정보를 페이지 단위로 분할하여 관리하고, 간접 주소 기법을 사용하여 디스크로부터의 재 로딩시 발생할 수 있는 문제점을 제거하였다.

Hybrid SSD 시스템을 위한 재사용 간격 기반 블록 교체 기법 (Block Replacement Scheme based on Reuse Interval for Hybrid SSD System)

  • 유상현;김경태;윤희용
    • 인터넷정보학회논문지
    • /
    • 제16권5호
    • /
    • pp.19-27
    • /
    • 2015
  • 최근 SSD(Solid State Drive)는 빠른 읽기/쓰기, 저전력 등 다양한 장점을 가지고 있어 스마트폰, 노트북, 서버 등의 저장장치로 사용 영역이 확대되고 있다. 하지만, 플래시 메모리의 읽기 및 쓰기의 비대칭적 성능과 제한된 쓰기 횟수가 SSD의 수명을 단축시키는 문제가 있어서 캐쉬(cache)로 사용되는 SSD의 내용을 변경시키는 블록 교체 기법(block replacement policy)이 매우 중요하다. Hybrid SSD의 수명을 향상 시킬 수 있는 방법 중 하나로 LARC 기법이 있으나, LARC는 SSD블록 관리를 위해 기존 LRU알고리즘을 사용하기 때문에 빈번히 참조되는 블록이 오래된 블록 대신 교체되어 SSD 미스율을 증가시킴으로써 시스템의 성능이 저하되는 문제점이 발생한다. 따라서, 본 논문에서는 다양한 데이터 읽기, 쓰기 환경에 효과적으로 대응하기 위해 블록의 재사용 간격을 고려한 새로운 블록 교체 기법을 제안한다. 제안된 기법은 블록 재사용 간격(Reuse interval)과 Age를 기반으로 최근성(Recency)을 추출하고 참조빈도(Frequency)를 같이 고려하여 블록을 교체한다. Workload 기반 Trace를 이용한 실험결과, 제안하는 기법은 여러가지의 기존 블록 교체 기법 및 LARC 알고리즘과 비교하여 쓰기 횟수 감소와 히트율 향상을 통해 시스템 성능과 SSD의 수명을 연장시킨다.

오디오 신호 처리를 위한 초저전력 DSP 프로세서 (Ultra-low-power DSP for Audio Signal Processing)

  • 권기석;안민욱;조석환;이연복;이승원;박영환;김석진;김도형;김재현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2014년도 하계학술대회
    • /
    • pp.157-159
    • /
    • 2014
  • In this paper, we introduce SlimSRP, an ultra-low-power digital signal processor (DSP) solution for mobile audio and voice applications. So far, application processors (APs) have taken charge of all the tasks in mobile devices. However, they have suffered from short battery life problems to deal with complex usage scenarios, such as always-on voice trigger with continuous audio playback. From extensive analysis of audio and voice application characteristics, SlimSRP is designed to relive the performance and power burden of APs. It employs three-issue VLIW architecture, and the major low-power and high-performance techniques include: (1) an optimized register-file architecture friendly for constants generation, (2) a powerful instruction set to reduce the number of register file accesses and (3) a unique instruction compression scheme that contributes to saved memory size and reduced cache miss. An implementation of SlimSRP runs at up to 200MHz and the logic occupies 95K NAND2 gates in Samsung 28LPP process. The experimental results demonstrate that a MP3 decoder application with a 128kbps 44.1kHz input can run at 5.1MHz and the logic consumes only 22uW/MHz.

  • PDF

로버스트 추정을 이용한 다중 프로세서에서의 데이터 통신 예측 모델 (Data Communication Prediction Model in Multiprocessors based on Robust Estimation)

  • 전장환;이강우
    • 정보처리학회논문지A
    • /
    • 제12A권3호
    • /
    • pp.243-252
    • /
    • 2005
  • 본 논문에서는 최소제곱 추정기법과 로버스트 추정기법을 사용하여 다중 프로세서 시스템에서의 데이터 통신의 빈도를 모델링하는 방법을 제안한다. 몇 가지의 서로 다른 크기의 작은 입력 데이터들을 작업부하 프로그램에 부과하여 그때마다의 통신 빈도를 측정하고, 이 측정된 값들에 두 가지 통계적 추정기법을 순차적으로 적용함으로써 통신 빈도를 정확히 예측할 수 있는 모델을 구축하는 방법이다. 이 모델링 기법은 작업부하나 목표시스템의 구조적인 사양에 무관하게 입력 데이터의 크기에만 의존하므로 다양한 작업부하와 목표시스템에 대하여 그대로 적용할 수 있는 장점이 있다. 또한 목표시스템에서 작업부하의 알고리즘적 동적특성이 수학적인 공식으로 반영되므로 데이터 통신이외의 성능 데이터를 모델링하는 데에도 적용할 수 있다. 본 논문에서는 대표적인 다중 프로세서인 공유메모리 시스템에서 데이터 통신을 유발하는 핵심 요소인 캐시접근실패의 빈도에 대한 모델을 구하였으며, 12번의 실험 중 5번의 경우에는 $1\%$ 미만, 나머지 경우에는 $3\%$ 내외의 대단히 정확한 예측 오차율을 보였다.

삼중 행렬 곱셈의 효율적 연산 (An Efficient Computation of Matrix Triple Products)

  • 임은진
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권3호
    • /
    • pp.141-149
    • /
    • 2006
  • 본 논문에서는 회로 설계 소프트웨어에서 사용되는 primal-dual 최적화 문제의 해를 구하기 위해 필요한 삼중 행렬 곱셈 연산 ($P=AHA^{t}$)의 성능 개선에 관하여 연구하였다. 이를 위하여 삼중 행렬 곱셈 연산의 속도를 개선하기 위하여 기존의 2단계 연산 방법을 대신하여 1단계 연산 방법을 제안하고 성능을 분석하였다. 제안된 방법은 희소 행렬 H의 블록 대각 구조의 특성을 이용하여 부동 소숫점 연산량을 감소시킴으로써 성능 개선을 이루었으며 더불어 메모리 사용량도 기존 방법에 비하여 50% 이하로 감소하였다. 그 결과 Intel Itanium II 플랫폼에서 기존 2단계 연산 방법과 비교하여 속도 면에서 주어진 실험 데이터 집합에 대하여 평균 2.04 의 speedup을 얻었다. 또한 본 논문에서는 플랫폼의 메모리 지연량과 예측된 캐쉬 미스율을 이용한 성능 모델링을 통하여 이와 같은 성능 개선 수치의 가능 범위를 보이고 실측된 성능개선을 평가하였다. 이와 같은 연구는 희소 행렬의 성능 개선 연구를 기본 연산이 아닌 복합 연산에 적용하는 연구로써 큰 의미가 있다.

  • PDF

CPU-GPU환경에서 효율적인 메인메모리 접근을 위한 융합 프로세서 구조 개발 (A Development of Fusion Processor Architecture for Efficient Main Memory Access in CPU-GPU Environment)

  • 박현문;권진산;황태호;김동순
    • 한국전자통신학회논문지
    • /
    • 제11권2호
    • /
    • pp.151-158
    • /
    • 2016
  • 이기종시스템 구조(HSA)는 두 유닛의 각각에 메모리 폴(pools)이 가상메모리를 통해 공유할 수 있게 됨에 따라 CPU와 GPU 아키텍처의 오랜 문제를 해결하였다. 그러나 물리적 실제 시스템에서는 가상메모리 처리를 위해 GPU와 GPU 사이의 빈번한 메모리 이동으로 병목현상(Bottleneck)과 일관성 요청(Coherence request)의 오버헤드를 갖게 된다. 본 연구는 CPU와 GPU간의 효율적인 메인 메모리 접근방안으로 퓨전프로세서 알고리즘을 제안하였다. CPU가 요청한 처리할 메모리 영역을 GPU의 코어에 맞게 분배 제어해주는 기능으로 작업관리자(Job Manager)와 Re-mapper, Pre-fetcher를 제안하였다. 이를 통해 CPU와 GPU간의 빈번한 메시지도 감소되고 CPU의 메모리주소에 없는 Page-Table 요청이 낮아져 두 매체간의 효율성이 증대되었다. 제안한 알고리즘의 검증 방안으로 QEMU(:short for Quick EMUlator)기반의 에뮬레이터를 개발하고 CUDA(:Compute Unified Device. Architecture), OpenMP, OpenCL 등의 알고리즘과 비교평가를 하였다. 성능평가 결과, 본 연구에서 제안한 융합 프로세서 구조를 기존과 비교했을 때 최대 198%이상 빠르게 처리되면서 메모리 복사, 캐시미스 등의 오버헤드를 최소화하였다.

하드디스크 대용을 위한 공간적 스마트 버퍼 플래시 메모리 시스템 (Flash memory system with spatial smart buffer for the substitution of a hard-disk)

  • 정보성;이정훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권3호
    • /
    • pp.41-49
    • /
    • 2009
  • 플래시 메모리는 저전력, 저렴한 가격, 그리고 대용량저장매체로 그 중요성 및 수요에 대한 요구가 증대되고 있다. 이 연구는 하드디스크 대용을 위한 플래시 메모리 시스템을 구현하기 위하여 공간적 스마트 버퍼시스템을 통한 적극적인 공간적 지역성의 동적 페칭으로 고성능 플래시 메모리 설계에 목적이 있다. 제안된 플래시 메모리 시스템은 시간적 지역성을 위한 희생 버퍼, 공간적 지역성을 위한 공간적 버퍼 그리고 동적 페칭 유닛으로 이루어져 있다. 우리는 적극적인 동적 페칭을 위해 새로운 페칭 알고리즘을 제안한다. 즉, 새로운 구조와 새로운 알고리즘을 통하여 하드디스크 대용의 플래시 메모리 사용시 고려되어져 야 할 플래시 메모리의 단점을 줄여 범용 및 미디어 응용군에서 모두 고성능 효과를 이룰 수 있었다. 시뮬레이션 결과평균 접근실패율의 경우 미디어 응용군에 대해 기존의 스마트 버퍼시스템에 비해 25%감소 효과를 얻을 수 있었고, 평균 메모리 접근 시간의 경우스마트 버퍼시스템에 비해 35% 감소 효과를 얻을 수 있었다. 일반 범용 응용군에서도 30% 이상의 향상된 평균 메모리 접근 시간을 보였다.

휴대장치를 위한 응용프로그램 특성에 따른 적응형 전력관리 기법 (An Application-Specific and Adaptive Power Management Technique for Portable Systems)

  • 이강웅;이재진;신현식
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권8호
    • /
    • pp.367-376
    • /
    • 2007
  • 본 논문은 dynamic voltage scaling (DVS)를 지원하는 휴대장치를 대상으로 하여 응용프로그램 특성에 따라 실행 중에 전력관리 기법이 다르게 적용되는 적응형 전력관리 기법에 대하여 소개한다. 본 논문의 전력관리 기법은 멀티태스킹 시스템에서 실행되는 soft real-time 프로그램의 memory subsystem 과 프로세서의 실행 시간(run time) 및 유휴 시간(idle time)을 고려하여 프로그램 실행 중에 최적의 DVS가 적용될 수 있도록 하여 전력을 관리한다. 세부적인 전력 및 실행시간 프로파일 정보를 이용할 수 있도록 adaptive power manager(APM)를 개발하여 운영체제에 연동시켰고, Post-pass 최적화기는 APM을 위한 적응형 API를 프로그램의 실행이미지에 삽입하여 실행 중 DVS가 적용되는 코드영역을 표시한다. APM은 프로그램 실행 중에 cache miss 수 등을 측정하는 CPU의 pertormance counter들을 관찰한다. Performance counter들의 값을 바탕으로 CPU와 memory 중심의 코드 영역을 구분하여 프로세서의 유휴 시간에 대한 분석을 수행하고, 표시된 코드영역들에 대한 최적정 전압과 동작 클락을 결정하여 시스템에 반영한다. 제안하는 기법의 효과를 보이기 위하여 Intel의 XScale 프로세서 상에서 동작하는 Windows CE에 본 기법을 구현하였고, 실험을 통하여 본 논문에서 제시하는 기법이 영상이나 음성 데이타를 해독하는 프로그램과 같이 정기적으로 비슷한 일을 수행하는 프로그램에서 효과적임을 알 수 있었다. 실험 결과 본 기법으로 유휴시간에 프로세서를 저전력모드로 바꾸는 기존의 고전적인 전력 관리 기법보다 전체 시스템 전력 소모를 9% 더 절약할 수 있었다. 위성영상과 DEM 개발기술이 87% 이상의 점수를 받아 가장 시장성 및 활용성이 높은 기술로 평가되었으며, 초다분광영상에 대한 기술은 70%를 겨우 넘는 수준에서 평가가 되었다. 멀티센서 공간영상정보 통합처리 기술 개발은 다목적 실용위성의 보유, 국가 NGIS 사업의 결과물이 상당히 축척이 되어 있고, 라이다(LiDAR) 기술의 도입을 위한 환경이 조성되었기에 다른 국가에 비해 멀티센서 기술의 적용과 산업화가 가시화 될 수 있을 것으로 기대된다. 그러나 멀티센서 자료의 수급이 용이하지 못하고, 법 제도적인 한계, 시장의 성숙도가 기대이하라는 점 등의 한계를 노정하고 있다.a var. sieboldii 3. Pinus densiflora, Q. aliena, Q. acutissima, P. thunbergii, Q. acuta 4. Carpinus laxiflora, Camellia japonicas. C. tschonoskii community의 5개 그룹으로 나타났다. 하류의 부착돌말류는 상대적으로 양호한 수질을 가지고 있는 정점 1에서 다양한 생물상을, 탄천의 영향을 받는 정점 2는 상대적으로 수질이 악화되어 호오염성 종들이 높은 분포를 나타내고 있었다. 또한 부착돌말류 중 Cymbella minuta는 다른 부착돌말류에 비해 강한 오염지표성을 나타내고 있었다.p=0.000, $4.76{\pm}3.31$ vs $1.29{\pm}0.92$, p=0.000). 골전이 병소의 발생부위는 척추골이 가장 많았으며, 골반골, 늑골, 두개골, 흉골, 견갑골, 대퇴골, 쇄골, 상완골 순서였다. 두개골 전이병소에 SUVmax가 가장 높은 값을 나타내었으며, 늑골의 SUVrel가 가장 높은 값을 나타내었다. 경화성 골전이 병소가 다른 형태의 골전이