• 제목/요약/키워드: 온칩 메모리

검색결과 22건 처리시간 0.026초

소프트웨어 제어 온칩 메모리 서브시스템에서 불규칙 데이터 접근 패턴 최적화 기법 (An Optimization Technique for Irregular Data Access Patterns on Software Controlled On-Chip Memory SubSystems)

  • 조두산;조중석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.212-214
    • /
    • 2012
  • 데이터 집약적인 대부분의 애플리케이션들은 규칙적인 메모리 접근 패턴과 동시에 불규칙적인 접근 패턴을 커널 코드에 포함하고 있다. 그 동안 대부분의 메모리 접근 패턴 최적화 기법은 규칙적인 패턴에 집중되어 있었다. 하지만 암호화/통신 관련 애플리케이션에서는 불규칙한 패턴으로 메모리 접근의 대부분을 구성하는 경우가 많다. 이러한 불규칙한 메모리 접근 패턴을 대상으로 온칩메모리를 효율적으로 사용하도록 최적화 기법을 일반화하여 설계하는 일은 어려운 작업이기 때문에 관련 연구분야에 큰 진전이 없는 실정이다. 우리는 불규칙 메모리 접근 패턴 최적화 문제를 해결하기 위하여 데이터 클러스터링 기법을 제안하였다. 클러스터링은 접근되는 데이터의 시공간 지역성을 계산하여 이득이 큰 데이터들을 하나의 블록으로 구성하여 온칩메모리에 상주시키는 기본단위로 사용하는 기법이다. 본 기법을 이용하면 기존의 캐시메모리에 비하여 약 19% 에너지 소모를 절감할 수 있다.

DDMB 구조에서의 런타임 메모리 최적화 알고리즘 (Run-time Memory Optimization Algorithm for the DDMB Architecture)

  • 조정훈;백윤흥;권수현
    • 정보처리학회논문지A
    • /
    • 제13A권5호
    • /
    • pp.413-420
    • /
    • 2006
  • 대부분의 디지털 신호 처리기 (Digital Signal Processor)는 두 개 이상의 메모리 뱅크를 가지는 하버드 아키텍처 (Harvard architecture)를 지원한다. 다중 메모리 뱅크 중에서 하나는 프로그램용으로 나머지는 데이터용으로 사용하여 프로세서가 한 명령어 사이클에 메모리의 여러 데이터에 동시 접근을 가능하게 한다. 이전 연구에서 우리는 다중 메모리 뱅크에 효율적으로 데이터를 할당하는 방법에 대하여 논하였다. 본 논문에서는 이전 연구의 확장으로 런타임 메모리의 최적화에 대한 우리의 최근 연구에 대하여 소개한다. 듀얼 데이터 메모리 뱅3(Dual Data Memory Bank)를 효율적으로 이용하기 위해 각 메모리 뱅크에 할당된 변수를 관리하기 위한 독립적인 두 개의 런타임 스택이 필요하다. 프로시저에 대한 두 메모리 뱅크의 활성화 레코드(Activation Record)의 크기는 각 메모리 뱅크에 할당된 변수의 개수가 일정하지 않기 때문에 다를 수 있다. 따라서 여러 개의 프로시저가 연속으로 호출될 때 두 개의 런타임 스택의 크기가 크게 달라질 수 있다. 이러한 두 메모리 뱅크 사이의 불균형은 하나의 메모리에 여유 공간이 있음에도 불구하고 다른 하나의 메모리 뱅크의 사용량이 온칩 메모리(on-chip memory)범위를 초과하는 원인이 될 수 있다. 본 논문에서는 온칩 메모리를 효율적으로 사용하기 위해 두 런타임 스택의 균형 맞추기를 시도했다. 본 논문에서 제안하는 알고리즘은 상대적으로 단순하지만 효율적으로 런타임 메모리를 사용할 수 있다는 것을 실험결과를 통해 보여주고 있다.

인텔 KNL 프로세서 사례를 통한 고성능 온칩 메모리의 성능 병목 분석 및 해결 방안 연구 (An experimental study on Intel KNL processor to improve the performance of high bandwidth on-chip memory)

  • 변은규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.92-95
    • /
    • 2020
  • 나날이 커져가는 데이터 처리량의 수요를 충족시키기 위한 방법의 하나로 수십개의 코어와 여러 채널의 고대역폭 메모리를 탑재한 프로세서가 상위 슈퍼컴퓨터 시스템에 도입되어 사용되고 있다. 이러한 Scale-out 방식은 성능 한계를 크게 끌어올릴 수 있지만 제대로 된 작업 배분이 되지 않았을 때 성능이 떨어질 가능성이 있다. 본 연구에서는 인텔 KNL 프로세서의 고성능 온칩 메모리의 성능 벤치마크를 진행하여 병목 현상이 실제로 존재함을 확인하였다. 또한 이런 성능 저하 패턴을 찾아내고 원인을 분석하여 향후의 시스템에서 이러한 문제를 최소화하기 위해서 하드웨어, 시스템 소프트웨어 수준에의 보완 방안을 제안한다.

인공 신경망 가속기 온칩 메모리 크기에 따른 주메모리 접근 횟수 추정에 대한 연구 (Research on the Main Memory Access Count According to the On-Chip Memory Size of an Artificial Neural Network)

  • 조석재;박성경;박성정
    • 전기전자학회논문지
    • /
    • 제25권1호
    • /
    • pp.180-192
    • /
    • 2021
  • 이미지 인식 및 패턴 감지를 위해 널리 사용되는 알고리즘 중 하나는 convolution neural network(CNN)이다. CNN에서 대부분의 연산량을 차지하는 convolution 연산을 효율적으로 처리하기 위해 외부 하드웨어 가속기를 사용하여 CNN 어플리케이션의 성능을 향상 시킬 수 있다. 이러한 하드웨어 가속기를 사용함에 있어서 CNN은 막대한 연산량을 처리하기 위해 오프칩 DRAM에서 가속기 내부의 메모리로 데이터를 갖고 와야 한다. 즉 오프칩 DRAM과 가속기 내부의 온칩 메모리 혹은 글로벌 버퍼 사이의 데이터 통신이 CNN 어플리케이션의 성능에 큰 영향을 끼친다. 본 논문에서는 CNN 가속기 내의 온칩 메모리 혹은 글로벌 버퍼의 크기에 따른 주메모리 혹은 DRAM으로의 접근 횟수를 추산할 수 있는 시뮬레이터를 개발하였다. CNN 아키텍처 중 하나인 AlexNet에서, CNN 가속기 내부의 글로벌 버퍼의 크기를 증가시키면서 시뮬레이션 했을 때, 글로벌 버퍼 크기가 100kB 이상인 경우가 100kB 미만인 경우보다 가속기 내부와 오프칩 DRAM 간의 접근 횟수가 0.8배 낮은 것을 확인 했다.

멀티미디어 SoC 플랫폼의 효율적인 통신을 위한 크로스바 스위치 온칩 버스 설계 (A Crossbar Switch On-chip Bus Design for Efficient Communication of a Multimedia SoC Platform)

  • 허정범;임미선;류광기
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2009년도 춘계학술발표논문집
    • /
    • pp.255-258
    • /
    • 2009
  • 최근 EDA 툴의 기술적인 향상과 반도체 공정의 발달로 IC 설계자들은 RISC 프로세서, DSP 프로세서, 메모리 등 많은 IP가 하나로 집적되는 SoC구조가 가능해졌다. 하지만 기존에 사용되는 대부분의 SoC는 공유버스 구조를 가지고 있어, 병목현상이 발생하는 문제점을 가진다. 이러한 문제점은 SoC 내부의 IP들이 많을수록 SoC 플랫폼의 전체 성능이 저하되어, CPU 자체의 속도보다는 효율적인 통신에 의해 성능이 좌우된다. 본 논문에서는 공유버스의 단점인 병목현상을 줄이고 성능을 향상시키기 위하여 크로스바 스위치버스 구조를 제안한다. OpenRISC 프로세서, VGA/LCD 제어기, AC97 제어기, 디버그 인터페이스, 메모리 인터페이스로 구성되는 SoC 플랫폼의 WISHBONE 온칩 공유버스 구조와 크로스바 스위치 버스 구조의 성능을 비교한 결과, 기존의 공유버스보다 26.58%의 성능이 향상됨을 확인하였다.

  • PDF

시스템 온칩에서 스크래치 패드 메모리의 크기 탐색연구 (A Study of Scratchpad memory size exploration of System-on-a Chip)

  • 조중석;조두산;김용주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.15-17
    • /
    • 2014
  • 멀티미디어를 비롯한 많은 스트리밍 어플리케이션은 에너지 소비의 상당한 부분을 데이터 접근 연산 실행 명령어에 의해서 소비된다. 이러한 어플리케이션에서는 데이터 재사용성을 이용하여 에너지 소모량을 절감할 수 있다. 빈번히 사용되는 데이터를 고속의 상위 계층 메모리에 상주시켜 메인메모리 접근 횟수를 줄인다. 결과적으로 메모리 서브시스템에서 에너지 소모를 절감할 수 있게 된다. 본 연구에서는 어플리케이션의 재사용성을 분석하여 해당 어플리케이션에 특화된 스크래치패드 메모리 서브시스템 구성을 탐색하는 기법을 제안하고자 한다. 제안된 기법을 사용하면 하드웨어 제어 캐시 메모리와 비교하여 약 49% 에너지 소모를 절감하는 것이 가능하다.

스크래치패드 메모리를 위한 데이터 관리 기법 리뷰 (A Review of Data Management Techniques for Scratchpad Memory)

  • 조두산
    • 문화기술의 융합
    • /
    • 제9권1호
    • /
    • pp.771-776
    • /
    • 2023
  • 스크래치패드 메모리는 소프트웨어 제어 온칩 메모리로서 기존의 캐시 메모리의 단점을 완화할 수 있게 설계되어 이용되고 있다. 기존의 캐시 메모리는 태그 관련 하드웨어 제어 로직이 있어 캐시 미스를 사용자가 직접 제어할 수 없으며, 사이즈가 크고 에너지 소모량이 상대적으로 많다. 스크래치패드 메모리는 이러한 하드웨어 오버헤드를 제거하였기 때문에 사이즈, 에너지 소모량에서 장점이 있으나 데이터 관리를 소프트웨어가 해야하는 부담이 존재한다. 본 연구에서는 스크래치패드 메모리의 데이터 관리 기법들을 분류하여 살펴보고 그 장점을 극대화할 수 있는 방안에 대하여 논의하였다.

시스템 온 칩 내 eDRAM을 사용한 Tightly Coupled Memory의 병렬 테스트 구조 (A Parallel Test Structure for eDRAM-based Tightly Coupled Memory in SoCs)

  • 국인성;이재민
    • 한국정보전자통신기술학회논문지
    • /
    • 제4권3호
    • /
    • pp.209-216
    • /
    • 2011
  • 최근 시스템 온 칩 내 메모리의 고속 동작을 위해 TCM (Tightly Coupled Memory)를 내장한 설계가 크게 증가하고 있다. 본 논문에서는 시스템 온칩 내 eDRAM을 사용한 TCM 메모리를 위한 새로운 병열 메모리 테스트 구조를 제안한다. 제안하는 기법에서 피테스트 메모리가 테스트 모드에서 병렬 구조로 바뀌고 바운더리 스캔 체인과 함께 내장 메모리의 테스트용이도가 크게 향상된다. 병렬테스트 방식의 메모리는 각 메모리 요소들이 특정한 기능을 수행하도록 구조화되어 있으므로 모듈들로 분할하여 테스트 할 수 있으며 입출력 데이터를 기반으로 동적 테스트 평가 가능하다. 시뮬레이션을 통하여 제안한 기법의 타당성을 검증하였다.

멀티미디어 응용을 위한 저전력 데이터 캐쉬 구조 및 마이크로 아키텍쳐 수준 관리기법 (Low-Power Data Cache Architecture and Microarchitecture-level Management Policy for Multimedia Application)

  • 양훈모;김정길;박기호;김신덕
    • 정보처리학회논문지A
    • /
    • 제13A권3호
    • /
    • pp.191-198
    • /
    • 2006
  • 최근 디지털 멀티미디어 응용기기는 휴대 편의성은 물론 하나의 기기에서 다양한 멀티미디어 데이터 처리를 가능하게 하는 기능적 집적이 이루어지고 있다. 이와 같은 추세는 기기가 처리해야 하는 데이터 양의 증가와 이를 수행하기 위하여 요구되는 온칩 메모리의 크기 및 연산 유닛의 고성능화를 요구하여 전력 소비량의 증가를 유발시킨다. 연산 엔진에서 사용되는 대표적인 온칩 메모리인 캐쉬는 전력 사용에 있어서 중요한 비율을 차지하는 구조로 저전력 설계를 위한 구조적 개선의 주요 대상이다. 본 논문에서는 멀티미디어 응용을 수행하는 연산 엔진의 데이터 캐쉬에서 소비되는 전력을 감소시키기 위하여 멀티미디어 응용의 데이터 사용 특성을 파악하여 이 특성을 전력소비를 감소시키는 목적으로 활용 가능한 분할된 캐쉬구조를 제안한다. 그리고 각각의 분할된 캐쉬에 대하여 특정 주소 영역의 데이터 참조를 고정시킴으로써 얻을 수 있는 전력 소비면의 성능 향상을 평가한다. 시뮬레이션 결과 제안하는 캐쉬 구조는 같은 크기의 직접사상 캐쉬, 2중연관 캐쉬, 4중연관 캐쉬에 대해 유사한 성능을 나타내면서, 각각의 기존 캐쉬 구조와 비교하였을 경우 33.2%, 53.3% 및 70.4%만큼 감소된 전력으로 동작 가능하다.