• 제목/요약/키워드: Main memory access architecture

검색결과 25건 처리시간 0.022초

스토리지 클래스 램을 위한 통합 소프트웨어 구조 (A Unified Software Architecture for Storage Class Random Access Memory)

  • 백승재;최종무
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제36권3호
    • /
    • pp.171-180
    • /
    • 2009
  • 바이트 단위 임의 접근이라는 램 특성과, 비휘발성이라는 디스크의 특성을 동시에 제공하는 FeRAM, MRAM, PRAM등의 스토리지 클래스 램(Storage Class Random Access Memory, SCRAM)이 소형 임베디드 시스템을 중심으로 점차 그 활용범위를 넓혀가고 있다. 본 논문에서는 SCRAM을 주기억 장치 및 보조 기억 장치로서 동시에 사용할 수 있는 차세대 통합 소프트웨어 구조를 제안한다. 제안된 구조는 크게 스토리지 클래스 램 드라이버(SCRAM Driver)와 스토리지 클래스 램 관리자(SCRAM Manager)로 구성된다. SCRAM Driver는 SCRAM을 직접 관리하며, FAT이나 Ext2와 같은 전통적인 파일 시스템이나 버디 할당자와 같은 전통적인 메모리 관리자, 혹은 SCRAM Manager 등의 상위 소프트웨어 계층에 저수준 인터페이스를 제공한다. SCRAM Manager는 파일 객체와 메모리 객체를 통합하여 관리함으로써 이들 간에 부가적인 비용이 없는 변환을 가능케 한다. 제안된 기법은 FeRAM이 장착된 실제 시스템에서 실험되었으며, 실험 결과를 통해 SCRAM Driver가 효율적으로 전통적인 파일시스템과 메모리 관리자가 요구하는 기능을 제공할 수 있음을 보였다. 또한 기존의 파일 시스템과 메모리 관리자를 통해 각각 SCRAM을 접하는 경우보다 SCRAM Manager가 수십 배 빠른 성능을 보임을 확인할 수 있었다.

마스크/논리 연산에 효율적인 H/W 구조를 갖는 영상 데이터 처리장치 (An image data processing unit of efficient H/W structure for mask/logic operations)

  • 이상현;김진헌;박귀태
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1993년도 한국자동제어학술회의논문집(국내학술편); Seoul National University, Seoul; 20-22 Oct. 1993
    • /
    • pp.685-691
    • /
    • 1993
  • This paper introduces a PC-based image data processing unit that is composed of preprocessor board and main processor board; The preprocessor contains Inmos A110 processor and efficient H/W architecture for fast mask/logic operations at the speed of video signal rate. It is controlled by the main processor which communicates with the host PC. The main processor board contains TI TMS320C31 digital signal processor, and can access the frame memory of the processor for extra S/W tasks. We test 3*3, 5*5 masks and logic operations on 386/486/DSP and compare the result with that of the proposed unit. The result shows ours are extremely faster than conventional CPU based approach, that is, over several hundred times faster than even DSP.

  • PDF

다중 프로세서 시스템에서 프로세서 지역성을 이용한 원격 캐쉬 교체 정책 (Remote Cache Replacement Policy using Processor Locality in Multi-Processor System)

  • 한상윤;곽종욱;장성태;전주식
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권11_12호
    • /
    • pp.541-556
    • /
    • 2005
  • 컴퓨터 시스템에서의 메모리 접근 지연은 전체 시스템 성능에 큰 장애 요인 중 하나이다. 특히 분산 메모리 구조에서 지역 메모리와 원격 메모리의 접근 지연 시간은 큰 차이를 나타낸다. 원격 메모리 접근 지연으로 인한 성능 저하를 줄이고자 원격 메모리 영역만을 캐싱하는 원격 캐쉬가 제안되었으며, 원격 캐쉬는 프로세서 캐쉬와 더불어 다단계 캐쉬 형태로 구성된다. 일반적으로 상위 계층 캐쉬의 모든 내용을 하위 계층 캐쉬가 반드시 포함하는 다단계 캐쉬 내포성(MLI)을 지키는 다중 계층 메모리 구조에서 LRU 교체 정책을 사용할 경우, 하위 계층 캐쉬의 LRU 알고리즘에 따른 라인 교체로 인하여 상위 계층 캐쉬의 라인 교체가 일어날 패, 상위 계층 캐쉬로 요구된 라인 교체가 상위 계층 캐쉬 자체의 LRU 정보와 일치하지 않는 경우가 발생하며, 이로 인해 상위 캐쉬의 적중률이 저하되어 전체 시스템 성능이 저하된다. 본 논문은 원격 캐쉬를 추가시킨 분산 공유 메모리 구조 다중 프로세서 시스템의 성능 향상을 위해 LRU 캐쉬 교체 정책의 단점을 보완한 새로운 원격 캐쉬 교체 정책을 제안한다. 논문에서 제안하는 교체 정책은 LRU 정보에 부가하여 프로세서의 시간적 접근 지역성을 이용하여 교체할 캐쉰 라인을 선택하게 함으로써, 프로세서에서 자주 사용되는 원격 캐쉬 라인의 교체가 일어나지 않도록 하여 시스템의 성능 향상을 꾀한다. 시뮬레이션을 통한 성능비교 결과, 본 논문에서 제시한 원격 캐쉬 교체 정책은 기존의 LRU 교체 정책과 비교하여 평균 $3\%$, 최대 $10\%$의 무효화 및 캐쉬 접근 실패를 감소시켰고, 이 결과 전체 시스템의 성능은 평균 $2.5\%$, 최대 $3.5\%$ 향상되었다.

대용량 메모리를 가진 병렬 데이터베이스 시스템의 조인 연산 (Join Operation of Parallel Database System with Large Main Memory)

  • 박영규
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.51-58
    • /
    • 2007
  • 확장성에서 장점을 가지고 있는 비공유 병렬 프로세서 구조는 병렬 데이터베이스 시스템에서 많이 적용되고 있는 구조이다. 그러나 비공유 병렬 프로세서 구조는 데이터의 분포가 전체 프로세서에게 균일하게 분포되어 있지 않을 경우에는 일부 프로세서에게 부하가 집중되고 이로 인한 성능의 감소가 불가피하게 되는 단점이 있다. 특히 부하의 불균형 정도가 심한 경우에 조인 연산을 수행할 때 이런 성능 감소의 단점은 두드러진다. 본 논문은 비공유 병렬 프로세서 구조에서 부하의 불균형 정도가 심한 경우에도, 조인 연산을 실시하기 전에 부하 불균형을 고려함으로써 성능 감소를 최소화하고, 메모리의 대용량화를 이용하여 성능을 높인 조인 알고리즘을 제시한다. 또한 알고리즘의 성능 분석을 위한 분석 모델을 제시하며, 분석 모델을 통하여 데이터 불균형 문제를 해결하기 위한 다른 알고리즘과의 성능을 비교한다.

  • PDF

H.264 비디오 코덱을 위한 고속 움직임 예측기의 하드웨어 구조 (A New Hardware Architecture of High-Speed Motion Estimator for H.264 Video CODEC)

  • 임정훈;서영호;최현준;김동욱
    • 방송공학회논문지
    • /
    • 제16권2호
    • /
    • pp.293-304
    • /
    • 2011
  • 본 논문에서는 H.264/AVC 인코더에서 가장 많은 연산 시간이 소요되는 움직임 추정(motion estimation, ME) 동작을 위한 하드웨어의 구조를 제안하고 IP(intellectual property) 형태로 구현하였다. 고속 움직임 추정기의 구조는 버퍼(buffer), PU 어레이(processing unit array), SAD 선택기(SAD selector), MV 생성기(motion vector generator) 등으로 구성되어 있다. PU 어레이는 16개의 PU로 구성되어 있고, 각각의 PU는 16개의 PE(processing element)로 이루어져 있다. 제안한 하드웨어의 동작적인 특징은 외부메모리 접근량을 줄이기 위해 현재와 참조프레임의 데이터를 재사용한다는 것과 SAD연산을 수행할 때 클록의 손실 없이 계산을 할 수 있다는 것이다. 구현한 고속 움직임 추정기는 Altera 사의 FPGA인 StatixIII EP3SE80F1152C2에서 3%의 자원을 사용하였고, 최대 동작주파수는 446.43MHz이었다. 따라서 구현한 하드웨어는 1080p 영상을 최대 50fps로 처리할 수 있다.

호스트 부하 경감 달성을 위한 zynq SoC를 적용한 FC-NIC 설계에 관한 연구 (A Study of FC-NIC Design Using zynq SoC for Host Load Reduction)

  • 황병창;서정훈;김영수;하성우;김재영;장순건
    • 한국항행학회논문지
    • /
    • 제19권5호
    • /
    • pp.423-432
    • /
    • 2015
  • 본 논문은 IMA (integrated modular avionics) 기반의 공통기능 모듈의 5대 구성 요소 중의 하나인 네트워크 유닛을 구성하는 데 필요한 FC-NIC (fibre channel network interface card)의 설계 제작 및 성능 평가 결과를 나타내고자 한다. 특히 호스트 부하 경감을 위해 zynq SoC (system on chip)를 사용하여 FC-NIC을 구현하였다. 호스트는 송신하고자 하는 메시지 또는 데이터에 대하여 FC 수신자 주소, 호스트 메모리 위치와 크기만을 FC-NIC으로 전달하면 FC-NIC은 DMA (direct memory access)를 통하여 호스트 메모리를 읽는다. FC 상위 프로토콜과 시퀀스 및 인코딩 디코딩은 FC-NIC의 zynq SoC내의 로컬 프로세서와 프로그램어블 로직이 감당하게 되므로 호스트는 외부 통신에 대한 부하를 해소할 수 있다. 설계 및 제작된 FC-NIC은 2.125 Gbps 전송 속도에서 평균 5.47 us의 낮은 end-to-end 레이턴시 특성을 보였으며, IMA기반의 항공 전자 장비의 네트워크로 사용하는 데 적합함을 알 수 있다.

퐁 음영법을 위한 3차원 그래픽 가속기의 구현 (An Implementation of 3D Graphic Accelerator for Phong Shading)

  • 이형;박윤옥;박종원
    • 한국멀티미디어학회논문지
    • /
    • 제3권5호
    • /
    • pp.526-534
    • /
    • 2000
  • CAD/CAM, 3차원 모델링, 가상현실, 그리고 의학 영상의 처리 속도를 높이기 위한 3차원 가속기에 대한 많은 연구들이 진행 중이다. 본 논문에서는 3차원 그래픽 처리속도를 향상하기 위하여 SIMD처리기 구조의 3차원 가속기를 제안하며, 기존의 퐁 음영법을 제안된 구조에 맞게 병렬화하고 수행함으로써 직접적인 성능분석을 시도하였다. 3차원 SIMD 처리기 구조는 PCI 지역 버스 인터페이스, 16개의 처리기, 그리고 Park's 다중접근기억장치로 구성되며, 다중접근 기억장치는 17개의 외부 메모리 모듈을 갖는다. 기존의 직렬 퐁 음영법을 SIMD 처리기 구조에 수행될 수 있도록 하나의 다면체를 여러 개의 $4\times{4}$의 정방형 다면체로 나누어서 처리하는 병렬 퐁 음영 법으로 수정하였으며, 하나의 정방형 다면체는 다중접근기억장치가 간격이 1인 블록 접근이 가능하기 때문에 17개의 처리기가 동시에 처리할 수 있다. SIMD처리기 구조에서 수행되는 병렬화된 퐁 음영법을 하드웨어 모의실험 패키지인 CADENCE사의 Verilog-XL로 모의실험을 수행한 결과 5.14배의 속도향상을 보임을 확인하였다.

  • PDF

실사기반 디지털 홀로그래픽 비디오의 실시간 생성을 위한 하드웨어의 설계 (A New Hardware Design for Generating Digital Holographic Video based on Natural Scene)

  • 이윤혁;서영호;김동욱
    • 전자공학회논문지
    • /
    • 제49권11호
    • /
    • pp.86-94
    • /
    • 2012
  • 본 논문에서는 고속으로 홀로그램을 생성할 수 있는 하드웨어의 구조를 제안하고 이를 구현하였다. 제안한 하드웨어는 홀로그램 평면의 행 단위로 병렬 연산을 수행할 수 있는 구조를 가지고 있고, 한 행의 각 홀로그램 화소들이 독립적으로 연산될 수 있는 알고리즘을 이용하였다. 이러한 연산 방법을 통해서 홀로그램 생성 하드웨어서 가장 문제가 되는 메모리 접근량을 대폭 감소시킴으로써 하드웨어 처리능력의 실시간성을 대폭 향상시켰다. 제안한 하드웨어는 입력 인터페이스, 초기 파라미터 연산기, 홀로그램 화소 연산기, 라인 버퍼, 그리고 메모리 제어기로 구성된다. 제안한 하드웨어는 기존의 하드웨어와 동일한 처리 능력을 가지면서도 메모리 접근횟수는 약 20,000배 감소시킬 수 있었다. 구현한 하드웨어는 198MHz에서 안정적으로 동작할 수 있었고, 168,960개의 LUT, 153,944개의 레지스터, 그리고 19,212개의 DSP 블록을 사용하였다.

네트워크 프로세서의 성능 예측을 위한 고속 이더넷 제어기의 상위 레벨 모델 검증 (Model Validation of a Fast Ethernet Controller for Performance Evaluation of Network Processors)

  • 이명진
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권1호
    • /
    • pp.92-99
    • /
    • 2005
  • 본 논문에서는 SystemC를 이용하여 네트웍 SOC에 적용이 가능한 상위 계층 설계 방법을 제안한다. 본 방식은 실제 양산되고 있는 네트웍 SOC를 기준 플랫폼으로 하여 NAT 라우터에서 보다 높은 변환율을 얻기 위한 최적의 하드웨어 계수 결정을 목표로 한다. 네트웍 SOC에 내장된 고속 이더넷 MAC, 전용 I)MA, 시스템 모듈들은 트랜잭션 레벨에서 SystemC를 이용하여 모델링되었다. 고속 이더넷 제어기 모델은 실제 Verilog RTL의 동작을 사이클 단위로 측정한 결과를 토대로 동작이 세부 조정되었다. SystemC 환경의 NAT 변환율은 기준 플랫폼 검증 보드상의 측정 결과와 비교하여 $\pm$10% 이내의 오차를 보였고, RTL 시뮬레이션보다 100배 이상의 속도 이득을 보였다. 본 모델은 NAT 라우터에서 성능 저하의 원인을 찾는 SOC 구조 탐색을 위해 사용될 수 있다.

OpenRISC 코어의 성능향상을 위한 캐쉬 구조 설계 (Cache Architecture Design for the Performance Improvement of OpenRISC Core)

  • 정홍균;류광기
    • 대한전자공학회논문지SD
    • /
    • 제46권1호
    • /
    • pp.68-75
    • /
    • 2009
  • 최근 마이크로프로세서의 성능이 빠르게 향상됨에 따라 주 메모리의 접근 시간이 증가하고 있어 캐쉬의 필요성이 증대되고 있다. 직접사상 캐쉬는 주 메모리의 각각의 블록이 하나의 캐쉬 라인에 사상되는 구조로서 사상되는 규칙이 간단하지만 서로 다른 블록이 하나의 캐쉬 라인에 사상될 경우 블록의 충돌에 의한 접근 실패율이 집합연관 캐쉬에 비해 높아진다. 본 논문에서는 OpenRISC 코어의 직접사상의 단점을 개선하기 위해 사원 집합연관 캐쉬 구조를 제시한다. 제시한 캐쉬는 주 메모리의 네 개의 블록이 하나의 캐쉬 라인에 사상되는 구조로서 직접사상 캐쉬에 비해 접근 실패율이 감소한다. 또한 라인 교체 방식으로 Pseudo-LRU 방식을 채택하여 LRU 정보를 저장하는 비트 수를 감소시켰다. FPGA 에뮬레이션을 이용하여 사원 집합연관 캐쉬를 포함한 OpenRISC 코어를 검증하였고, 테스트 프로그램을 이용하여 성능을 측정한 결과, 사원 집합연관 캐쉬를 포함한 OpenRISC 코어의 성능이 기존의 OpenRISC 코어의 성능에 비해 약 50% 향상되었고, 미스율은 15%이상 감소하였다.