• 제목/요약/키워드: 통합메모리

검색결과 179건 처리시간 0.04초

통합 메모리를 사용하는 NVIDIA 파스칼 GPU에서의 CPU 메모리와 GPU 메모리 간 데이터 통신 분석 (Evaluation of the Data Migration between CPU Memory and GPU Memory for a NVIDIA Pascal GPU Using Unified Memory)

  • 신필규;홍성수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.7-10
    • /
    • 2018
  • 통합 메모리는 CPU 메모리와 GPU 메모리 간의 데이터 통신을 개발자에게 투명하게 내재적으로 수행하는 소프트웨어 런타임 환경으로 개발자에게 CPU 메모리와 GPU 메모리가 통합된 하나의 메모리로 보이게 해준다. 통합 메모리는 장점에도 불구하고 아직 널리 사용되지 못하고 있는데 그 이유는 내재적으로 수행되는 데이터 통신의 오버헤드가 큰 것으로 알려져 있기 때문이다. 하지만 이 데이터 통신이 구체적으로 어떻게 이루어지고 오버헤드는 어떻게 발생하는지 분석한 연구는 아직 존재하지 않는다. 우리는 NVIDIA 사의 최신 GPU 마이크로아키텍처 중 하나인 파스칼을 사용하는 GPU를 대상으로 하여, 통합 메모리를 사용할 시 데이터 통신이 이루어지는 조건과 GPU 응용의 수행시간에 데이터 통신이 끼치는 영향을 실험을 통해 분석한다. 실험 결과 통합 메모리의 오버헤드는 두 가지 원인 때문에 발생한다. 첫째, 통합 메모리를 사용하면 CPU 또는 GPU가 데이터에 접근할 때마다 이 데이터는 CPU 또는 GPU 메모리로 옮겨지고 옮겨진 데이터는 제거된다. 따라서 재사용할 데이터도 제거되어 추가적인 데이터 통신이 발생하고, 이 데이터 통신의 지연시간은 GPU 응용의 수행시간에 더해진다. 둘째, 통합 메모리를 사용하면 데이터 통신과 커널들이 서로 다른 스트림에 할당되어도 동시에 수행되지 못한다. 따라서 GPU 응용의 수행시간은 동시에 수행되던 데이터 통신과 커널의 수행시간만큼 증가한다.

  • PDF

통합메모리 장치에서 CPU-GPU 데이터 전송성능 연구 (A Performance Study on CPU-GPU Data Transfers of Unified Memory Device)

  • 권오경;구기범
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권5호
    • /
    • pp.133-138
    • /
    • 2022
  • 최근 고성능컴퓨팅, 인공지능 분야에서 GPU 장치 사용이 일반화되고 있지만, GPU 프로그래밍은 여전히 어렵게 여겨진다. 특히 호스트(host) 메모리와 GPU 메모리를 별도로 관리하기 때문에 성능과 편의성 방면에서 연구가 활발히 진행되고 있다. 이에 따라 여려가지 CPU-GPU 메모리 전송 방법들이 연구되고 있다. 한편 CPU와 GPU 및 통합메모리(Unified memory) 등 하나의 실리콘 패키지로 묶는 SoC(System on a Chip) 제품들이 최근에 많이 출시되고 있다. 본 연구는 이러한 통합메모리 장치에서 CPU, GPU 장치간 데이터를 사용하고 전송시 성능관련 비교를 하고자 한다. 기존 CPU내 호스트 메모리와 GPU 메모리가 분리된 환경과는 다른 특징을 보여준다. 여기서는 통합메모리 장치인 NVIDIA SoC칩들과 NVIDIA SMX 기반 V100 GPU 카드에서 CPU-GPU 간 데이터 전송 프로그래밍 기법별로 성능비교를 한다. 성능비교를 위해 워크로드는 HPC 분야의 수치계산에서 자주 사용하는 2차원 행렬 전치 커널이다. 실험을 통해 CPU-GPU 메모리 전송 프로그래밍 방법별 GPU 커널 성능차이, 페이지 잠긴 메모리와 페이지 가능 메모리를 사용했을 경우 전송 성능차이, 전체(Overall) 성능비교, 마지막으로 워크로드 크기별 성능비교를 하였다. 이를 통해 통합메모리칩인 NVIDIA Xavier에서 I/O 캐시일관성 지원을 통해 SoC 칩내 통합메모리에 대한 이점을 극대화 할 수 있음을 확인할 수 있었다.

이동체 데이터베이스를 위한 통합 색인의 성능 평가 (Evaluation of Unified Index for Moving Object Databases)

  • 정지원;안경환;홍봉희
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2004년도 국내 LBS 기술개발 및 표준화 동향세미나
    • /
    • pp.98-104
    • /
    • 2004
  • 이동체 데이터베이스에서 이동체의 과거 궤적을 저장하기 위해 메인 메모리 기반 색인을 이용하면 시간이 지남에 따라 데이터의 방대함으로 인해 주어진 메모리 용량이 부족하게 될 수 도 있다. 이를 해결하기 위해서는 메인 메모리에 상주하는 색인의 일부를 계속해서 디스크로 이주하는 정책이 필요하다. 이런 이주 정책을 지원하는 메인 메모리 이동체 색인이 통합 색인이다. 기존 통합 색인의 색인 이주 정책인 이동 서브트리 정책은 시간 축으로 가장 오래된 엔트리를 seed 노드로 선정하여 이동 서브트리를 구성한다. 이때 항상 시간적으로 가장 오래된 노드만을 디스크로 옮김으로써 과거에 대한 질의 시 비효율적이라는 문제점을 가진다. 본 논문에서는 이주를 위한 서브트리 구성에 필요한 seed 노드를 선택하기 위해, 질의 및 삽입 시에 참조되는 단말 노드들을 유지하는 LRU 버퍼를 이용한 색인 이주 정책을 제시한다. 이를 바탕으로 메인 메모리 기반 색인의 장점과 메모리 용량 부족의 문제를 해결한 통합색인을 구현하고, 다양한 성능 평가를 통하여 제시된 이주 정책이 기존의 이주 정책에 비해 삽입 성능뿐만 아니라 영역 질의에서도 우수함을 보인다.

  • PDF

토폴로지 인지 기반 공여 메모리 관리 메커니즘 연구 (A Study on Mechanism for Topology-aware based Granted Memory Management)

  • 김영호;안신영;임은지;차규일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.95-98
    • /
    • 2014
  • 본 논문에서는 고속 저지연 네트워크로 연결된 다수의 분산 메모리 공여 노드를 통해 분산 통합 메모리 서비스를 제공하는 메모리 가상화 시스템에서, 대용량 메모리와 다수의 호스트 채널 어댑터(HCA)를 장착한 공여 노드의 프로세서, 물리 메모리, 그리고 HCA의 연결구조와 정보로부터 토폴로지 구조를 추출하고, 프로세서 중심으로 자원 연관성 정보를 나타내는 토폴로지 맵을 생성한다. 토폴로지 맵을 기반으로 공여 메모리의 초기화, 등록, 할당 및 메모리 데이터 전송 등을 수행하는 공여 메모리 관리 메커니즘을 제안한다. 이를 통해 대용량 분산 통합 메모리를 이용하는 빅데이터 처리 환경에서 참조 데이터 대한 메모리의 응답 시간 및 접근 지연 시간을 최소화시킬 수 있다.

MicroC/OS-II에서의 효율적인 메모리 관리에 관한 연구 (A Study for Effective Management of Memory to MicroC/OS-II)

  • 전영식;허신
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.798-801
    • /
    • 2008
  • MicroC/OS-II에서는 연속된 메모리 공간으로 구성된 파티션에서 고정 크기의 메모리 블록을 할당할 수 있는 방법을 제공하며, 이 파티션은 사용 가능한 메모리 블록의 개수를 유지하고, 모두 같은 크기를 갖는 메모리 블록을 단일 연결 리스트의 형태로 관리 한다. 이런 형태의 메모리 관리 시스템은 메모리 단편화 현상이 잘 일어나지 않지만 이런 단순한 구조로 메모리 공간을 통합 관리, 블록을 할당하고 반환하는데 필요한 검사등을 효율적으로 수행할 수 없다. 본 논문에서는 MicroC/OS-II에서의 단편화문제를 해결하는 방법에 더 나아가 효율적으로 메모리를 통합하고 관리하는 방법에 대해 제안하고 자 한다.

NVIDIA Tegra와 Tesla GPU에서의 CPU-GPU 데이터 전송성능 연구 (A Performance Study on CPU-GPU Data Transfers of NVIDIA Tegra and Tesla GPUs)

  • 권오경;구기범
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.39-42
    • /
    • 2021
  • 최근 HPC, 인공지능에서 GPU 성능이 향상되면서 사용이 보편화되고 있지만 GPU 프로그래밍은 난이도 측면에서 여전히 큰 장애물이다. 특히 호스트(host) 메모리와 GPU 메모리를 따로 관리해야 하는 어려움 때문에 편의성과 성능 측면에서 연구가 활발히 진행되고 있으며, 다양한 CPU-GPU 메모리 전송프로그래밍 방법들이 제시되고 있다. 본 연구는 NVIDIA Tegra 장치들과 NVIDIA SMX 기반 V100 GPU 카드에서 CPU-GPU 데이터 전송 기법별로 성능비교를 하고자 한다. 특히 NVIDIA Tegra 장치는 CPU와 GPU 통합메모리를 제공하고 있어서 CPU-GPU 메모리 전송방법의 관점에서 기존 GPU 장치와 다른 성능 특징을 보여준다. 성능비교를 위한 실험 워크로드는 HPC 응용프로그램에서 빈번하게 사용하는 2차원 행렬 전치 예제를 사용하였다. 실험을 통해 각 GPU 장치별로 CPU-GPU 메모리 전송 방법에 따른 GPU 커널 성능차이, 페이지 잠긴 메모리와 페이지 가능 메모리의 전송 성능차이, 마지막으로 전체 성능비교를 하였다.

메모리 카드 호환성 테스트를 위한 통합 검증 환경 (Co-Validation Environment for Memory Card Compatibility Test)

  • 성민영
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권3호
    • /
    • pp.57-63
    • /
    • 2008
  • 디지털 카메라, MP3 플레이어 등과 같은 가전 기기에서 낸드 플래시 메모리에 기반한 다양한 메모리 카드가 인기를 얻게 됨에 따라 기존 호스트 시스템과 새로 개발된 메모리 카드 간의 호환성 문제가 제품의 시장 진입에 큰장애가 되고 있다. 메모리 카드 호환성 테스트를 위한 일반적인 방법은 실제 호스트 시스템을 테스트 베드로 사용하는 것이다. 이를 개선하는 방법으로서 FPGA 기반의 프로토타입 보드를 이용하여 호스트 시스템을 에뮬레이션하는 것을 고려할 수 있다. 그러나 이 방법은 긴 셋업 시간을 필요로 하며, 다양한 호스트 및 장치 시스템을 표현하는데 제약이 있다. 본 논문에서는 Esterel 언어와 통합 시뮬레이션 기법에 기반한 모델을 이용하여 메모리 카드와 호스트시스템간의 호환성 테스트를 위한 통합 검증환경을 제안한다. 또한, 실제 메모리 카드 개발에 대한사례 연구를 통해 제안된 기법의 유용성을 증명한다.

  • PDF

합성곱 신경망 성능 향상을 위한 메모리 내 연산 구조 (Processing-in-Memory Architecture for Enhanced Convolutional Neural Network Performance)

  • 정건모;염호윤;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.61-64
    • /
    • 2024
  • 최근 고성능 컴퓨팅 장치의 수요 증가와 함께, 메모리 내에 연산을 가능하게 하는 하드웨어 구조가 새로이 발표되고 있다. 본 논문은 기존 DRAM 에 계산 유닛을 통합하는 새로운 메모리 내 연산 구조를 제안한다. 특히, 데이터 집약적인 합성곱 신경망 작업을 위해 최적화된 이 구조는 기존 메모리 구조를 사용하면서도 기존 구조에 분기를 추가함으로서 CNN 연산의 속도와 에너지 효율을 향상시킨다. VGG19, AlexNet, ResNet-50 과 같은 다양한 CNN 모델을 활용한 실험 결과, PINN 아키텍처는 기존 연구에 비해 최대 2.95 배까지의 성능 향상을 달성할 수 있음을 확인하였다. 이러한 결과는 PINN 기술이 저장 및 연산 성능의 한계를 극복하고, 머신 러닝과 같은 고급 어플리케이션의 요구를 충족시킬 수 있는 방안임을 시사한다.

상위 단계 합성에서의 스케줄링 효과를 이용한 메모리 탐색 (Memory Exploration utilizing Scheduling Effects in High-level Synthesis)

  • 서재원;김태환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (A)
    • /
    • pp.1-3
    • /
    • 2002
  • 본 논문에서는 상위 단계 합성(high-level synthesis)에서의 메모리 탐색(exploration) 문제를 푸는 데 있어, 현존하는 메모리 합성 시스템들이 간과했던 한 가지 중요한 성질인 메모리 탐색에서의 스케줄링 효과(scheduling effect)를 말하고자 한다. 그리고 이 성질을 충분히 활용할 수 있는 새로운 형태의 통합된 알고리즘을 제안한다. 이 알고리즘은 메모리 구성(configuration)과 스케줄을 동시에 고려한다는 것을 가장 큰 특징으로 하는데, 몇 개의 벤치마크 필터 회로에 대한 실험을 통해 제안된 탐색 기법이 빠른 시간 안에 최적에 가까운 메모리 구성을 찾는다는 것을 보일 수 있었다.

  • PDF

플래시 메모리용 DBMS를 위한 스토리지 시스템의 계층 통합에 대한 연구 (A Study of the Merging Layers of the Storage System for Flash-Based DBMS)

  • 심효기;윤경훈;박성민;정호영;차재혁;강수용
    • 디지털콘텐츠학회 논문지
    • /
    • 제8권4호
    • /
    • pp.593-600
    • /
    • 2007
  • 휴대용 기기나 디지털 미디어 기기와 같은 소형 컴퓨터는 저장 매체로 NAND 타입의 플래시 메모리를 사용한다. 하지만 이러한 기기에 사용되는 DBMS의 경우 대부분 하드디스크를 저장매체로 사용되도록 최적화되어 있다. 플래시 메모리를 사용하는 소형 컴퓨터 시스템에서는 DBMS를 사용할 때 플래시메모리를 기존 하드디스크와 같은 인터페이스로 제어하기 위해 플래시전용의 파일시스템이나 FTL 등의 계층을 추가적으로 사용하게 되며, 이 때 DBMS는 플래시 메모리를 직접 제어할 수 없게 된다. 본 논문에서는 DBMS가 파일 시스템이나 FTL과 같은 부가적인 계층 구조를 이용하지 않고 플래시 메모리를 직접 제어할 수 있는 통합된 저장 시스템을 제안한다. 또한 제안한 시스템을 실제 시스템에 직접 구현해 DBMS의 성능이 기존 시스템에 비해 크게 향상됨을 보였다.

  • PDF