• 제목/요약/키워드: NVIDIA

검색결과 163건 처리시간 0.024초

OpenGL과 Nvidia 영상코덱을 사용한 실시간 자유시점 재생기 설계 및 구현 (Design and Implementation of Free-view Player using OpenGL and Nvidia Video Codec)

  • 구동준;안희준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.263-266
    • /
    • 2020
  • 사용자에게 본인이 원하는 시점과 시각을 선택할 수 있도록 하는 자유시점 (Free Viewpoint) MPEG-I 과제를 통하여 3DOF, 3DOF+, 6DOF의 표준을 개발 중이다. 실사 영상의 자유시점 영상을 구현하는 방법으로는 깊이정보를 사용한 렌더링 기법을 사용하는데, 이를 실시간 재생할 수 있는 시스템은 개발되지 않았다. 본 논문에서는 PC 사양에서 NVIDIA 영상 코덱과 OpenGL사용하는 rtRVSlibrary를 바탕으로, 최대 8개의 HD급 다중 뷰 영상 입력 (컬러+깊이)을 자유 시점을 실시간 생성하여 디스플레이하는 재생기를 설계 및 개발하였다. 사용자는 원하는 시점으로 상하좌우앞뒤(회전)로 자유롭게 이동할 수 있으며, 계산양과 화질 효율성을 고려하여 디코딩한 입력영상 중에 두 개의 시점을 선별하는 알고리즘을 개발하여 실시간 동작 (25fps)을 검증하였다.

  • PDF

NVIDIA 의 GPGPU 를 이용한 수 많은 구형 접촉 입자가 포함된 다물체 동역학 해석 (Co-simulation of MultiBody Dynamics and Plenteous Sphere of Contacted Particles Using NVIDIA GPGPU)

  • 박지수;윤준식;최진환;임성수
    • 대한기계학회논문집A
    • /
    • 제36권4호
    • /
    • pp.465-474
    • /
    • 2012
  • 본 연구에서는 수 많은 입자가 포함된 다물체 동역학 모델을 시뮬레이션 하여 그 결과를 도출하였다. 수 많은 입자들은 GPU 를 적용한 이산 요소법을 이용해 풀었다. 입자들의 Contact Force 를 계산하기 위해 Fast Algorithm 이 적용되었고 계산 속도 향상을 위해 NVIDIA 사의 CUDA 프로그래밍을 하였다. 입자들간의 계산은 Explicit 적분기가 사용되었으며 다물체 동역학은 순환 공식(Recursive Formulation)을 사용 하고 Implicit 적분기를 사용하였다. 입자들과 다물체 사이의 Contact Force 를 동시에 시뮬레이션 하기 위해서 입자동역학과 다물체 동역학의 통합해석을 할 수 있는 알고리즘을 개발하였다. 수치 실험의 예로서 화물트럭의 입자 영향을 알아 보기 위한 화물트럭 모델과 대부분의 동력 전달 장치에 사용되는 기어 모델을 시뮬레이션 하였다.

GP-GPU의 캐시메모리를 활용하기 위한 병렬 블록 LU 분해 프로그램의 구현 (Implementation of parallel blocked LU decomposition program for utilizing cache memory on GP-GPUs)

  • 김영태;김두한;유명한
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.41-47
    • /
    • 2013
  • GP-GPU는 그래픽 처리를 위한 GPU의 다중쓰레드를 일반 수치 계산에 활용하여 초고속으로 계산하는 장치이다. GP-GPU에서는 CPU의 캐시메모리와는 달리 다중쓰레드가 공유하는 공유메모리의 형태로 캐시메모리를 제공하며, 공유메모리는 사용자 프로그램에서 직접 제어할 수 있다. 본 연구에서는 GP-GPU의 캐시메모리를 사용하여 계산 성능을 향상시키기 위한 블록 구조의 병렬 LU 분해 프로그램을 구현하였다. Nvidia CUDA C로 구현된 병렬 블록 LU 분해 프로그램은 동일한 GP-GPU 상에서 일반 LU 분해 프로그램에 비교하여 7~8배 이상의 속도 개선을 보였다.

통합 메모리를 사용하는 NVIDIA 파스칼 GPU에서의 CPU 메모리와 GPU 메모리 간 데이터 통신 분석 (Evaluation of the Data Migration between CPU Memory and GPU Memory for a NVIDIA Pascal GPU Using Unified Memory)

  • 신필규;홍성수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.7-10
    • /
    • 2018
  • 통합 메모리는 CPU 메모리와 GPU 메모리 간의 데이터 통신을 개발자에게 투명하게 내재적으로 수행하는 소프트웨어 런타임 환경으로 개발자에게 CPU 메모리와 GPU 메모리가 통합된 하나의 메모리로 보이게 해준다. 통합 메모리는 장점에도 불구하고 아직 널리 사용되지 못하고 있는데 그 이유는 내재적으로 수행되는 데이터 통신의 오버헤드가 큰 것으로 알려져 있기 때문이다. 하지만 이 데이터 통신이 구체적으로 어떻게 이루어지고 오버헤드는 어떻게 발생하는지 분석한 연구는 아직 존재하지 않는다. 우리는 NVIDIA 사의 최신 GPU 마이크로아키텍처 중 하나인 파스칼을 사용하는 GPU를 대상으로 하여, 통합 메모리를 사용할 시 데이터 통신이 이루어지는 조건과 GPU 응용의 수행시간에 데이터 통신이 끼치는 영향을 실험을 통해 분석한다. 실험 결과 통합 메모리의 오버헤드는 두 가지 원인 때문에 발생한다. 첫째, 통합 메모리를 사용하면 CPU 또는 GPU가 데이터에 접근할 때마다 이 데이터는 CPU 또는 GPU 메모리로 옮겨지고 옮겨진 데이터는 제거된다. 따라서 재사용할 데이터도 제거되어 추가적인 데이터 통신이 발생하고, 이 데이터 통신의 지연시간은 GPU 응용의 수행시간에 더해진다. 둘째, 통합 메모리를 사용하면 데이터 통신과 커널들이 서로 다른 스트림에 할당되어도 동시에 수행되지 못한다. 따라서 GPU 응용의 수행시간은 동시에 수행되던 데이터 통신과 커널의 수행시간만큼 증가한다.

  • PDF

Fundamental Function Design of Real-Time Unmanned Monitoring System Applying YOLOv5s on NVIDIA TX2TM AI Edge Computing Platform

  • LEE, SI HYUN
    • International journal of advanced smart convergence
    • /
    • 제11권2호
    • /
    • pp.22-29
    • /
    • 2022
  • In this paper, for the purpose of designing an real-time unmanned monitoring system, the YOLOv5s (small) object detection model was applied on the NVIDIA TX2TM AI (Artificial Intelligence) edge computing platform in order to design the fundamental function of an unmanned monitoring system that can detect objects in real time. YOLOv5s was applied to the our real-time unmanned monitoring system based on the performance evaluation of object detection algorithms (for example, R-CNN, SSD, RetinaNet, and YOLOv5). In addition, the performance of the four YOLOv5 models (small, medium, large, and xlarge) was compared and evaluated. Furthermore, based on these results, the YOLOv5s model suitable for the design purpose of this paper was ported to the NVIDIA TX2TM AI edge computing system and it was confirmed that it operates normally. The real-time unmanned monitoring system designed as a result of the research can be applied to various application fields such as an security or monitoring system. Future research is to apply NMS (Non-Maximum Suppression) modification, model reconstruction, and parallel processing programming techniques using CUDA (Compute Unified Device Architecture) for the improvement of object detection speed and performance.

DVB-T 수신기를 위한 대규모 병렬처리 GPU 기반의 FFT 구현 (Implementation of FFT on Massively Parallel GPU for DVB-T Receiver)

  • 이규형;허서원
    • 방송공학회논문지
    • /
    • 제18권2호
    • /
    • pp.204-214
    • /
    • 2013
  • 최근 GPU의 뛰어난 병렬 연산 처리 능력을 이용하여 신호 처리나 통신 시스템을 소프트웨어로 구현하기 위한 다양한 연구가 진행되고 있다. 본 논문에서는 DVB-T에서 사용되는 2K/8K FFT를 GPU를 이용하여 처리함으로써 소프트웨어 모의실험에 소요되는 시간을 줄였다. 우리는 먼저 DTV 전송 표준 방식의 일종인 DVB-T 시스템을 CPU로 구현할 때 소요되는 처리 시간을 모의실험을 통해서 추정한다. 그리고 DVB-T의 핵심 연산 처리기의 일종인 FFT 처리를 NVIDIA사의 대용량 GPU 프로세서를 이용하여 소프트웨어로 구현한다. 본 논문은 CPU와 GPU 간의 데이터 전송에 소요되는 오버헤드를 줄이기 위해 스트림 처리 기법, 외부 전역 메모리 전송 시간을 단축하기 위한 결합 전송 기법 (coalescing), 공유 메모리 활용을 높이기 위한 변수 설계 기법 등을 통해서 연산시간을 대폭 단축하였다. 그 결과 제안된 방식은 DVB-T의 2K/8K FFT 모드의 경우 CPU 기반의 FFT 처리 방식 대비 약 20~30배, NVIDIA사에서 제공하는 FFT 라이브러리 (CUFFT version 2.1) 대비 약 1.8배 그리고 기존에 발표된 타 방식 대비 약 1.5~10배 정도 빠른 처리 능력을 보인다.

실내 환경에서의 자율주행을 위한 중첩 이미지 학습 신경망 (Overlapped Image Learning Neural Network for Autonomous Driving in the Indoor Environment)

  • 조정원;이창우
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.349-350
    • /
    • 2019
  • 기존 실내복도 환경에서 실험한 자율주행 드론[1]은 드론의 연산성능 한계로 인해 노트북이 신경망 연산을 해서 드론에게 조향명령을 내리는 방식이였다. 본 논문에서는 이러한 한계를 극복하기 위해 NVIDIA사의 Jetson TX2 보드를 활용하여 실내복도 환경에서의 자율주행을 연구하였다.

  • PDF

GPU 클러스터 시스템의 계산노드 간 인터커넥트 네트워크 통신 성능 비교 분석 연구 (A study on comparison and analysis of interconnect network communication performance between computing nodes in GPU cluster system)

  • 권민우;안도식;홍태영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.2-4
    • /
    • 2023
  • KISTI의 GPU 클러스터 시스템인 뉴론은 NVIDIA의 A100과 V100 GPU가 총 260개 탑재되어 있는 클러스터 시스템이다. 뉴론의 계산노드들은 고성능의 인터커넥트인 Infiniband(IB) 케이블로 연결되어 있어 멀티 노드 작업 수행 시에 고대역 병렬통신이 가능하다. 본 논문에서는 NVIDIA사에서 제공하는 NCCL의 벤치마크 코드를 이용하여 인터커넥트 네트워크의 통신 성능을 비교분석하는 방안에 대해서 소개한다.