• 제목/요약/키워드: vCPU

검색결과 55건 처리시간 0.024초

SMP 가상 머신의 I/O 지연 시간 감소를 위한 이벤트 라우팅 기법 (Event Routing Scheme to Improve I/O Latency of SMP VM)

  • 신정섭;김학영
    • 정보과학회 논문지
    • /
    • 제42권11호
    • /
    • pp.1322-1331
    • /
    • 2015
  • vCPU(virtual CPU)는 하이퍼바이저 스케줄러에 의해서 실행 상태와 정지 상태를 반복하는 특징을 갖는다. 정지 상태인 vCPU에게 전달된 이벤트는 vCPU가 실행 상태가 될 때까지 처리되지 못하고 지연 된다. 이러한 이벤트 지연 현상은 I/O 지연 현상으로 나타난다. SMP(symmetric multiprocessing) 가상 머신은 다수의 vCPU를 이용하기 때문에 이벤트를 어느 vCPU에게 전달하는지에 따라 SMP 가상 머신의 이벤트 지연 시간이 달라 질 수 있다. SMP 가상 머신의 이벤트 지연 시간을 줄이기 위해서 본 논문에서는 각 vCPU의 동작 상태에 따라서 이벤트를 전달하는 새로운 기법인 이벤트 라우팅 기법을 제안한다. 제안한 이벤트 라우팅 기법을 Xen ARM 하이퍼바이저에 적용하였고 다양한 실험 환경에서 네트워크 RTT(round trip time)와 TCP 대역폭 측정을 통해 I/O 지연 시간 감소를 확인하였다. 기존 Xen ARM과 비교하여 네트워크 RTT는 최대 94% 감소하였고, TCP 대역폭은 최대 35% 증가하였다.

주차 보조 시스템을 위한 ECU 설계 (Design of Electronic Control Unit for Parking Assist System)

  • 최진혁;이성수
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.1172-1175
    • /
    • 2020
  • 차량에 사용되는 ECU에는 CPU 코어, 차량통신 콘트롤러, 메모리 인터페이스, 센서 인터페이스, I/O 인터페이스 등이 집적되어 있다. 현재 사용되는 차량용 ECU는 대부분 자사만의 독점적 프로세서 아키텍쳐로 개발하였으나, 최근 자율주행자동차 및 커넥티드카에서 소프트웨어 범용성을 위해 ARM, RISC-V와 같은 표준 프로세서를 기반으로 한 차량용 ECU의 수요가 급증하고 있다. 본 논문에서는 명령어 집합이 무료로 공개된 RISC-V를 기반으로 하여 주차 보조 시스템에 사용하기 위한 차량용 ECU를 설계하였다. 개발된 ECU는 32b RISC-V CPU 코어, CAN, LIN 등의 IVN 콘트롤러, ROM, SRAM 등의 메모리 인터페이스, SPI, UART, I2C 등의 I/O 인터페이스를 내장하였다. 65nm CMOS 공정에서 구현한 결과는 동작 주파수 50MHz, 면적 0.37㎟, 게이트 수 55,310개였다.

멀티코아 모바일 가상화 시스템에서 가상 CPU 할당 실시간 스케줄링 방법 (Real-Time Scheduling Method to assign Virtual CPU in the Multocore Mobile Virtualization System)

  • 강용호;금기문;김선종;진광윤;김주만
    • 디지털융복합연구
    • /
    • 제12권3호
    • /
    • pp.227-235
    • /
    • 2014
  • 모바일 가상화는 두 개의 가상 플랫폼을 하나의 무선 장치에 탑재하는 모바일 장치 관리의 한 접근 방법이다. 단일 무선 장치인 스마트폰은 사업용과 개인용으로의 가상 환경으로 사용될 수 있을 것이다. 모바일 가상화는 또한 동일한 장치에 두 개의 운영체제인 RTOS와 안드로이드 앱이 동시에 수행되는 환경일 수 있다. 본 논문에서는 멀티코아에서 각 코아를 가상화하고, 물리 CPU(pCPUs)에 배당된 여러 가상 CPU(vCPU)를 재 할당하는 기법을 제시하며 또한 가상 CPU들을 물리 CPU에 할당하기 위한 실시간 스케줄링 방법을 제안한다. 본 논문에서 제안된 기술은 인터럽트 처리시에 실시간 처리의 시간 지연을 해결하였고, 이전의 알고리즘보다 빠른 처리를 가능하게 한다.

NVIDIA Tegra와 Tesla GPU에서의 CPU-GPU 데이터 전송성능 연구 (A Performance Study on CPU-GPU Data Transfers of NVIDIA Tegra and Tesla GPUs)

  • 권오경;구기범
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.39-42
    • /
    • 2021
  • 최근 HPC, 인공지능에서 GPU 성능이 향상되면서 사용이 보편화되고 있지만 GPU 프로그래밍은 난이도 측면에서 여전히 큰 장애물이다. 특히 호스트(host) 메모리와 GPU 메모리를 따로 관리해야 하는 어려움 때문에 편의성과 성능 측면에서 연구가 활발히 진행되고 있으며, 다양한 CPU-GPU 메모리 전송프로그래밍 방법들이 제시되고 있다. 본 연구는 NVIDIA Tegra 장치들과 NVIDIA SMX 기반 V100 GPU 카드에서 CPU-GPU 데이터 전송 기법별로 성능비교를 하고자 한다. 특히 NVIDIA Tegra 장치는 CPU와 GPU 통합메모리를 제공하고 있어서 CPU-GPU 메모리 전송방법의 관점에서 기존 GPU 장치와 다른 성능 특징을 보여준다. 성능비교를 위한 실험 워크로드는 HPC 응용프로그램에서 빈번하게 사용하는 2차원 행렬 전치 예제를 사용하였다. 실험을 통해 각 GPU 장치별로 CPU-GPU 메모리 전송 방법에 따른 GPU 커널 성능차이, 페이지 잠긴 메모리와 페이지 가능 메모리의 전송 성능차이, 마지막으로 전체 성능비교를 하였다.

통합메모리 장치에서 CPU-GPU 데이터 전송성능 연구 (A Performance Study on CPU-GPU Data Transfers of Unified Memory Device)

  • 권오경;구기범
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권5호
    • /
    • pp.133-138
    • /
    • 2022
  • 최근 고성능컴퓨팅, 인공지능 분야에서 GPU 장치 사용이 일반화되고 있지만, GPU 프로그래밍은 여전히 어렵게 여겨진다. 특히 호스트(host) 메모리와 GPU 메모리를 별도로 관리하기 때문에 성능과 편의성 방면에서 연구가 활발히 진행되고 있다. 이에 따라 여려가지 CPU-GPU 메모리 전송 방법들이 연구되고 있다. 한편 CPU와 GPU 및 통합메모리(Unified memory) 등 하나의 실리콘 패키지로 묶는 SoC(System on a Chip) 제품들이 최근에 많이 출시되고 있다. 본 연구는 이러한 통합메모리 장치에서 CPU, GPU 장치간 데이터를 사용하고 전송시 성능관련 비교를 하고자 한다. 기존 CPU내 호스트 메모리와 GPU 메모리가 분리된 환경과는 다른 특징을 보여준다. 여기서는 통합메모리 장치인 NVIDIA SoC칩들과 NVIDIA SMX 기반 V100 GPU 카드에서 CPU-GPU 간 데이터 전송 프로그래밍 기법별로 성능비교를 한다. 성능비교를 위해 워크로드는 HPC 분야의 수치계산에서 자주 사용하는 2차원 행렬 전치 커널이다. 실험을 통해 CPU-GPU 메모리 전송 프로그래밍 방법별 GPU 커널 성능차이, 페이지 잠긴 메모리와 페이지 가능 메모리를 사용했을 경우 전송 성능차이, 전체(Overall) 성능비교, 마지막으로 워크로드 크기별 성능비교를 하였다. 이를 통해 통합메모리칩인 NVIDIA Xavier에서 I/O 캐시일관성 지원을 통해 SoC 칩내 통합메모리에 대한 이점을 극대화 할 수 있음을 확인할 수 있었다.

RISC-V 프로세서에 대한 전력 분석 완화 기법 연구 (A study of Power analysis Attack Mitigation for RISC-V processor)

  • 강기봉;백윤흥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.358-361
    • /
    • 2024
  • 2010 년 UC Berkely 에서 개발한 RISC-V ISA 는 x86, Arm 과 다르게 Free Open-source 라는 장점으로 인해 많은 연구와 개발이 이루어지고 있다. RISC-V ISA 는 RISC 명령어셋을 활용하며 서버 및 데스트탑 CPU 부터 IoT 디바이스까지 여러 방면에서 상용을 위한 노력이 계속되고 있다. 하지만 상용 CPU 에 비해 부채널 공격 방어 기법이 제한적으로 구현되어 있는 것을 확인하였고 특히 부채널 공격 중 전력 분석(Power Analysis)에 대한 방어 기법이 부족한 것을 확인하였다. 따라서 본 논문에서는 RISC-V 를 포함한 여러 아키텍처에 대해 전력 분석 및 하드웨어 방어 기법을 분석하고, RISC-V에 추가적으로 적용되어야 할 방어 기법에 대해 서술한다.

  • PDF

CPU-FPGA 구조를 이용한 실시간 FCWS 구현 (Real-time FCWS implementation using CPU-FPGA architecture)

  • 한성우;정용진
    • 전기전자학회논문지
    • /
    • 제21권4호
    • /
    • pp.358-367
    • /
    • 2017
  • 최근 운전자의 편의와 안전을 위해 전방 차량 추돌 감지 시스템(Front Collision Warning System : FCWS)과 같은 다양한 운전자 보조 시스템(Advanced Driver Assistance System : ADAS)이 개발되고 있다. FCWS는 주행 중 실시간으로 동작해야 하기 때문에 높은 처리속도를 필요로 한다. 또한 자동차의 전장화에 따라 FCWS를 차량용 임베디드 시스템에서 동작시키기 위해 저전력 시스템이 필요하다. 본 논문에서는 FCWS를 CPU-FPGA 구조에서 실시간 처리가 가능하도록 구현하였다. 차선 검출은 Inverse Transform Perspective(IPM)와 슬라이딩 윈도우 방식을 이용하여 CPU에서도 빠른 속도로 동작할 수 있도록 하였다. 차량검출은 높은 인식률을 가지는 Convolutional Neural Network(CNN)을 이용하였고, FPGA에서 병렬처리로 가속하였다. 제안하는 구조는 저전력으로 동작하는 ARM-Core A9과 FPGA를 내장한 Intel FPGA Cyclone V SoC(System on Chip)에서 검증하였다. HD해상도에서 FCWS는 44FPS로 실시간으로 동작하며, 고성능 PC 환경보다 처리속도 대비 에너지 효율이 약 3.33배 높은 것을 확인했다.

실시간 얼굴 검출을 위한 Cascade CNN의 CPU-FPGA 구조 연구 (Cascade CNN with CPU-FPGA Architecture for Real-time Face Detection)

  • 남광민;정용진
    • 전기전자학회논문지
    • /
    • 제21권4호
    • /
    • pp.388-396
    • /
    • 2017
  • 얼굴 검출에는 다양한 포즈, 빛의 세기, 얼굴이 가려지는 현상 등의 많은 변수가 존재하므로, 높은 성능의 검출 시스템이 요구된다. 이에 영상 분류에 뛰어난 Convolutional Neural Network (CNN)이 적절하나, CNN의 많은 연산은 고성능 하드웨어 자원을 필요로한다. 그러나 얼굴 검출을 위한 소형, 모바일 시스템의 개발에는 저가의 저전력 환경이 필수적이고, 이를 위해 본 논문에서는 소형의 FPGA를 타겟으로, 얼굴 검출에 적절한 3-Stage Cascade CNN 구조를 기반으로하는 CPU-FPGA 통합 시스템을 설계 구현한다. 가속을 위해 알고리즘 단계에서 Adaptive Region of Interest (ROI)를 적용했으며, Adaptive ROI는 이전 프레임에 검출된 얼굴 영역 정보를 활용하여 CNN이 동작해야 할 횟수를 줄인다. CNN 연산 자체를 가속하기 위해서는 FPGA Accelerator를 이용한다. 가속기는 Bottleneck에 해당하는 Convolution 연산의 가속을 위해 FPGA 상에 다수의 FeatureMap을 한번에 읽어오고, Multiply-Accumulate (MAC) 연산을 병렬로 수행한다. 본 시스템은 Terasic사의 DE1-SoC 보드에서 ARM Cortex A-9와 Cyclone V FPGA를 이용하여 구현되었으며, HD ($1280{\times}720$)급 입력영상에 대해 30FPS로 실시간 동작하였다. CPU-FPGA 통합 시스템은 CPU만을 이용한 시스템 대비 8.5배의 전력 효율성을 보였다.

8-채널 통계적 다중화기의 구현 (Implementation of an 8-Channel Statistical Multiplexer)

  • 이종락;조동호
    • 대한전자공학회논문지
    • /
    • 제21권5호
    • /
    • pp.79-89
    • /
    • 1984
  • 본 논문에서는 마이크로프로세서를 이용한 8-channel 통계적 다중화기(SMUX)의 구현에 대하여 기술한다. 하드웨어는 S100-bus 비슷한 bus를 통하여 연결되어 있으며 4MHz clock의 Z -8OA 중앙처리장치기판, 프로그램 저장을 위한 16kbyte LOM기판, data저장을 위한 16Kbyte 동적 RAM 기판 및 세개의 입출력 장치로 구성되어 있다. 이 통계적 다중화기는 50bps에서 9600bps까지의 data를 취급하는 8-channel을 다중화 할 수 있고 한장의 입출력 기판을 제거하고 소프트웨어를 약간 수정하면 4-channel을 수용할 수 있다. 또한 본 장비는 CCITT 권장사항 X.25 link level, V.24, V.28, X.3 및 X.28을 따르고 있다. SMUX 주요특성은 4종류의 입력부호 즉 ASCII, EBCDIC, Baudot, Transcode를 취급할 수 있고 동적 buffer 운영방식과 자체진단 기능을 갖고 있으며, 전체 시스템을 동작시키는데 단지 하나의 CPU를 능률적으로 이용한다는 점이다. 이 시스템의 하드웨어 및 소프트웨어에 관한 자세한 사항은 본론에서 기술한다.

  • PDF

iOS 기반 실시간 객체 분리 및 듀얼 카메라 합성 개발 (Development of Real-Time Objects Segmentation for Dual-Camera Synthesis in iOS)

  • 장유진;김지영;이주현;황준
    • 인터넷정보학회논문지
    • /
    • 제22권3호
    • /
    • pp.37-43
    • /
    • 2021
  • 본 논문에서는 모바일 환경에서 실시간으로 전면과 후면 카메라의 객체를 인식하여 객체 픽셀의 영역을 분할하고 이미지 처리를 통해 합성하는 방법을 연구하였다. 이를 위해 Apple사의 iOS에서 제공하는 듀얼 카메라에 DeepLabV3 머신러닝 모델을 적용하여 객체를 분할하였다. 또한 이미지 합성 및 후처리를 위해 Apple사의 코어 이미지와 코어 그래픽 라이브러리를 이용하여 영역의 배경 제거 및 합성 방식을 제안하고 구현하였다. 또한, 이전 연구에 비해 CPU 사용량을 개선하였고 깊이와 DeepLabV3의 처리 속도를 비교하여 처리 결과에 영향을 주는 요소를 분석하였다. 마지막으로 이 두 방식을 활용한 카메라 애플리케이션을 개발하였다.