• 제목/요약/키워드: vCPU

검색결과 55건 처리시간 0.026초

SSD-Mobilenet-V2 모델을 사용한 Edge Device 에서의 객체검출 성능 비교 및 분석 (Comparative Analysis of Object Detection Performance on Edge Devices using SSD-Mobilenet-V2 Model)

  • 최석윤;최준혁;임승호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.79-80
    • /
    • 2023
  • CPU 와 GPU 의 성능이 지속적으로 발전함에 따라 객체 인식 인공지능의 정확도와 추론 속도는 점차 향상되고 있으나 이러한 성능을 Edge Device 와 같은 제한된 환경에서 구현하기에 아직 여러 한계점이 존재한다. 본 논문에서는 여러가지 Edge Device 에서 객체 인식을 위한 경량화 된 모델 중 하나인 SSD-Mobilenet-V2 를 활용하여 결과값을 통해 각 Device 간 경향성을 분석하였다. 본 결과를 바탕으로 다양한 환경에서의 객체인식 인공지능 모델의 성능 개선을 위한 연구에 활용할 수 있다.

V2X 통신을 위한 ECDSA 서명 검증 병렬처리 연구 (Study on Parallel Processing of ECDSA Verification for V2X Communication)

  • 이석준;최중용;정병호;권혁찬
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.216-217
    • /
    • 2018
  • IEEE 1609.2 표준은 WAVE (Wireless Access in Vehicular Environment) 표준에서 차량간(V2V, Vehicle-to-Vehicle) 혹은 차량과 인프라간(V2I, Vehicle-to-Infrastructure)통신 상의 응용 메시지 보호를 위해 제정되었다. 이 표준은 메시지 이증 및 무결성 검증을 위하여 NIST p256 타원 곡선 커브 기반의 ECDSA 전자서명 기법을 사용한다. 매우 복잡한 도신 상의 출퇴근 환경에서는 수백대의 자동차가 전송하는 메시지를 정상적으로 처리하기 위하여, 차량의 OBU(On-Board Unit) 혹은 노상의 RSU(Road-Side Unit)에서 서명된 메시지의 검증 성능이 매우 중요한 이슈가 될 수 있다. 본 논문에서는 V2X 통신에서 효율적인 ECDSA 서명 검증을 위하여, OBU 혹은 RSU 환경에서 CPU 상의 병렬 처리 성능을 테스트 한 후 시사점을 살펴본다.

단일 칩 다중프로세서의 설계 (Design of an On-Chip Multiprocessor)

  • 이상원;김영우
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.751-754
    • /
    • 1998
  • This research aims at developing a single chip multiprocessor for high-performance computer system. Our design approach is to design a relatively small and simple processor unit and to integrate multiple copies of the unit in an efficient way. The proposed multiprocessor is composed of four CPUs and one graphic coprocessor. The four CPUs share the graphic coprocessor and each CPU implements the 64-bit SPARC-V9 instruction set architecture. This paper gives an overview of the proposed microarchitecture and discusses the considerations made in the course of the design.

  • PDF

A new lightweight network based on MobileNetV3

  • Zhao, Liquan;Wang, Leilei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권1호
    • /
    • pp.1-15
    • /
    • 2022
  • The MobileNetV3 is specially designed for mobile devices with limited memory and computing power. To reduce the network parameters and improve the network inference speed, a new lightweight network is proposed based on MobileNetV3. Firstly, to reduce the computation of residual blocks, a partial residual structure is designed by dividing the input feature maps into two parts. The designed partial residual structure is used to replace the residual block in MobileNetV3. Secondly, a dual-path feature extraction structure is designed to further reduce the computation of MobileNetV3. Different convolution kernel sizes are used in the two paths to extract feature maps with different sizes. Besides, a transition layer is also designed for fusing features to reduce the influence of the new structure on accuracy. The CIFAR-100 dataset and Image Net dataset are used to test the performance of the proposed partial residual structure. The ResNet based on the proposed partial residual structure has smaller parameters and FLOPs than the original ResNet. The performance of improved MobileNetV3 is tested on CIFAR-10, CIFAR-100 and ImageNet image classification task dataset. Comparing MobileNetV3, GhostNet and MobileNetV2, the improved MobileNetV3 has smaller parameters and FLOPs. Besides, the improved MobileNetV3 is also tested on CPU and Raspberry Pi. It is faster than other networks

브이월드 3D 지도 서비스 성능 향상을 위한 3D 타일 적용 방안 연구 (3D Tile Application Method for Improvement of Performance of V-world 3D Map Service)

  • 김태훈;장한솔;유성환;고준희
    • 대한공간정보학회지
    • /
    • 제25권1호
    • /
    • pp.55-61
    • /
    • 2017
  • 2012년 시범 서비스를 시작한 한국형 공간정보 오픈플랫폼 브이월드는 전국의 2차원, 3차원 지도 및 행정정보를 손쉽게 활용할 수 있도록 다양한 서비스를 제공하고 있다. 그 중 3차원 지도 서비스는 건물 단위로 모델링 되어있어 모델 요청과 이를 화면에 그리는 드로우 콜(draw call)이 개별 건물 모델에 대해 필요하다. 이로 인해 발생하는 다수의 모델 요청과 드로우 콜이 central processing unit(CPU)와 graphic processing unit(GPU) 간의 전송 및 전환 과정에서 발생하는 대기 시간 증가를 야기해 3차원 지도 서비스의 성능이 감소한다. 본 논문에서는 다수의 모델 요청 및 드로우 콜로 인해 발생하는 3차원 지도 서비스의 성능 저하를 줄이기 위한 성능 개선안을 제안한다. 이를 위해, 단일 건물 모델이 아닌 여러 건물 모델을 타일로 병합한 3차원 타일 모델을 적용하여 모델 파일에 대한 요청수와 드로우 콜을 줄이고자 하였다. 추가적으로 쿼드트리(quadtree) 알고리즘을 적용하여 화면에 그릴 영역에 필요한 모델의 탐색 시간 감소를 통해 모델 파일을 불러오는 요청 시간을 줄이고자 하였다. 이는 브이월드의 3차원 지도 서비스의 성능을 향상에 기여할 것으로 예상된다.

The Performance Study of a Virtualized Multicore Web System

  • Lu, Chien-Te;Yeh, C.S. Eugene;Wang, Yung-Chung;Yang, Chu-Sing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권11호
    • /
    • pp.5419-5436
    • /
    • 2016
  • Enhancing the performance of computing systems has been an important topic since the invention of computers. The leading-edge technologies of multicore and virtualization dramatically influence the development of current IT systems. We study performance attributes of response time (RT), throughput, efficiency, and scalability of a virtualized Web system running on a multicore server. We build virtual machines (VMs) for a Web application, and use distributed stress tests to measure RTs and throughputs under varied combinations of virtual cores (VCs) and VM instances. Their gains, efficiencies and scalabilities are also computed and compared. Our experimental and analytic results indicate: 1) A system can perform and scale much better by adopting multiple single-VC VMs than by single multiple-VC VM. 2) The system capacity gain is proportional to the number of VM instances run, but not proportional to the number of VCs allocated in a VM. 3) A system with more VMs or VCs has higher physical CPU utilization, but lower vCPU utilization. 4) The maximum throughput gain is less than VM or VC gain. 5) Per-core computing efficiency does not correlate to the quality of VCs or VMs employed. The outcomes can provide valuable guidelines for selecting instance types provided by public Cloud providers and load balancing planning for Web systems.

DSP기능을 강화한 RISC 프로세서 core의 ASIC 설계 연구 (A Study on the Design of a RISC core with DSP Support)

  • 김문경;정우경;이용석;이광엽
    • 한국통신학회논문지
    • /
    • 제26권11C호
    • /
    • pp.148-156
    • /
    • 2001
  • 본 논문에서는 RISC 마이크로프로세서에 DSP프로세서를 추가하여 멀티미디어 기능이 강화된 응용에 알맞은 마이크로프로세서(YS-RDSP)를 제안한다. YS-RDSP는 최대 4개의 명령어를 동시에 병렬로 처리할 수 있다. 프로그램의 크기를 줄이기 위해 YS-RDSP는 16비트와 32비트의 두 가지 명령어 길이를 지원한다. YS-RDSP는 칩 하나로 RISC마이크로프로세서의 programmability 및 제어능력에 DSP의 처리능력을 제공하기 위하여 8-KByte ROM과 8-KByte RAM을 내장하고 있다. 칩 내에 있는 주변장치중 하나인 시스템 컨트롤러는 저전압 동작을 위한 3가지의 전압강하모드를 지원하며 SLEEP명령어는 CPU코어와 주변장치의 동작상태를 변환시킨다. YS-RDSP프로세서는 Verilog-HDL를 이용하여 하향식설계방식으로 구현되었고 C-언어로 작성된 사이클 단위 시뮬레이터를 이용하여 개선되고 검증되었다. 검증된 모델은 0.6um, 3.3V CMOS 표준 셀 라이브러리로 합성되었으며 자동화 P&R에 의해 10.7mm8.4mm코어 면적을 갖도록 레이아웃 되었다.

  • PDF

모바일 디바이스를 위한 소형 CNN 가속기의 마이크로코드 기반 컨트롤러 (Microcode based Controller for Compact CNN Accelerators Aimed at Mobile Devices)

  • 나용석;손현욱;김형원
    • 한국정보통신학회논문지
    • /
    • 제26권3호
    • /
    • pp.355-366
    • /
    • 2022
  • 본 논문은 프로그램 가능한 구조를 사용하여 재구성이 가능하고 저 전력 초소형의 장점을 모두 제공하는 인공지능 가속기를 위한 마이크로코드 기반 뉴럴 네트워크 가속기 컨트롤러를 제안한다. 대상 가속기가 다양한 뉴럴 네트워크 모델을 지원하도록 마이크로코드 컴파일러를 통해 뉴럴 네트워크 모델을 마이크로코드로 변환하여 가속기의 메모리 접근과 모든 연산기를 제어할 수 있다. 200MHz의 System Clock을 기준으로 설계하였으며, YOLOv2-Tiny CNN model을 구동하도록 컨트롤러를 구현하였다. 객체 감지를 위한 VOC 2012 dataset 추론용 컨트롤러를 구현할 경우 137.9ms/image, mask 착용 여부 감지를 위한 mask detection dataset 추론용으로 구현할 경우 99.5ms/image의 detection speed를 달성하였다. 제안된 컨트롤러를 탑재한 가속기를 실리콘칩으로 구현할 때 게이트 카운트는 618,388이며, 이는 CPU core로서 RISC-V (U5-MC2)를 탑재할 경우 대비 약 65.5% 감소한 칩 면적을 제공한다.

윈도 마스킹 기법과 Soft-core Processor 기반 TDD 스위칭 제어 SoC 시스템 FPGA 구현 (Implementation of a Window-Masking Method and the Soft-core Processor based TDD Switching Control SoC FPGA System)

  • 양희진;이증섭;이한슬
    • 한국정보전자통신기술학회논문지
    • /
    • 제17권3호
    • /
    • pp.166-175
    • /
    • 2024
  • 본 논문에서는 시분할 이중화 방식의 MANET(Mobile Ad-hoc Network)망 동기화 시스템의 성능개선 및 경량화를 위해 윈도 마스킹 기법(Window-Masking Method)과 HAT(Hardware Attached Top) CPU SoM(System on Module)을 On-Device 화하여 RISC-V 기반의 Soft-core MCU로 하드웨어 가속기(Hardware Accelerator)인 FPGA에 탑재하는 것을 제안한다. 또한 실험을 통해 검증하였다. 실험 결과 성능 면에서는 제안한 기법을 적용하여 동기획득 범위는 -50dBm~+10dBm에서 -60dBm~+10dBm으로 동기 획득 최저 입력 레벨이 -50dBm에서 -60dBm으로 20% 증가, 검출 지연(Latency)은 220ns에서 125ns로 43% 감소하였다. 경량화 면에서는 Soft-core MCU로 대체 함으로써 컴퓨팅 자원(Resource, 48%), 크기(Size, 33%) 및 무게(Weight, 27%)가 평균 36% 경량화하였다.

Accelerating next generation sequencing data analysis: an evaluation of optimized best practices for Genome Analysis Toolkit algorithms

  • Franke, Karl R.;Crowgey, Erin L.
    • Genomics & Informatics
    • /
    • 제18권1호
    • /
    • pp.10.1-10.9
    • /
    • 2020
  • Advancements in next generation sequencing (NGS) technologies have significantly increased the translational use of genomics data in the medical field as well as the demand for computational infrastructure capable processing that data. To enhance the current understanding of software and hardware used to compute large scale human genomic datasets (NGS), the performance and accuracy of optimized versions of GATK algorithms, including Parabricks and Sentieon, were compared to the results of the original application (GATK V4.1.0, Intel x86 CPUs). Parabricks was able to process a 50× whole-genome sequencing library in under 3 h and Sentieon finished in under 8 h, whereas GATK v4.1.0 needed nearly 24 h. These results were achieved while maintaining greater than 99% accuracy and precision compared to stock GATK. Sentieon's somatic pipeline achieved similar results greater than 99%. Additionally, the IBM POWER9 CPU performed well on bioinformatic workloads when tested with 10 different tools for alignment/mapping.