• 제목/요약/키워드: NVIDIA

검색결과 163건 처리시간 0.025초

Design and Implementation of SDR-based Multi-Constellation Multi-Frequency Real-Time A-GNSS Receiver Utilizing GPGPU

  • Yoo, Won Jae;Kim, Lawoo;Lee, Yu Dam;Lee, Taek Geun;Lee, Hyung Keun
    • Journal of Positioning, Navigation, and Timing
    • /
    • 제10권4호
    • /
    • pp.315-333
    • /
    • 2021
  • Due to the Global Navigation Satellite System (GNSS) modernization, recently launched GNSS satellites transmit signals at various frequency bands such as L1, L2 and L5. Considering the Korean Positioning System (KPS) signal and other GNSS augmentation signals in the future, there is a high probability of applying more complex communication techniques to the new GNSS signals. For the reason, GNSS receivers based on flexible Software Defined Radio (SDR) concept needs to be developed to evaluate various experimental communication techniques by accessing each signal processing module in detail. This paper proposes a novel SDR-based A-GNSS receiver capable of processing multi-GNSS/RNSS signals at multi-frequency bands. Due to the modular structure, the proposed receiver has high flexibility and expandability. For real-time implementation, A-GNSS server software is designed to provide immediate delivery of satellite ephemeris data on demand. Due to the sampling bandwidth limitation of RF front-ends, multiple SDRs are considered to process the multi-GNSS/RNSS multi-frequency signals simultaneously. To avoid the overflow problem of sampled RF data, an efficient memory buffer management strategy was considered. To collect and process the multi-GNSS/RNSS multi-frequency signals in real-time, the proposed SDR A-GNSS receiver utilizes multiple threads implemented on a CPU and multiple NVIDIA CUDA GPGPUs for parallel processing. To evaluate the performance of the proposed SDR A-GNSS receiver, several experiments were performed with field collected data. By the experiments, it was shown that A-GNSS requirements can be satisfied sufficiently utilizing only milliseconds samples. The continuous signal tracking performance was also confirmed with the hundreds of milliseconds data for multi-GNSS/RNSS multi-frequency signals and with the ten-seconds data for multi-GNSS/RNSS single-frequency signals.

Effect of deep transfer learning with a different kind of lesion on classification performance of pre-trained model: Verification with radiolucent lesions on panoramic radiographs

  • Yoshitaka Kise;Yoshiko Ariji;Chiaki Kuwada;Motoki Fukuda;Eiichiro Ariji
    • Imaging Science in Dentistry
    • /
    • 제53권1호
    • /
    • pp.27-34
    • /
    • 2023
  • Purpose: The aim of this study was to clarify the influence of training with a different kind of lesion on the performance of a target model. Materials and Methods: A total of 310 patients(211 men, 99 women; average age, 47.9±16.1 years) were selected and their panoramic images were used in this study. We created a source model using panoramic radiographs including mandibular radiolucent cyst-like lesions (radicular cyst, dentigerous cyst, odontogenic keratocyst, and ameloblastoma). The model was simulatively transferred and trained on images of Stafne's bone cavity. A learning model was created using a customized DetectNet built in the Digits version 5.0 (NVIDIA, Santa Clara, CA). Two machines(Machines A and B) with identical specifications were used to simulate transfer learning. A source model was created from the data consisting of ameloblastoma, odontogenic keratocyst, dentigerous cyst, and radicular cyst in Machine A. Thereafter, it was transferred to Machine B and trained on additional data of Stafne's bone cavity to create target models. To investigate the effect of the number of cases, we created several target models with different numbers of Stafne's bone cavity cases. Results: When the Stafne's bone cavity data were added to the training, both the detection and classification performances for this pathology improved. Even for lesions other than Stafne's bone cavity, the detection sensitivities tended to increase with the increase in the number of Stafne's bone cavities. Conclusion: This study showed that using different lesions for transfer learning improves the performance of the model.

AMG-CG method for numerical analysis of high-rise structures on heterogeneous platforms with GPUs

  • Li, Zuohua;Shan, Qingfei;Ning, Jiafei;Li, Yu;Guo, Kaisheng;Teng, Jun
    • Computers and Concrete
    • /
    • 제29권2호
    • /
    • pp.93-105
    • /
    • 2022
  • The degrees of freedom (DOFs) of high-rise structures increase rapidly due to the need for refined analysis, which poses a challenge toward a computationally efficient method for numerical analysis of high-rise structures using the finite element method (FEM). This paper presented an efficient iterative method, an algebraic multigrid (AMG) with a Jacobi overrelaxation smoother preconditioned conjugate gradient method (AMG-CG) used for solving large-scale structural system equations running on heterogeneous platforms with parallel accelerator graphics processing units (GPUs) enabled. Furthermore, an AMG-CG FEM application framework was established for the numerical analysis of high-rise structures. In the proposed method, the coarsening method, the optimal relaxation coefficient of the JOR smoother, the smoothing times, and the solution method for the coarsest grid of an AMG preconditioner were investigated via several numerical benchmarks of high-rise structures. The accuracy and the efficiency of the proposed FEM application framework were compared using the mature software Abaqus, and there were speedups of up to 18.4x when using an NVIDIA K40C GPU hosted in a workstation. The results demonstrated that the proposed method could improve the computational efficiency of solving structural system equations, and the AMG-CG FEM application framework was inherently suitable for numerical analysis of high-rise structures.

횡단보도 상황 인식 디바이스 개발 (Development of Crosswalk Situation Recognition Device)

  • 윤태진;노무호;여정훈;김재윤;이영훈;황승혁;김현수;김형준;박승렬;배창희
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제61차 동계학술대회논문집 28권1호
    • /
    • pp.143-144
    • /
    • 2020
  • 4차 산업 시대가 도래하여 빅데이터와 딥러닝 기술은 다양한 분야에서 아주 중요한 기술로 자리 잡고 있으며, 현재 세계 여러 분야에서 이 기술들을 이용하여 일상, 산업 분야에 적용을 시키고자 한다. 국내에서는 스마트 팩토리, 스마트 시티와 같은 분야에 적용하고 있다. 본 논문에서는 스마트 시티에 적용할 수 있는 횡단보도 상황을 인지하여 교통제어에 활용할 수 있는 빅데이터를 생산하거나 효율적인 교통제어에 활용할 수 있도록 Nvidia Jetson TX2와 실시간 객체 감지 기술인 YOLO v3를 이용하여 횡단보도용 상황 인식을 위한 영상인식 장치를 개발하였다. 제안하는 기술들을 이용하여 스마트시티 구축에 활용할 수 있고, 실시간으로 추가적으로 필요한 객체를 감지하여 확장이 용이한 장점이 있다. 또한 구현에서 효율성을 높이기 위하여 에지 컴퓨팅, 스페이스 디텍션과 같은 기술들을 활용하였다.

  • PDF

Force-deformation relationship prediction of bridge piers through stacked LSTM network using fast and slow cyclic tests

  • Omid Yazdanpanah;Minwoo Chang;Minseok Park;Yunbyeong Chae
    • Structural Engineering and Mechanics
    • /
    • 제85권4호
    • /
    • pp.469-484
    • /
    • 2023
  • A deep recursive bidirectional Cuda Deep Neural Network Long Short Term Memory (Bi-CuDNNLSTM) layer is recruited in this paper to predict the entire force time histories, and the corresponding hysteresis and backbone curves of reinforced concrete (RC) bridge piers using experimental fast and slow cyclic tests. The proposed stacked Bi-CuDNNLSTM layers involve multiple uncertain input variables, including horizontal actuator displacements, vertical actuators axial loads, the effective height of the bridge pier, the moment of inertia, and mass. The functional application programming interface in the Keras Python library is utilized to develop a deep learning model considering all the above various input attributes. To have a robust and reliable prediction, the dataset for both the fast and slow cyclic tests is split into three mutually exclusive subsets of training, validation, and testing (unseen). The whole datasets include 17 RC bridge piers tested experimentally ten for fast and seven for slow cyclic tests. The results bring to light that the mean absolute error, as a loss function, is monotonically decreased to zero for both the training and validation datasets after 5000 epochs, and a high level of correlation is observed between the predicted and the experimentally measured values of the force time histories for all the datasets, more than 90%. It can be concluded that the maximum mean of the normalized error, obtained through Box-Whisker plot and Gaussian distribution of normalized error, associated with unseen data is about 10% and 3% for the fast and slow cyclic tests, respectively. In recapitulation, it brings to an end that the stacked Bi-CuDNNLSTM layer implemented in this study has a myriad of benefits in reducing the time and experimental costs for conducting new fast and slow cyclic tests in the future and results in a fast and accurate insight into hysteretic behavior of bridge piers.

AprilTag and Stereo Visual Inertial Odometry (A-SVIO) based Mobile Assets Localization at Indoor Construction Sites

  • Khalid, Rabia;Khan, Muhammad;Anjum, Sharjeel;Park, Junsung;Lee, Doyeop;Park, Chansik
    • 국제학술발표논문집
    • /
    • The 9th International Conference on Construction Engineering and Project Management
    • /
    • pp.344-352
    • /
    • 2022
  • Accurate indoor localization of construction workers and mobile assets is essential in safety management. Existing positioning methods based on GPS, wireless, vision, or sensor based RTLS are erroneous or expensive in large-scale indoor environments. Tightly coupled sensor fusion mitigates these limitations. This research paper proposes a state-of-the-art positioning methodology, addressing the existing limitations, by integrating Stereo Visual Inertial Odometry (SVIO) with fiducial landmarks called AprilTags. SVIO determines the relative position of the moving assets or workers from the initial starting point. This relative position is transformed to an absolute position when AprilTag placed at various entry points is decoded. The proposed solution is tested on the NVIDIA ISAAC SIM virtual environment, where the trajectory of the indoor moving forklift is estimated. The results show accurate localization of the moving asset within any indoor or underground environment. The system can be utilized in various use cases to increase productivity and improve safety at construction sites, contributing towards 1) indoor monitoring of man machinery coactivity for collision avoidance and 2) precise real-time knowledge of who is doing what and where.

  • PDF

Deep learning system for distinguishing between nasopalatine duct cysts and radicular cysts arising in the midline region of the anterior maxilla on panoramic radiographs

  • Yoshitaka Kise;Chiaki Kuwada;Mizuho Mori;Motoki Fukuda;Yoshiko Ariji;Eiichiro Ariji
    • Imaging Science in Dentistry
    • /
    • 제54권1호
    • /
    • pp.33-41
    • /
    • 2024
  • Purpose: The aims of this study were to create a deep learning model to distinguish between nasopalatine duct cysts (NDCs), radicular cysts, and no-lesions (normal) in the midline region of the anterior maxilla on panoramic radiographs and to compare its performance with that of dental residents. Materials and Methods: One hundred patients with a confirmed diagnosis of NDC (53 men, 47 women; average age, 44.6±16.5 years), 100 with radicular cysts (49 men, 51 women; average age, 47.5±16.4 years), and 100 with normal groups (56 men, 44 women; average age, 34.4±14.6 years) were enrolled in this study. Cases were randomly assigned to the training datasets (80%) and the test dataset (20%). Then, 20% of the training data were randomly assigned as validation data. A learning model was created using a customized DetectNet built in Digits version 5.0 (NVIDIA, Santa Clara, USA). The performance of the deep learning system was assessed and compared with that of two dental residents. Results: The performance of the deep learning system was superior to that of the dental residents except for the recall of radicular cysts. The areas under the curve (AUCs) for NDCs and radicular cysts in the deep learning system were significantly higher than those of the dental residents. The results for the dental residents revealed a significant difference in AUC between NDCs and normal groups. Conclusion: This study showed superior performance in detecting NDCs and radicular cysts and in distinguishing between these lesions and normal groups.

CUDA 라이브러리를 이용한 위성영상 병렬처리 : NDVI 연산을 중심으로 (Parallel Processing of Satellite Images using CUDA Library: Focused on NDVI Calculation)

  • 이강훈;조명희;이원희
    • 한국지리정보학회지
    • /
    • 제19권3호
    • /
    • pp.29-42
    • /
    • 2016
  • 원격탐사는 넓은 지역을 직접 접촉하지 않고 정보를 취득할 수 있고 다양한 분야에 적용할 수 있음으로써 급속히 발전하게 되었다. 이에 따라 위성의 제원 또한 원격탐사의 발전과 함께 급속한 발전을 이루게 되었다. 이러한 이유로 여러 분야에서 활용에 관한 연구가 활발히 이루어지고 있다. 현재 활용에 관한 연구는 활발히 이루어지고 있지만, 자료처리에 관련된 연구가 부족한 실정이다. 예전보다 인공위성의 제원이 발전하면서 많은 양의 정보 획득이 가능해진 것과 동시에 데이터 크기 또한 매우 커졌다. 이는 과거에 비해 자료의 처리속도가 저하된다는 단점이 존재한다. 따라서 본 논문에서는 병렬 처리의 한 가지 기법인 NVIDIA에서 제공하고 있는 CUDA (Compute Unified Device Architecture) 라이브러리를 활용하여 위성영상 자료처리 성능의 최적화를 목적으로 하고 있다. 본 연구의 순서는 다음과 같다. 다목적실용위성(Korea Multi-Purpose Satellite, KOMPSAT)의 영상을 크기를 기준으로 5가지 Type으로 나눈다. 이렇게 나누어진 영상을 원격탐사 분야의 한 가지 방법인 NDVI (Normalized Difference Vegetation Index)로 구현한다. 이때 CPU (Central Processing Unit, 중앙처리장치) 기반과 GPU (Graphic Processing Unit, 그래픽처리장치) 기반의 두 가지 방법과 상용 소프트웨어인 ArcMap을 이용하여 NDVI를 구현한다. 그리고 동일한 영상 유무를 판단하기 위해 구현된 결과 영상들을 히스토그램과 시각적으로 비교하고 CPU 버전과 GPU 버전의 처리속도를 비교 분석하였다. 연구결과 CPU 버전과 GPU 버전의 결과 영상은 ArcMap으로 구현한 영상과 시각적 그리고 히스토그램 비교를 통해 같은 결과를 나타내어 NDVI 코드는 올바르게 구현되었으며, 처리속도는 CPU보다 GPU가 약 5배 정도 빠른 것으로 확인하였다. 본 연구에서 병렬 처리의 한 기법인 CUDA 라이브러리를 활용하여 위성영상 자료처리 성능을 향상시킬 수 있었으며, 향후 NDVI와 같은 단순한 픽셀 연산 이외에도 다양한 원격탐사 기법의 적용이 필요할 것으로 사료된다.

선박 갑판에서 이미지 기반 이동로봇 주행에 관한 연구 (A Study on Image-Based Mobile Robot Driving on Ship Deck)

  • 김선덕;박경민;왕승열
    • 해양환경안전학회지
    • /
    • 제28권7호
    • /
    • pp.1216-1221
    • /
    • 2022
  • 선박은 화물 운송의 효율을 증대시키기 위해 대형화되는 추세이다. 선박 대형화는 선박 작업자의 이동시간 증가, 업무 강도 증가 및 작업 효율 저하 등으로 이어진다. 작업 업무 강도 증가 등의 문제는 젊은 세대의 고강도 노동 기피 현상과 맞물러 젊은 세대의 노동력 유입을 감소시키고 있다. 또한 급속한 인구 노령화도 젊은 세대의 노동력 유입 감소와 복합적으로 작용하면서 해양산업 분야의 인력 부족 문제는 극심해지는 추세이다. 해양산업 분야는 인력 부족 문제를 극복하기 위해 지능형 생산설계 플랫폼, 스마트 생산 운영관리 시스템 등의 기술을 도입하고 있으며, 스마트 자율물류 시스템도 이러한 기술 중의 하나이다. 스마트 자율물류 시스템은 각종 물품들을 지능형 이동로봇을 활용하여 전달하는 기술로서 라이다, 카메라 등의 센서를 활용해 로봇 스스로 주행이 가능하도록 하는 것이다. 이에 본 논문에서는 이동로봇이 선박 갑판의 통행로를 감지하여 stop sign이 있는 곳까지 자율적으로 주행할 수 있는지를 확인하였다. 자율주행은 Nvidia의 End-to-end learning을 통해 학습한 데이터를 기반으로, 이동로봇에 장착된 카메라를 통해 선박 갑판의 통행로를 감지하여 수행하였다. 이동로봇의 정지는 SSD MobileNetV2를 이용하여 stop sign을 확인하여 수행하였다. 실험은 약 70m 거리의 선박 갑판 통행로를 이동로봇이 이탈 없이 주행 후 stop sign을 확인하여 정지하는지를 5회 반복 실험하였으며, 실험 결과 경로이탈 없이 주행하는 결과를 얻을 수 있었다. 이 결과를 적용한 스마트 자율물류 시스템이 산업현장에 적용된다면 작업자가 작업 시 안정성, 노동력 감소, 작업 효율이 향상될 것으로 사료된다.

스마트팜 빅데이터 분석을 위한 이기종간 심층학습 기법 연구 (A Study on Deep Learning Methodology for Bigdata Mining from Smart Farm using Heterogeneous Computing)

  • 민재기;이동훈
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 2017년도 춘계공동학술대회
    • /
    • pp.162-162
    • /
    • 2017
  • 구글에서 공개한 Tensorflow를 이용한 여러 학문 분야의 연구가 활발하다. 농업 시설환경을 대상으로 한 빅데이터의 축적이 증가함과 아울러 실효적인 정보 획득을 위한 각종 데이터 분석 및 마이닝 기법에 대한 연구 또한 활발한 상황이다. 한편, 타 분야의 성공적인 심층학습기법 응용사례에 비하여 농업 분야에서의 응용은 초기 성장 단계라 할 수 있다. 이는 농업 현장에서 취득한 정보의 난해성 및 완성도 높은 생육/환경 모델링 정보의 부재로 실효적인 전과정 처리 기술 도출에 소요되는 시간, 비용, 연구 환경이 상대적으로 부족하기 때문일 것이다. 특히, 센서 기반 데이터 취득 기술 증가에 따라 비약적으로 방대해진 수집 데이터를 시간 복잡도가 높은 심층 학습 모델링 연산에 기계적으로 단순 적용할 경우 시간 효율적인 측면에서 성공적인 결과 도출에 애로가 있을 것이다. 매우 높은 시간 복잡도를 해결하기 위하여 제시된 하드웨어 가속 기능의 경우 일부 개발환경에 국한이 되어 있다. 일례로, 구글의 Tensorflow는 오픈소스 기반 병렬 클러스터링 기술인 MPICH를 지원하는 알고리즘을 공개하지 않고 있다. 따라서, 본 연구에서는 심층학습 기법 연구에 있어서, 예상 가능한 다양한 자원을 활용하여 최대한 연산의 결과를 빨리 도출할 수 있는 하드웨어적인 접근 방법을 모색하였다. 호스트에서 수행하는 일방적인 학습 알고리즘과 달리 이기종간 심층 학습이 가능하기 위해선 우선, NFS(Network File System)를 이용하여 데이터 계층이 상호 연결이 되어야 한다. 이를 위해서 고속 네트워크를 기반으로 한 NFS의 이용이 필수적이다. 둘째로 제한된 자원의 한계를 극복하기 위한 메모 공유 라이브러리가 필요하다. 셋째로 이기종간 프로세서에 최적화된 병렬 처리용 컴파일러를 이용해야 한다. 가장 중요한 부분은 이기종간의 처리 능력에 따른 작업을 고르게 분배할 수 있는 작업 스케쥴링이 수행되어야 하며, 이는 처리하고자 하는 데이터의 형태에 따라 매우 가변적이므로 해당 데이터 도메인에 대한 엄밀한 사전 벤치마킹이 수행되어야 한다. 이러한 요구조건을 대부분 충족하는 Open-CL ver1.2(https://www.khronos.org/opencl/)를 이용하였다. 최신의 Open-CL 버전은 2.2이나 본 연구를 위하여 준비한 4가지 이기종 시스템에서 모두 공통적으로 지원하는 버전은 1.2이다. 실험적으로 선정된 4가지 이기종 시스템은 1) Windows 10 Pro, 2) Linux-Ubuntu 16.04.4 LTS-x86_64, 3) MAC OS X 10.11 4) Linux-Ubuntu 16.04.4 LTS-ARM Cortext-A15 이다. 비교 분석을 위하여 NVIDIA 사에서 제공하는 Pascal Titan X 2식을 SLI로 구성한 시스템을 준비하였다. 개별 시스템에서 별도로 컴파일 된 바이너리의 이름을 통일하고, 개별 시스템의 코어수를 동일하게 균등 배분하여 100 Hz의 데이터로 입력이 되는 온도 정보와 조도 정보를 입력으로 하고 이를 습도정보에 Linear Gradient Descent Optimizer를 이용하여 Epoch 10,000회의 학습을 수행하였다. 4종의 이기종에서 총 32개의 코어를 이용한 학습에서 17초 내외로 연산 수행을 마쳤으나, 비교 시스템에서는 11초 내외로 연산을 마치는 결과가 나왔다. 기보유 하드웨어의 적절한 활용이 가능한 심층학습 기법에 대한 연구를 지속할 것이다

  • PDF