• 제목/요약/키워드: 3D convolutional neural network

검색결과 112건 처리시간 0.035초

딥러닝 기술을 이용한 3차원 객체 추적 기술 리뷰 (A Review of 3D Object Tracking Methods Using Deep Learning)

  • 박한훈
    • 융합신호처리학회논문지
    • /
    • 제22권1호
    • /
    • pp.30-37
    • /
    • 2021
  • 카메라 영상을 이용한 3차원 객체 추적 기술은 증강현실 응용 분야를 위한 핵심 기술이다. 영상 분류, 객체 검출, 영상 분할과 같은 컴퓨터 비전 작업에서 CNN(Convolutional Neural Network)의 인상적인 성공에 자극 받아, 3D 객체 추적을 위한 최근의 연구는 딥러닝(deep learning)을 활용하는 데 초점을 맞추고 있다. 본 논문은 이러한 딥러닝을 활용한 3차원 객체 추적 방법들을 살펴본다. 딥러닝을 활용한 3차원 객체 추적을 위한 주요 방법들을 설명하고, 향후 연구 방향에 대해 논의한다.

CCTV 영상의 이상행동 다중 분류를 위한 결합 인공지능 모델에 관한 연구 (A Study on Combine Artificial Intelligence Models for multi-classification for an Abnormal Behaviors in CCTV images)

  • 이홍래;김영태;서병석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.498-500
    • /
    • 2022
  • CCTV는 위험 상황을 파악하고 신속히 대응함으로써, 인명과 자산을 안전하게 보호한다. 하지만, 점점 많아지는 CCTV 영상을 지속적으로 모니터링하기는 어렵다. 이런 이유로 CCTV 영상을 지속적으로 모니터링하면서 이상행동이 발생했을 때 알려주는 장치가 필요하다. 최근 영상데이터 분석에 인공지능 모델을 활용한 많은 연구가 이루어지고 있다. 본 연구는 CCTV 영상에서 관측할 수 있는 다양한 이상 행동을 분류하기 위해 영상데이터 사이의 공간적, 시간적 특성 정보를 동시에 학습한다. 학습에 이용되는 인공지능 모델로 End-to-End 방식의 3D-Convolution Neural Network(CNN)와 ResNet을 결합한 다중 분류 딥러닝 모델을 제안한다.

  • PDF

PNCC와 robust Mel-log filter bank 특징을 결합한 조류 울음소리 분류 (Bird sounds classification by combining PNCC and robust Mel-log filter bank features)

  • 알자흐라 바디;고경득;고한석
    • 한국음향학회지
    • /
    • 제38권1호
    • /
    • pp.39-46
    • /
    • 2019
  • 본 논문에서는 합성곱 신경망(Convolutional Neural Network, CNN) 구조를 이용하여 잡음 환경에서 음향신호를 분류할 때, 인식률을 높이는 결합 특징을 제안한다. 반면, Wiener filter를 이용한 강인한 log Mel-filter bank와 PNCCs(Power Normalized Cepstral Coefficients)는 CNN 구조의 입력으로 사용되는 2차원 특징을 형성하기 위해 추출됐다. 자연환경에서 43종의 조류 울음소리를 포함한 ebird 데이터베이스는 분류 실험을 위해 사용됐다. 잡음 환경에서 결합 특징의 성능을 평가하기 위해 ebird 데이터베이스를 3종류의 잡음을 이용하여 4개의 다른 SNR (Signal to Noise Ratio)(20 dB, 10 dB, 5 dB, 0 dB)로 합성했다. 결합 특징은 Wiener filter를 적용한 log-Mel filter bank, 적용하지 않은 log-Mel filter bank, 그리고 PNCC와 성능을 비교했다. 결합 특징은 잡음이 없는 환경에서 1.34 % 인식률 향상으로 다른 특징에 비해 높은 성능을 보였다. 추가적으로, 4단계 SNR의 잡음 환경에서 인식률은 shop 잡음 환경과 schoolyard 잡음 환경에서 각각 1.06 %, 0.65 % 향상했다.

이중흐름 3차원 합성곱 신경망 구조를 이용한 효율적인 손 제스처 인식 방법 (An Efficient Hand Gesture Recognition Method using Two-Stream 3D Convolutional Neural Network Structure)

  • 최현종;노대철;김태영
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제14권6호
    • /
    • pp.66-74
    • /
    • 2018
  • 최근 가상환경에서 몰입감을 늘리고 자유로운 상호작용을 제공하기 위한 손 제스처 인식에 대한 연구가 활발히 진행되고 있다. 그러나 기존의 연구는 특화된 센서나 장비를 요구하거나, 낮은 인식률을 보이고 있다. 본 논문은 정적 손 제스처와 동적 손 제스처 인식을 위해 카메라 이외의 별도의 센서나 장비 없이 딥러닝 기술을 사용한 손 제스처 인식 방법을 제안한다. 일련의 손 제스처 영상을 고주파 영상으로 변환한 후 손 제스처 RGB 영상들과 이에 대한 고주파 영상들 각각에 대해 덴스넷 3차원 합성곱 신경망을 통해 학습한다. 6개의 정적 손 제스처와 9개의 동적 손 제스처 인터페이스에 대해 실험한 결과 기존 덴스넷에 비해 4.6%의 성능이 향상된 평균 92.6%의 인식률을 보였다. 본 연구결과를 검증하기 위하여 3D 디펜스 게임을 구현한 결과 평균 34ms로 제스처 인식이 가능하여 가상현실 응용의 실시간 사용자 인터페이스로 사용가능함을 알 수 있었다.

Convolutional Neural Network-Based Automatic Segmentation of Substantia Nigra on Nigrosome and Neuromelanin Sensitive MR Images

  • Kang, Junghwa;Kim, Hyeonha;Kim, Eunjin;Kim, Eunbi;Lee, Hyebin;Shin, Na-young;Nam, Yoonho
    • Investigative Magnetic Resonance Imaging
    • /
    • 제25권3호
    • /
    • pp.156-163
    • /
    • 2021
  • Recently, neuromelanin and nigrosome imaging techniques have been developed to evaluate the substantia nigra in Parkinson's disease. Previous studies have shown potential benefits of quantitative analysis of neuromelanin and nigrosome images in the substantia nigra, although visual assessments have been performed to evaluate structures in most studies. In this study, we investigate the potential of using deep learning based automatic region segmentation techniques for quantitative analysis of the substantia nigra. The deep convolutional neural network was trained to automatically segment substantia nigra regions on 3D nigrosome and neuromelanin sensitive MR images obtained from 30 subjects. With a 5-fold cross-validation, the mean calculated dice similarity coefficient between manual and deep learning was 0.70 ± 0.11. Although calculated dice similarity coefficients were relatively low due to empirically drawn margins, selected slices were overlapped for more than two slices of all subjects. Our results demonstrate that deep convolutional neural network-based method could provide reliable localization of substantia nigra regions on neuromelanin and nigrosome sensitive MR images.

Image Retrieval Based on the Weighted and Regional Integration of CNN Features

  • Liao, Kaiyang;Fan, Bing;Zheng, Yuanlin;Lin, Guangfeng;Cao, Congjun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권3호
    • /
    • pp.894-907
    • /
    • 2022
  • The features extracted by convolutional neural networks are more descriptive of images than traditional features, and their convolutional layers are more suitable for retrieving images than are fully connected layers. The convolutional layer features will consume considerable time and memory if used directly to match an image. Therefore, this paper proposes a feature weighting and region integration method for convolutional layer features to form global feature vectors and subsequently use them for image matching. First, the 3D feature of the last convolutional layer is extracted, and the convolutional feature is subsequently weighted again to highlight the edge information and position information of the image. Next, we integrate several regional eigenvectors that are processed by sliding windows into a global eigenvector. Finally, the initial ranking of the retrieval is obtained by measuring the similarity of the query image and the test image using the cosine distance, and the final mean Average Precision (mAP) is obtained by using the extended query method for rearrangement. We conduct experiments using the Oxford5k and Paris6k datasets and their extended datasets, Paris106k and Oxford105k. These experimental results indicate that the global feature extracted by the new method can better describe an image.

Pointwise CNN for 3D Object Classification on Point Cloud

  • Song, Wei;Liu, Zishu;Tian, Yifei;Fong, Simon
    • Journal of Information Processing Systems
    • /
    • 제17권4호
    • /
    • pp.787-800
    • /
    • 2021
  • Three-dimensional (3D) object classification tasks using point clouds are widely used in 3D modeling, face recognition, and robotic missions. However, processing raw point clouds directly is problematic for a traditional convolutional network due to the irregular data format of point clouds. This paper proposes a pointwise convolution neural network (CNN) structure that can process point cloud data directly without preprocessing. First, a 2D convolutional layer is introduced to percept coordinate information of each point. Then, multiple 2D convolutional layers and a global max pooling layer are applied to extract global features. Finally, based on the extracted features, fully connected layers predict the class labels of objects. We evaluated the proposed pointwise CNN structure on the ModelNet10 dataset. The proposed structure obtained higher accuracy compared to the existing methods. Experiments using the ModelNet10 dataset also prove that the difference in the point number of point clouds does not significantly influence on the proposed pointwise CNN structure.

Human Activity Recognition Based on 3D Residual Dense Network

  • Park, Jin-Ho;Lee, Eung-Joo
    • 한국멀티미디어학회논문지
    • /
    • 제23권12호
    • /
    • pp.1540-1551
    • /
    • 2020
  • Aiming at the problem that the existing human behavior recognition algorithm cannot fully utilize the multi-level spatio-temporal information of the network, a human behavior recognition algorithm based on a dense three-dimensional residual network is proposed. First, the proposed algorithm uses a dense block of three-dimensional residuals as the basic module of the network. The module extracts the hierarchical features of human behavior through densely connected convolutional layers; Secondly, the local feature aggregation adaptive method is used to learn the local dense features of human behavior; Then, the residual connection module is applied to promote the flow of feature information and reduced the difficulty of training; Finally, the multi-layer local feature extraction of the network is realized by cascading multiple three-dimensional residual dense blocks, and use the global feature aggregation adaptive method to learn the features of all network layers to realize human behavior recognition. A large number of experimental results on benchmark datasets KTH show that the recognition rate (top-l accuracy) of the proposed algorithm reaches 93.52%. Compared with the three-dimensional convolutional neural network (C3D) algorithm, it has improved by 3.93 percentage points. The proposed algorithm framework has good robustness and transfer learning ability, and can effectively handle a variety of video behavior recognition tasks.

입출력구조와 신경망 모델에 따른 딥러닝 기반 정규화 기법의 성능 분석 (Performance Analysis of Deep Learning-based Normalization According to Input-output Structure and Neural Network Model)

  • 류창수;김근환
    • 한국산업정보학회논문지
    • /
    • 제29권4호
    • /
    • pp.13-24
    • /
    • 2024
  • 본 논문에서는 다양한 신경망 모델과 입출력 구조에 따른 정규화 기법의 성능을 비교 분석하였다. 분석을 위해 균등한 잡음과 최대 3개의 간섭 신호가 있는 잡음 환경에 대한 시뮬레이션 기반의 데이터 세트를 사용하였다. 실험 결과, 잡음 분산을 직접 출력하는 End-to-End 구조에 대해서 1-D 콘볼루션 신경망과 BiLSTM 모델을 사용할 경우 우수한 성능을 보였으며, 특히 간섭 신호에 대해 강건한 것으로 분석되었다. 이러한 결과는 다층 퍼셉트론 신경망과 트랜스포머보다 1-D 콘볼루션 신경망 및 BiLSTM 모델이 귀납적 편향이 강하기 때문에 나타난 것으로 판단된다. 이 논문의 분석 결과는 향후 딥러닝 기반 정규화 기법 연구에 유용한 기준점으로 활용될 수 있을 것으로 기대된다.

DeepAct: A Deep Neural Network Model for Activity Detection in Untrimmed Videos

  • Song, Yeongtaek;Kim, Incheol
    • Journal of Information Processing Systems
    • /
    • 제14권1호
    • /
    • pp.150-161
    • /
    • 2018
  • We propose a novel deep neural network model for detecting human activities in untrimmed videos. The process of human activity detection in a video involves two steps: a step to extract features that are effective in recognizing human activities in a long untrimmed video, followed by a step to detect human activities from those extracted features. To extract the rich features from video segments that could express unique patterns for each activity, we employ two different convolutional neural network models, C3D and I-ResNet. For detecting human activities from the sequence of extracted feature vectors, we use BLSTM, a bi-directional recurrent neural network model. By conducting experiments with ActivityNet 200, a large-scale benchmark dataset, we show the high performance of the proposed DeepAct model.