• 제목/요약/키워드: 3D convolutional neural network

검색결과 108건 처리시간 0.027초

딥러닝기반 입체 영상의 획득 및 처리 기술 동향 (Recent Technologies for the Acquisition and Processing of 3D Images Based on Deep Learning)

  • 윤민성
    • 전자통신동향분석
    • /
    • 제35권5호
    • /
    • pp.112-122
    • /
    • 2020
  • In 3D computer graphics, a depth map is an image that provides information related to the distance from the viewpoint to the subject's surface. Stereo sensors, depth cameras, and imaging systems using an active illumination system and a time-resolved detector can perform accurate depth measurements with their own light sources. The 3D image information obtained through the depth map is useful in 3D modeling, autonomous vehicle navigation, object recognition and remote gesture detection, resolution-enhanced medical images, aviation and defense technology, and robotics. In addition, the depth map information is important data used for extracting and restoring multi-view images, and extracting phase information required for digital hologram synthesis. This study is oriented toward a recent research trend in deep learning-based 3D data analysis methods and depth map information extraction technology using a convolutional neural network. Further, the study focuses on 3D image processing technology related to digital hologram and multi-view image extraction/reconstruction, which are becoming more popular as the computing power of hardware rapidly increases.

동작 인식을 위한 교사-학생 구조 기반 CNN (Teacher-Student Architecture Based CNN for Action Recognition)

  • ;이효종
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권3호
    • /
    • pp.99-104
    • /
    • 2022
  • 대부분 첨단 동작 인식 컨볼루션 네트워크는 RGB 스트림과 광학 흐름 스트림, 양 스트림 아키텍처를 기반으로 하고 있다. RGB 프레임 스트림은 모양 특성을 나타내고 광학 흐름 스트림은 동작 특성을 해석한다. 그러나 광학 흐름은 계산 비용이 매우 높기 때문에 동작 인식 시간에 지연을 초래한다. 이에 양 스트림 네트워크와 교사-학생 아키텍처에서 영감을 받아 행동 인식을 위한 새로운 네트워크 디자인을 개발하였다. 제안 신경망은 두 개의 하위 네트워크로 구성되어있다. 즉, 교사 역할을 하는 광학 흐름 하위 네트워크와 학생 역할을 하는 RGB 프레임 하위 네트워크를 연결하였다. 훈련 단계에서 광학 흐름의 특징을 추출하고 교사 서브 네트워크를 훈련시킨 다음 그 특징을 학생 서브 네트워크를 훈련시키기 위한 기준선으로 지정하여 학생 서브 네트워크에 전송한다. 테스트 단계에서는 광학 흐름을 계산하지 않고 대기 시간이 줄어들도록 학생 네트워크만 사용한다. 제안 네트워크는 실험을 통하여 정확도 면에서 일반 이중 스트림 아키텍처에 비해 높은 정확도를 보여주는 것을 확인하였다.

A New Residual Attention Network based on Attention Models for Human Action Recognition in Video

  • Kim, Jee-Hyun;Cho, Young-Im
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.55-61
    • /
    • 2020
  • 딥 러닝 기술의 발전과 컴퓨팅 파워 등의 개선으로 인해 비디오 기반 연구는 최근 많은 관심을 얻고 있다. 비디오 데이터가 이미지 데이터와 비교하여 가장 큰 차이는 비디오 데이터에는 많은 양의 시간적, 공간적 정보가 포함되어 있다는 점이다. 이처럼 비디오에 포함된 많은 양의 데이터로 인해 컴퓨터 비전 연구에 있어서 행동 인식은 중요한 연구 과제 중 하나이지만, 비디오와 같이 움직임이 있는 환경에서 인간의 행동 인식은 매우 복잡하고 도전적인 과제이다. 인간에 대한 여러 연구를 바탕으로 인공지능에서는 인간과 유사한 주의(attention)메커니즘이 효율적인 인식 모델이라는 것을 알게 되었다. 이 효율적인 모델은 이미지 정보와 복잡한 연속 비디오 정보를 처리하는 데 이상적이다. 본 논문에서는 이러한 연구배경을 기반으로, 비디오에서 인간의 행동을 효율적으로 인식하기 위해 먼저 인간의 행동에 주목한 후 비디오 행동 인식에 주의메커니즘을 도입하고자 한다. 논문의 주요내용은 두 가지 주의 메카니즘을 기반으로 컨볼루션 신경망을 이용한 새로운 3D 잔류 주의 네트워크를 제안함으로써 비디오에서 인간의 행동을 식별하고자 한다. 제안 모델의 평가 결과 최대 90.7%정도의 정확도를 보였다.

A Novel RGB Channel Assimilation for Hyperspectral Image Classification using 3D-Convolutional Neural Network with Bi-Long Short-Term Memory

  • M. Preethi;C. Velayutham;S. Arumugaperumal
    • International Journal of Computer Science & Network Security
    • /
    • 제23권3호
    • /
    • pp.177-186
    • /
    • 2023
  • Hyperspectral imaging technology is one of the most efficient and fast-growing technologies in recent years. Hyperspectral image (HSI) comprises contiguous spectral bands for every pixel that is used to detect the object with significant accuracy and details. HSI contains high dimensionality of spectral information which is not easy to classify every pixel. To confront the problem, we propose a novel RGB channel Assimilation for classification methods. The color features are extracted by using chromaticity computation. Additionally, this work discusses the classification of hyperspectral image based on Domain Transform Interpolated Convolution Filter (DTICF) and 3D-CNN with Bi-directional-Long Short Term Memory (Bi-LSTM). There are three steps for the proposed techniques: First, HSI data is converted to RGB images with spatial features. Before using the DTICF, the RGB images of HSI and patch of the input image from raw HSI are integrated. Afterward, the pair features of spectral and spatial are excerpted using DTICF from integrated HSI. Those obtained spatial and spectral features are finally given into the designed 3D-CNN with Bi-LSTM framework. In the second step, the excerpted color features are classified by 2D-CNN. The probabilistic classification map of 3D-CNN-Bi-LSTM, and 2D-CNN are fused. In the last step, additionally, Markov Random Field (MRF) is utilized for improving the fused probabilistic classification map efficiently. Based on the experimental results, two different hyperspectral images prove that novel RGB channel assimilation of DTICF-3D-CNN-Bi-LSTM approach is more important and provides good classification results compared to other classification approaches.

딥러닝을 이용한 화강암 X-ray CT 영상에서의 균열 검출에 관한 연구 (Pixel-level Crack Detection in X-ray Computed Tomography Image of Granite using Deep Learning)

  • 현석환;이준성;전성환;김예진;김광염;윤태섭
    • 터널과지하공간
    • /
    • 제29권3호
    • /
    • pp.184-196
    • /
    • 2019
  • 본 연구에서는 화강암 시편에서 수압 파쇄법에 의해 생성된 미세균열의 3차원 형상을 X-ray CT 영상과 딥러닝을 이용하여 추출하였다. 실험으로 생성된 미세균열은 X-ray CT 영상 상에서 일반적인 영상처리방법으로는 추출하기 매우 어렵고 육안으로만 관찰이 가능한 형태를 지닌다. 하지만 본 연구에서 제안한 합성곱 신경망(Convolutional neural network) 기반 인코더-디코더(Encoder-Decoder) 구조의 딥러닝 모델을 통해 미세균열을 정량적으로 추출할 수 있었다. 특히 픽셀 단위의 미세균열 추출을 위해 인코딩 과정에서 소실되는 정보를 디코딩 과정으로 직접 전달하는 디코더 모델을 제안하였다. 또한, 딥러닝 기반 신경망 학습에 필요한 데이터의 수를 증가시키기 위해 이미지의 분할(Division), 회전(Rotation), 그리고 반전(Flipping) 등으로 데이터를 생성하는 영상 증대 방법을 적용하였으며 이때 최적의 조합을 확인하였다. 최적의 영상 학습 데이터 증대 방법을 적용하였을 때 검증 데이터뿐만 아니라 테스트 데이터에서의 성능 향상을 확인하였다. 학습 데이터의 원본 개수가 딥러닝 기반 신경망의 균열 추출 성능에 미치는 영향을 확인하고 딥러닝 기술을 사용하여 성공적으로 미세균열을 추출하였다.

반려동물용 자동 사료급식기의 비용효율적 사료 중량 예측을 위한 딥러닝 방법 (A Deep Learning Method for Cost-Effective Feed Weight Prediction of Automatic Feeder for Companion Animals)

  • 김회정;전예진;이승현;권오병
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.263-278
    • /
    • 2022
  • 최근 IoT 기술의 발달로 외출 중에도 반려동물에 급여하도록 자동 사료급식기가 유통되고 있다. 그러나 자동급식에서 중요한 중량을 측정하는 저울 방식은 쉽게 고장이 나고, 3D카메라 방식은 비용이 든다는 단점이 있으며, 2D카메라 방식은 중량 측정의 정확도가 떨어진다. 특히 사료가 복합된 경우 중량 측정 문제는 더욱 어려워질 수 있다. 따라서 본 연구의 목적은 2D카메라를 사용하면서도 중량을 정확하게 추정할 수 있는 딥러닝 접근법을 제안하는 것이다. 이를 위해 다양한 합성곱 신경망을 이용하였으며, 그중 ResNet101 기반 모델이 3.06 gram의 평균 절대 오차와 3.40%의 평균 절대비 오차를 기록하며 가장 우수한 성능을 보였다. 본 연구의 결과로 사료와 같이 규격화된 물체의 중량을 확보가 용이한 2D 이미지를 통해서만 예측할 필요가 있을 경우 유용한 정보로 활용될 수 있다.

반복적인 격자 워핑 기법을 이용한 깊이 영상 초해상화 기술 (Iterative Deep Convolutional Grid Warping Network for Joint Depth Upsampling)

  • 김동신;양윤모;오병태
    • 방송공학회논문지
    • /
    • 제25권6호
    • /
    • pp.965-972
    • /
    • 2020
  • 깊이 영상은 물체와의 거리 정보를 가지고 있다. 이는 3D 정보를 구성하는데 중요한 역할을 한다. 보통 같은 시점에서 얻은 컬러 영상과 깊이 영상을 함께 사용한다. 그런데 하드웨어 기술의 한계로 인해 깊이 영상은 쌍을 이루는 컬러 영상에 비해 낮은 해상도를 갖는다. 따라서 일반적으로 깊이 영상을 사용할 때 영상의 해상도를 컬러 영상의 해상도에 맞게 업샘플링을 진행한 후 사용한다. 본 논문에서는 깊이 영상의 해상도를 높이기 위해 화소 값을 개선시키는 일반적인 방법이 아닌 화소의 위치를 이동시키는 방법을 제안한다. 제안하는 기법에서는 화소의 위치를 경계 주변에서 경계 중앙으로 이동시키며 이 과정을 여러 단계에 걸쳐 진행하여 블러된 영상을 복원한다. 실험 결과를 통해 제안하는 방법이 기존 방법들에 비해 정량적, 시각적 품질을 모두 개선시켰음을 알 수 있다.

효과적인 입력변수 패턴 학습을 위한 시계열 그래프 기반 합성곱 신경망 모형: 주식시장 예측에의 응용 (A Time Series Graph based Convolutional Neural Network Model for Effective Input Variable Pattern Learning : Application to the Prediction of Stock Market)

  • 이모세;안현철
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.167-181
    • /
    • 2018
  • 지난 10여 년간 딥러닝(Deep Learning)은 다양한 기계학습 알고리즘 중에서 많은 주목을 받아 왔다. 특히 이미지를 인식하고 분류하는데 효과적인 알고리즘으로 알려져 있는 합성곱 신경망(Convolutional Neural Network, CNN)은 여러 분야의 분류 및 예측 문제에 널리 응용되고 있다. 본 연구에서는 기계학습 연구에서 가장 어려운 예측 문제 중 하나인 주식시장 예측에 합성곱 신경망을 적용하고자 한다. 구체적으로 본 연구에서는 그래프를 입력값으로 사용하여 주식시장의 방향(상승 또는 하락)을 예측하는 이진분류기로써 합성곱 신경망을 적용하였다. 이는 그래프를 보고 주가지수가 오를 것인지 내릴 것인지에 대해 경향을 예측하는 이른바 기술적 분석가를 모방하는 기계학습 알고리즘을 개발하는 과제라 할 수 있다. 본 연구는 크게 다음의 네 단계로 수행된다. 첫 번째 단계에서는 데이터 세트를 5일 단위로 나눈다. 두 번째 단계에서는 5일 단위로 나눈 데이터에 대하여 그래프를 만든다. 세 번째 단계에서는 이전 단계에서 생성된 그래프를 사용하여 학습용과 검증용 데이터 세트를 나누고 합성곱 신경망 분류기를 학습시킨다. 네 번째 단계에서는 검증용 데이터 세트를 사용하여 다른 분류 모형들과 성과를 비교한다. 제안한 모델의 유효성을 검증하기 위해 2009년 1월부터 2017년 2월까지의 약 8년간의 KOSPI200 데이터 2,026건의 실험 데이터를 사용하였다. 실험 데이터 세트는 CCI, 모멘텀, ROC 등 한국 주식시장에서 사용하는 대표적인 기술지표 12개로 구성되었다. 결과적으로 실험 데이터 세트에 합성곱 신경망 알고리즘을 적용하였을 때 로지스틱회귀모형, 단일계층신경망, SVM과 비교하여 제안모형인 CNN이 통계적으로 유의한 수준의 예측 정확도를 나타냈다.

CNN 강우여부 분류기를 적용한 ANN 기반 X-Band 레이다 유의파고 보정 (Estimation of Significant Wave Heights from X-Band Radar Based on ANN Using CNN Rainfall Classifier)

  • 김희연;안경모;오찬영
    • 한국해안·해양공학회논문집
    • /
    • 제33권3호
    • /
    • pp.101-109
    • /
    • 2021
  • 항해용 X-band 레이다를 이용한 파랑관측은 해수면에 후방산란 된 전자기파 이미지를 분석하여 이루어진다. 1분당 42개의 해수면 시계열 이미지로부터 3차원 FFT를 계산하고 변조전달함수(Modulation Transfer Function)를 구하여 파랑정보를 추출한다. 따라서 레이다 파고계로 계측한 유의파고의 정확도는 X-band 레이다 영상의 상태에 따라 결정된다. 2020년 여름 태풍 마이삭과 하이선 내습 시 강릉 안인 해안에 설치된 X-band 레이다 파고계로 관측한 유의파고의 오차가 크게 발생하였다. 이는 태풍 내습 시 급격히 유의파고가 증가하는 한편 강한 강우가 동반되어 X-band 레이다 영상의 품질이 저하되었기 때문이다. 최대 오차 발생 이전까지 많은 강우가 있었음이 확인된다. 본 연구에서는 convolution neural network(CNN)을 이용하여 레이다 이미지로부터 강우 여부를 분류하고 강우여부에 따라 강우시 인공신경망 모델을 적용하여 태풍 시 유의파고 관측 정확도를 향상시켰다. 폭우를 동반한 태풍 시 레이다 자료 특성에 기반하여 인공신경망 유의파고 산출 알고리즘을 개선하고 이를 통해 X-band 레이다 파고계의 정확도를 향상시키는 방법을 제시하였다.

Robust Deep Age Estimation Method Using Artificially Generated Image Set

  • Jang, Jaeyoon;Jeon, Seung-Hyuk;Kim, Jaehong;Yoon, Hosub
    • ETRI Journal
    • /
    • 제39권5호
    • /
    • pp.643-651
    • /
    • 2017
  • Human age estimation is one of the key factors in the field of Human-Robot Interaction/Human-Computer Interaction (HRI/HCI). Owing to the development of deep-learning technologies, age recognition has recently been attempted. In general, however, deep learning techniques require a large-scale database, and for age learning with variations, a conventional database is insufficient. For this reason, we propose an age estimation method using artificially generated data. Image data are artificially generated through 3D information, thus solving the problem of shortage of training data, and helping with the training of the deep-learning technique. Augmentation using 3D has advantages over 2D because it creates new images with more information. We use a deep architecture as a pre-trained model, and improve the estimation capacity using artificially augmented training images. The deep architecture can outperform traditional estimation methods, and the improved method showed increased reliability. We have achieved state-of-the-art performance using the proposed method in the Morph-II dataset and have proven that the proposed method can be used effectively using the Adience dataset.