DOI QR코드

DOI QR Code

Depth Map Estimation Model Using 3D Feature Volume

3차원 특징볼륨을 이용한 깊이영상 생성 모델

  • Received : 2018.09.03
  • Accepted : 2018.10.22
  • Published : 2018.11.28

Abstract

This paper proposes a depth image generation algorithm of stereo images using a deep learning model composed of a CNN (convolutional neural network). The proposed algorithm consists of a feature extraction unit which extracts the main features of each parallax image and a depth learning unit which learns the parallax information using extracted features. First, the feature extraction unit extracts a feature map for each parallax image through the Xception module and the ASPP(Atrous spatial pyramid pooling) module, which are composed of 2D CNN layers. Then, the feature map for each parallax is accumulated in 3D form according to the time difference and the depth image is estimated after passing through the depth learning unit for learning the depth estimation weight through 3D CNN. The proposed algorithm estimates the depth of object region more accurately than other algorithms.

본 논문은 컨볼루션 신경망으로 이루어진 학습 모델을 통해 스테레오 영상의 깊이영상 생성 알고리즘을 제안한다. 제안하는 알고리즘은 좌, 우 시차 영상을 입력으로 받아 각 시차영상의 주요 특징을 추출하는 특징 추출부와 추출된 특징을 이용하여 시차 정보를 학습하는 깊이 학습부로 구성된다. 우선 특징 추출부는 2D CNN 계층들로 이루어진 익셉션 모듈(xception module) 및 ASPP 모듈(atrous spatial pyramid pooling) module을 통해 각각의 시차영상에 대한 특징맵을 추출한다. 그 후 각 시차에 대한 특징 맵을 시차에 따라 3차원 형태로 쌓아 3D CNN을 통해 깊이 추정 가중치를 학습하는 깊이 학습부를 거친 후 깊이 영상을 추정한다. 제안하는 알고리즘은 객체 영역에 대해 기존의 다른 학습 알고리즘들 보다 정확한 깊이를 추정하였다.

Keywords

CCTHCV_2018_v18n11_447_f0001.png 이미지

그림 1. 제안하는 깊이영상 생성 모델

CCTHCV_2018_v18n11_447_f0002.png 이미지

그림 2. 제안하는 Xception 모듈의 순서도

CCTHCV_2018_v18n11_447_f0003.png 이미지

그림 3. 제안하는 ASPP 모듈의 순서도

CCTHCV_2018_v18n11_447_f0004.png 이미지

그림 4. 제안하는 3차원 깊이 비용 모듈의 순서도

CCTHCV_2018_v18n11_447_f0005.png 이미지

그림 5.각 모델을 통해 생성한 깊이영상의 오류화소

CCTHCV_2018_v18n11_447_f0006.png 이미지

그림 6. 각 모델을 통해 생성한 깊이영상의 오류화소

표 1. 깊이영상 생성 결과 오류 극단치 비교

CCTHCV_2018_v18n11_447_t0001.png 이미지

표 2. KITTI 깊이영상 생성 시 장당 수행시간 비교 (s)

CCTHCV_2018_v18n11_447_t0002.png 이미지

References

  1. ISO/IEC JTC1/SC29/WG11, "Appolication and Requirements on FTV," N9466, 2007.
  2. C. Stentoumis, L. Grammatikopulos, I. Kalisperakis, and G. Karras, "On accurate dense stereo-matching using a local adaptive multi-cost approach," ISPRS J. of Photogrammetry and Remote Sensing, Vol. 91, pp. 29-49, 2014. https://doi.org/10.1016/j.isprsjprs.2014.02.006
  3. A. Miron, S. Ainouz, A. Rogozan, and A. Bensrhair, "A robust cost function for stereo matching of road scenes," Pattern Recognition Letters, Vol. 38, pp. 70-77, 2014. https://doi.org/10.1016/j.patrec.2013.11.009
  4. C. Stentoumis, L. Grammatikopoulos, I. Kalisperakis, and G. Karras, "Stereo matching based on census transformation of image gradients," in Proceeding of the SPIE Optical Metrology, International Society for Optics and Photonics, 2015.
  5. J. Zbontar and Y. Lecun, "Stereo matching by training a convolutional neural network to compare image patches," International J. of Machine Learning Research, Vol. 17, pp. 1-32, 2016.
  6. A. Kendall, H. Martirosyan, S. Dasgupta, P. Henry, R. Kennedy, A. Bachrach, and A. Bry, "End-to-end learning of geometry and context for deep stereo regression," in Proceeding of the IEEE International Conference on Computer Vision(ICCV), pp. 1-8, 2017.
  7. J. R. Chang and Y. S. Chen, "Pyramid Stereo Matching Network," in Proceeding of the IEEE International Conference on Computer Vision and Pattern Recognition(CVPR), pp. 5410-5418, 2018.
  8. K. He, X. Zhang, S. Ren, and J. Sun, "Spatial pyramid pooling in deep convolutional networks for visual recognition," in European Conference on Computer Vision, pp. 346-361, 2014.
  9. F. Chollet, "Xception : Deep Learning with Depthwise Separable Convolutions," in Proceeding of the IEEE International Conference on Computer Vision and Pattern Recognition(CVPR), 2017.
  10. L. C. Chen, G. Papandreou, L. Kokkinos, K. Murphy, and A. L. Yuille, "DeepLab : Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs," in Proceeding of the IEEE International Conference on Computer Vision and Pattern Recognition(CVPR), 2016.
  11. A. Newell, K. Yang, and J. Deng, "Stacked hourglass networks for human pose estimation," in European Conference on Computer Vision, pp. 483-499, 2016.
  12. N. Mayer, E. Ilg, P. Hausser, P. Fischer, D. Cremers, A. Dosovitskiy, and T. Brox, "A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation," in Proceeding of the IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
  13. M. Menze and A. Geiger, "Object Scene Flow for Autonomous Vehicles," in Proceeding of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2015.