단안 깊이 추정 기술 동향

  • Published : 2022.04.30

Abstract

한 장의 이미지로부터 장면의 깊이 정보를 추정하는 기술은 자율 주행, 실내외 로봇 기반 서비스 등 다양한 응용 분야에서 널리 적용되고 있다. 심층 학습을 이용한 알고리즘이 활발히 연구되면서 이러한 단안 깊이 추정 기술의 산업 분야 적용 범위는 확대되고 있는 추세이다. 그러나, 깊이 경계 정보를 정밀하게 예측하는데 여전히 많은 어려움이 있으며, 다양한 실제 환경에서 획득한 3차원 깊이 정보 구축 또한 많은 비용이 소모되는 문제점이 있다. 본 고에서는 이러한 문제를 해결하기 위해 최근 활발히 연구되고 있는 심층신경망 기반 단안 깊이 추정 연구의 최신 동향을 소개하고자 한다. 지도 학습 기반 방법부터 최근 활발히 연구되고 있는 비지도 학습 방법까지 상세히 살펴본다. 이와 더불어 대표 방법에 대한 성능 평가 결과도 간략히 제시하고자 한다.

Keywords

References

  1. A. Torralba and A. Oliva, "Depth estimation from image structure," IEEE Trans. Pattern Anal. Mach. Intell., vol. 24, no. 9, pp. 1226-1238, Sep. 2002. https://doi.org/10.1109/TPAMI.2002.1033214
  2. D. Hoiem, A. A. Efros, and M. Hebert, "Recovering surface layout from an image," Int. J. Comput. Vis., vol. 75, no. 1, pp. 151-172, Oct. 2007. https://doi.org/10.1007/s11263-006-0031-y
  3. K. Karsch, C. Liu, and S. B. Kang, "Depth transfer: depth extraction from video using non-parametric sampling," IEEE Trans. Pattern Anal. Mach. Intell., vol. 36, no. 11, pp. 2144-2158, Nov. 2014. https://doi.org/10.1109/TPAMI.2014.2316835
  4. D. Eigen, C. Puhrsch, and R. Fergus, "Depth map prediction from a single image using a multi-scale deep network," in Proc. Adv. Neural Inf. Process. Syst., Dec. 2014, pp. 2366-2374.
  5. F. Liu, C. Shen, and G. Lin, "Deep convolution neural fields for depth estimation from a single image," in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recognit., Jun. 2015, pp. 5162-5170.
  6. D. Xu, E. Ricci, W. Ouyang, X. Wang, and N. Sebe, "Multi-scale continuous CRFs as sequential deep networks for monocular depth estimation," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jul. 2017, pp. 161-169.
  7. C. Godard, O. M. Aodha, and G. J. Brostow, "Unsupervised monocular depth estimation with left-right consistency," in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recognit., Jun. 2017, pp. 6602-6611.
  8. C. Godard, O. M. Aodha, M. Firman, and G. Brostow, "Digging into self-supervised monocular depth estimation," in Proc. IEEE Int. Conf. Comput. Vis., Nov. 2019. pp. 3827-3837.
  9. H. Fu, M. Gong, C. Wang, K. Batmanghelich, and D. Tao, "Deep ordinal regression network for monocular depth estimation," in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 2002-2011.
  10. Y. Cao, T. Zhao, K. Xian, C. Shen, Z. Cao, and S. Xu, "Monocular depth estimation with augmented ordinal depth relationships," IEEE Trans. Circuits Syst. Video Technol., vol. 30, no. 8, pp. 2674-2682, Aug. 2020. https://doi.org/10.1109/tcsvt.2019.2929202
  11. Y. Gan, X. Xu, W. Sun, and L. Lin, "Monocular depth estimation with affinity, vertical pooling, and label enhancement," in Proc. Eur. Conf. Comput. Vis., Sep. 2018, pp. 232-247.
  12. J. H. Lee, M.-K. Han, D. W. Ko, and I. H. Suh, "From big to small: multi-scale local planar guidance for monocular depth estimation," 2019, arXiv:1907.10326. [Online]. Available: http://arxiv.org/abs/1907.10326.
  13. M. Song, S. Lim and W. Kim, "Monocular depth estimation using Laplacian pyramid-based depth residuals," IEEE Trans. Circuits Syst. Video Technol., vol. 31, no. 11, pp. 4381-4393, Nov. 2021. https://doi.org/10.1109/TCSVT.2021.3049869
  14. K. Xian, J. Zhang, O. Wang, L. Mai, Z. Lin, and Z. Cao, "Structure-guided ranking loss for single depth image prediction," in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recognit, Jun. 2020, pp. 611-620.
  15. A. Dosovitskiy et al., "An image is worth 16x16 words: transformers for image recognition at scale," in Proc. Int. Conf. Learn. Represet., May 2021, pp. 1-12.
  16. S. F. Bhat, I. Alhashim, and P. Wonka, "AdaBins: depth estimation using adaptive bins," in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recognit, Jun. 2021, pp. 4009-4018.
  17. A. Geiger, P. Lenz, C. Stiller, and R. Urtasun, "Vision meets robotics: The KITTI dataset," Int. J. Robot. Res., vol. 32, no. 11, pp. 1231-1237, Aug. 2013. https://doi.org/10.1177/0278364913491297
  18. M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele, "The cityscapes dataset for semantic urban scene understanding," in Proc. IEEE Int. Conf. Comput. Vis. Pattern Recognit., Jun. 2016, pp. 3213-3223.
  19. N. Silberman, D. Hoiem, P. Kohli, and R. Fergus, "Indoor segmentation and support inference from RGBD images," in Proc. Eur. Conf. Comput. Vis. Oct. 2012, pp. 746-760.