Ⅰ. 서론
깊이 추정은 자율주행 차량, 로봇, 드론의 3D 공간 지도 생성이 요구되는 분야에 필요한 요소 기술이다. 센서 기반 깊이 추정 방식은 정확하지만, 가격이 높고 해상도가 낮다. 반면 카메라 기반의 깊이 추정 방식은 해상도가 높고, 최근의 활발한 연구로 정확도도 높아지고 있다. 이를 통해 상용 드론에서 사용 가능한 수준의 성능을 제공한다. 본 연구에서는 무인항공기 자율주행을 위한 단안 카메라 기반 깊이 추정 연구를 수행한다.
카메라기반 깊이 추정 연구는 단안 카메라 방식과 스테레오 방식으로 나눠진다. 스테레오 방식은 칼리브레이션된 두 대의 카메라에서 시차를 추정하며 깊이를 구한다. 단안 카메라 기반의 방식은 시간적으로 인접한 프레임 사이에서 시차를 추정한다. 최근의 단안 카메라 기반 깊이 추정 알고리즘은 자가 감독으로 훈련되며 깊이 데이터 없이 촬영된 시퀀스 이미지만으로 학습된다.
자가 감독 기반 단안 카메라 깊이 추정 연구는 시간적으로 인접한 이전 프레임의 이미지에서 현재 이미지를 재구성하는 시점 합성 기법을 사용한다[1]. 재구성하는 과정에서 딥러닝 네트워크는 깊이 맵과 카메라의 포즈를 추정하게 된다. 하지만 외부 정보의 부재로 깊이 값과 카메라의 이동 값은 상대적인 수치를 출력한다. 실제 응용에서는 로봇의 IMU 값을 보조적으로 활용해 절대 깊이 추정이 가능하다[2].
이미지 재구성을 이용하는 깊이 추정 연구는 카메라 파라미터 정보가 필요하다. 스테레오기반 연구에서는 정밀하게 칼리브레이션된 정보가 필요하고, 모노기반 연구에서는 카메라 내부 파라미터가 필요하다. 사전에 카메라 파라미터가 측정되어 있지 않은이미지 세트에서는 학습이 어렵다. 본 연구에서는 이미지 시퀀스 만으로 깊이를 추정할 수 있도록 네트워크가 카메라 파라미터를 학습 및 추정하는 모델을 제안한다.
이미지 단안 카메라 깊이 추정뿐만 아니라 영상 분할, 분류, 검출 분야에서 백본 네트워크는 일반적으로 CNN(convolutional neural network) 기반의 네트워크를 사용한다. 합성곱 연산은 지역 픽셀의 연관성을 기반으로 지역 특징을 추출하고, 레이어를 중첩하며 수용영역을 늘리며 전역 특징을 표현한다. 반면에, Self-Attention은 NLP (natural language processing) 분야에서 주로 사용되었으며, 시퀀스 정보를 이용하여 CNN보다 문맥 정보를 잘 파악하는 것으로 알려졌다[3]. NLP 분야의 성공 이후 다양한 Self-Attention 기반의 연구가 영상 분야에도 적용되었으며, 영상 분야에서는 Self-Attention이 전역 이미지 특징을 잘 표현하는 것으로 알려졌다[4]. 하지만 전역 특징 처리를 위해서는 높은 연산량이 필요하며 성능을 나타내기 위해 학습에 필요한 데이터가 CNN 네트워크 학습보다 많이 필요한 것이 단점이다. 최근의 연구는 Self-Attention과 CNN 네트워크를 혼합하는 하이브리드 형태로 두 모델의 장점을 모두 가진 네트워크 연구가 주로 수행된다[5].
본 연구에서는 자율주행을 위한 Self-Attention 기반 비지도 단안 카메라 영상 깊이 추정을 수행한다. 기존의 깊이 추정 네트워크에 계층적으로 Self-Attention 연산을 혼합하여 전역적 특징 추출 성능을 높이는 방법을 제안한다. 또한, 깊이, 포즈 네트워크 이외에 카메라 파라미터를 추정하는 모델을 추가하여 카메라 칼리브레이션 없이 이미지 데이터만으로 학습이 가능하게 한다. 제안한 네트워크의 비교 성능 검증을 위해 유사 연구와 Mid-Drone 데이터 세트를 기반으로 정량적, 정성적 평가를 수행한다[6]. 제안하는 Self-Attention기반 계층적 네트워크의 구조는 실험을 통해 최적 계층을 탐색하며, 절제 연구를 통해 카메라 모델 추가에 따른 깊이 추정 성능 향상을 증명한다. 추정된 깊이와 카메라 포즈는 자율주행용 지도 생성을 위해 Octree 구조의 3D occupancy grid를 이용해 매핑한다[7].
Ⅱ. 관련 연구
본 장에서는 깊이 추정 방법 연구, Attention 기반의 네트워크, 그리고 Attention을 활용한 깊이 추정 네트워크에 관한 최근의 연구 방법론을 알아본다.
2-1 자가 감독 기반 단안 카메라 깊이 추정
자가 감독 기반 카메라 깊이 추정 연구는 한 시점에서 다른 시점의 이미지로 재구성하는 시점 합성기법을 사용한다. 초기의 연구는 스테레오 이미지 데이터를 이용하여 왼쪽 이미지를 오른쪽 이미지 시점으로 재구성하는 네트워크가 제안되었다[8]. 하지만 이는 칼리브레이션된 스테레오 이미지 데이터가 필요하다는 단점이 있다. 이후에 연속된 단안 이미지 사이의 Ego-Motion을 추정하는 포즈 네트워크를 추가로 사용하며 단안 시퀀스 이미지만으로 네트워크 학습이 가능하도록 변경된다[9]. 또한, 같은 속도로 이동하는 물체에 대한 제약을 위한 마스크를 제안하여 깊이가 무한대로 나타나는 현상을 감소시킨다[1]. 상대적인 거리 추정의 단점을 해결하기 위해 IMU 센서값을 이용한 절대적 거리 추정 방법을 제안하였으며, 네트워크 구조를 변경하여 성능을 향상시키는 연구도 수행되었다[2].
2-2 비용 볼륨 기반 깊이 추정
단안 카메라 기반 깊이 추정은 학습 시에는 이미지 재구성 손실 측정을 위해 다중 프레임 입력이 필요하다. 하지만 깊이 추정시에는 깊이 추정 네트워크의 구조에 따라 단일 이미지 입력을 받는 구조와 다중 이미지 입력을 받는 구조로 나누어진다[1, 10]. 다중 이미지 입력을 받는 주요 구조는 스테레오 비전에서 주로 사용하는 비용 볼륨 기반시스템이다[11].
기존의 스테레오 비전에서의 비용 볼륨 기반 깊이 추정의 주요 프로세스는 다음과 같다. 특징 추출, 비용 볼륨 구성, 비용 볼륨 정규화, 깊이 회귀 및 후처리 절차로 구성된다. 단안 카메라 방식에서도 유사한 방식을 사용하며, 좌우 이미지가 전후 이미지로 변경된다. 학습기반 시스템으로 변경되면서 깊이 회귀는 네트워크 학습으로 대체된다[10].
2-3 Self-Attention & 트랜스포머 네트워크
Self-Attention은 모델이 특징을 계산하기 위해 입력 시퀀스의 다른 부분에 주의를 기 울일 수 있도록 딥러닝 모델에서 사용되는 메커니즘이다. Self-Attention은 NLP의 Transformer 아키텍처와 같은 많은 최신 모델에서 사용되는 메커니즘이다[3]. Self-attention에서 시퀀스의 각 요소는 먼저 쿼리, 키 및 값 표현으로 변환된다. 그런 다음 쿼리와 키 사이의 내적이 계산되어 주의 점수를 얻는다. 이 점수는 입력의 최종 표현에 대한 값의 기여도에 가중치를 부여하는 데 사용된다. 이 메커니즘을 통해 모델은 입력의 관련 부분에 동적으로 초점을 맞추고 문맥 인식표현을 생성할 수 있다. Self-attention은 기계 번역, 감정 분석, 텍스트 분류 등 다양한 작업에 적용되고 있다.
Self-Attention 기반의 비전 트랜스포머가 비전 분야에서 성능 향상을 입증한 이후 다수의 트랜스포머 기반 네트워크가 제안되었다[4]. 논문[12]는 윈도우 쉬프트 방식을 제안하며 네트워크 깊이에 따라 해상도를 감소시키는 계층적 구조를 제안하였다. 제안된 구조는 트랜스포머를 이미지 검출, 분할, 분류 분야에 사용할 수 있게 설계 되었다.
2-4 Attention 기반 깊이 추정 네트워크
논문[13]은 이미지 분할 및 깊이 추정을 위해 비전 트랜스포머를 인코더로 사용하고 초거대 데이터로 네트워크를 학습한다. 하지만 비전 트랜스 포머 계열은 학습에 데이터가 부족할 경우 CNN계열 네트워크보다 성능이 낮다는 단점이 존재한다. 논문[14]는 Swin 트랜스포머 네트워크를 깊이 추정 인코더로 사용하고 CBAM (convolutinal block attention module)을 이용한 다중 스케일 혼합 어텐션 방식을 제안하였다[15]. 논문[16]은 CNN과 트랜스포머를 인코더에서 병렬로 사용하는 네트워크를 제안하였고, 논문[17]은 어텐션과 CNN을 혼합하고 스킵 가능한 디코더를 제안하였다.
Ⅲ. Self-Attention 기반 단안 카메라 깊이추정
본 장에서는 자율 주행을 위한 Self-Attention 기반의 깊이 추정 모델을 설명한다. 시점 합성 기반의 깊이, 포즈 및 카메라 파라미터 추정 방법론과 Self-Attention 기반 비용 볼륨 모델에 대해 설명한다.
3-1 시점 합성 기반 깊이 및 포즈 추정
최근의 비지도 깊이 추정 연구는 깊이 및 포즈를 동시에 학습하는 시점 합성 기법을 사용한다[1], [2], [10]. 본 연구에서는 카메라 파라미터도 학습 가능한 카메라 내부 파라미터 학습 네트워크를 추가로 사용한다. 카메라 파라미터 네트워크는 기존의 포즈 네트워크와 같이 소스 이미지와 타겟 이미지를 입력으로 받고 초점거리와 비대칭 계수를 학습한다[18].
시점 합성은 인접한 이미지들을 이용해 다른 시점의 이미지로 재구성하는 방법이다. 네트워크는 타겟 이미지 It와 소스 이미지 Is를 입력으로 받는다. 타겟 이미지 시점으로재구성된 소스 이미화하며 네트워크는 학습된다. 재구성 이미지를 생성하기 위한 뷰합성 과정을 식 (1)에 나타낸다.
\(\begin{aligned}\hat{I}_{s \rightarrow t}=I_{s}<\operatorname{proj}\left(D_{t}, T_{t \rightarrow s}, K\right)>\end{aligned}\) (1)
여기에서 Dt 는 예측된 깊이 맵, Tt→s는 예측된 카메라 포즈, K는 예측된 카메라 내부 파라미터, <>는 이진 샘플링, proj는 투영연산이다. 전체 시스템 구조도를 그림 1에 나타내며, 왼쪽 블록도가 비지도 학습기반 깊이 및 포즈 추정 시스템이다.
그림 1. Self-Attention 기반 비지도 단안카메라 깊이 추정 네트워크
Fig. 1. Self-Attention-based Unsupervised Monocular Camera Depth Estimation Network
이미지 유사도 손실 Lp는 SSIM (Structural Similarity Index Measure)과 L1 손실을 혼합하여 사용하며 식 (2)에 나타낸다.
\(\begin{aligned}L_{p}=\alpha \frac{1-\operatorname{SSIM}\left(I_{t}, \hat{I}_{s \rightarrow t}\right)}{2}+(1-\alpha)\left\|I_{t}-\hat{I}_{s \rightarrow t}\right\|_{1}\end{aligned}\) (2)
여기에서, α는 가중치이며, SSIM 유사도 함수이다. SSIM은 두 이미지 x, y가 입력 될 때 식 (3)과 같다.
\(\begin{aligned}\operatorname{SSIM}(x, y)=\frac{\left(2 \mu_{x} \mu_{y}+c_{1}\right)\left(2 \delta_{x y}+c_{2}\right)}{\left(\mu_{x}^{2}+\mu_{y}^{2}+c_{1}\right)\left(\delta_{x}^{2}+\delta_{y}^{2}+c_{2}\right)}\end{aligned}\) (3)
여기에서, μ는 평균값, δ는 분산 δxy는 공분산 그리고 c는 안정화 상수이다.
본 연구에서는 그림 1과 같이 시점 합성 기법을 Teacher Model과 Self-Attention 기반 비용 볼륨 모델에 모두 적용한다[10]. 비용 볼륨 네트워크가 과도하게 시차에 의존하는 것을 방지하기 위해 깊이 제약 손실을 사용한다. Teacher Model에서 예측된 깊이 \(\begin{aligned}\hat{D}_{t}\end{aligned}\)와 비용 볼륨 모델에서 예측된 깊이 \(\begin{aligned}\hat{D}_{c}\end{aligned}\)에 L1 손실을 사용한다. 깊이 제약 손실 Lc는 식(4)와 같다.
\(\begin{aligned}L_{c}=\sum\left|\widehat{D}_{t}-\widehat{D}_{c}\right|\end{aligned}\) (4)
3-2 Self-Attention 기반 비용 볼륨 깊이 추정
본 연구에서는 비용 볼륨 기반 깊이 추정 네트워크를 사용한다. 비용 볼륨 기반 시스템은 스테레오 기반 깊이 추정에 주로 사용하는 방식을 차용한 네트워크이다. 기존의 비용 볼륨기반 깊이 추정 방법은 다음과 같다[10]. 먼저 입력된 소스 이미지와 타겟 이미지는 ResNet 기반의 특징 추출기에서 특징 맵을 추출한다. 포즈 네트워크에서 추정된 포즈로 소스 특징 맵을 타겟 특징 맵 시점으로 와핑한다. 이때 가정된 깊이의 깊이 맵 Dh를 사용한다. 가정된 깊이는 사전 정의되며 연속된 정수 값을 사용한다. 다수의 가정된 깊이로 와핑된 소스 특징 맵은 타겟 특징맵과 매칭 비용을 계산해 비용 볼륨을 구성한다. 매칭 비용이 최소화 되는 가정 깊이가 비용 볼륨 예측 깊이로 추정된다. 비용 볼륨 예측 깊이는 네트워크로부터 학습되는 깊이와 상관관계를 통해 제약 마스크로 사용된다.
본 연구에서는 깊이 맵을 추정하는 인코더 네트워크에 Self-Attention을 적용한다. 비용 볼륨과 추출된 타겟 특징 맵은 인코더-디코더를 거치며 깊이를 추정하게 되는데, 기존의 네트워크는 CNN 기반의 인코더와 업샘플링을 포함한 디코더로 구성된다. 본연구에서는 기존의 연구를 따라 인코더의 깊은 계층에만 Self-Attention 레이어를 적용하는 하이브리드 방식을 사용한다[19]. 이는 깊은 계층이 전역적인 특징을 추출하는 레이어이며, Self-Attention 연산은 전역적인 문맥에 대한 연산과정을 수행하므로, 지역적인 특징을 추출하는 CNN계열에 비해 효과적일 것이라는 가정에 기인한다. 인코더에서 사용하는 Attention 레이어 배치는 실험을 통해 최적 네트워크 설계를 수행한다.
Self-Attention 레이어는 연산을 줄이기 위해, CNN구조와 융합한 하이브리드 모듈을 사용한다[20]. 레이어의 첫 번째 단계는 깊이별 합성곱과 입력 잔차의 합으로 구성되어 합성곱 연산의 특성을 포함하게 한다. 두 번째 단계에서는 Self-Attention의 기본 형태를 따라 쿼리, 키, 값으로 선형 변환한 후 다중 헤드 Self-Attention을 수행한다. 각 헤드의 출력은 합쳐지고 역잔차 피드네트워크에 입력된다.
Ⅳ. 실험 결과
4-1 데이터 세트
본 논문에서 무인항공기 자율 주행을 위한 제안 모델의 성능평가를 위해 Mid-Air 데이터 세트를 사용한다[6]. Mid-Air 데이터 세트는 저고도 드론 비행을 위한 합성 이미지데이터 세트로 RGB, 깊이, 의미론적 분할, 노말 정보를 제공하여 드론 영상 실험 데이터 세트로 사용된다. 본 연구에서는 30개의 주행 경로에 대한 트레이닝 데이터 15,000장, 5개의 주행 경로에 대한 테스트 데이터 800장을 사용한다. 비지도 학습 시스템이기 때문에 깊이 맵은 훈련 시 사용되지 않으며 평가 시에만 성능 측정을 위해 사용된다.
4-2 깊이 맵 성능 평가 지표
기존의 연구를 따라 깊이 맵 성능을 평가하는 지표는 에러 평가지표와 정확도 평가지표를 사용한다[1]. AbsRel, SqRel, RMSE는 에러 평가지표로 낮을수록, δ < 1.253 는 임계치기반 정확도 평가지표로 높을수록 좋은 성능을 나타낸다. 아래에 평가지표 수식(5)~(9)를나타낸다.
\(\begin{aligned}\mathrm{AbsRel}=\frac{1}{N} \sum_{i}^{N} \frac{\left|D_{i}^{G T}-D_{i}\right|}{D_{i}^{G T}}\end{aligned}\) (5)
\(\begin{aligned}\mathrm {SqRel}=\frac{1}{N} \sum_{i}^{N} \frac{\left|D_{i}^{G T}-D_{i}\right|^{2}}{D_{i}^{G T}}\end{aligned}\) (6)
\(\begin{aligned}\mathrm{RMSE}=\sqrt{\frac{1}{N} \sum_{i}^{N}\left|D_{i}^{G T}-D_{i}\right|^{2}}\end{aligned}\) (7)
\(\begin{aligned}\operatorname{RMSE}(\log )=\sqrt{\frac{1}{N} \sum_{i}^{N}\left|\log D_{i}^{G T}-\log D_{i}\right|^{2}}\end{aligned}\) (8)
\(\begin{aligned}\text {Accuray: % of} \; D_{i} \; s.t. \max \left(\frac{D_{i}^{G T}}{D_{i}}, \frac{D_{i}}{D_{i}^{G T}}\right)\end{aligned}\) (9)
여기에서, DGTi 는 i번째 픽셀의 정답 깊이 값이며, Di는 i번째 픽셀의 예측 깊이 값이고, N은 전체 픽셀 수이다. 정확도 평지표에 대한 임계값은 [1·25, 1·252, 1·253] 를 사용한다.
4-3 비교 평가
제안하는 알고리즘의 성능평가를 위해서 비교 평가를 수행한다. 기존 연구들과 제안 알고리즘의 깊이 추정 성능의 정량적 비교 평가를 표 1에 나타낸다. Test Frames는 깊이 추정 시 사용되는 입력 이미지의 수이다. 제안 방법은 기존 연구보다 7.69% 낮은 0.120의 AbsRel 수치와 높은 정확도 0.976를 보임을 확인한다.
표 1. 기존 연구와 정량적 비교 평가
Table 1. Quantitative comparative evaluation with existing studies
제안 방법의 모듈별 성능 향상 정도를 파악하기 위해 절제 연구를 수행한다. 제안 연구의 기본 모델은 Manydepth이다[10]. Self-Attention 기반 인코더, 카메라 내부 변수 학습 여부에 따른 절제 연구 결과를 표 2에 보인다. 표는 제안 모듈 사용에 따라 성능이 향상됨을 나타낸다. Freeze Model은 기존 연구와 같이 Teacher Model이 과도하게 학생 모델과 유사해지는 것을 방지하기 위해 학습 중간에 Teacher Model에 대한 학습을 중단시킨다. 추가적으로 본 연구에서는 카메라 위치와 내부 파라미터 학습에 대해서도 모델 학습을 중간에 멈추었을 때 성능이 향상됨을 확인한다.
표 2. 절제 연구
Table 2. Ablation Study
표 3에 Self-Attention 레이어의 계층에 따른 성능 변화 실험 결과를 보인다. 인코더의각 계층에 따라 ResNet과 Attention 레이어 적용을 다르게 수행하였다. L1, L2, L3 순으로 더 깊어지는 층을 의미하며, Freeze Model은 Teacher Model만 수행하였다. 실험 결과는 마지막 인코더 계층에 Attention 레이어를 적용했을 때 가장 좋은 성능을 보임을 나타낸다. 모든 인코더 계층에 Attention 레이어를 적용한 경우는 기존 모델보다 오히려 성능이 저하됨을 보인다. 이는 지역 특징 표현을 수행하는 얕은 계층에서는 CNN 계열 네트워크가 깊은 계층에서는 Attention 계열 네트워크가 효과적임을 나타낸다.
표 3. Self-Attention 레이어 변경에 따른 성능 변화 실험
Table 3. Performance change experiment according to Self-Attention layer
마지막으로 깊이 맵의 정성적 평가를 위해 테스트 시퀀스에 대한 깊이 추정 결과 비교이미지를 그림 2에 보인다. 제안 방법이 기존 연구보다 정확한 깊이 추정한 결과를 Trajectory 00 ~ 03의 결과에 붉은색 박스로 나타낸다. Attention을 이용한 전역 특징을 추가적으로 추출하므로 정확한 깊이를 추정한다. 하지만 Trajectory 04의 하늘 박스 영역은 제안 방법의 깊이가 나무와 유사하게 측정되는 오류가 발생하는 문제점이 남아 있다.
그림 2. 테스트 이미지에 대한 깊이 추정 정성적 비교 결과
Fig. 2. Depth estimation qualitative comparison result for test image
4-4 3D 지도 생성
자율주행 시스템에 필요한 3D 지도 생성을 위해 추정된 깊이 및 포즈는 포인트 클라우드로 변환된다. 재구성된 포인트 클라우드는 키 프레임일 때 Octree 구조의 3D occupancy grid에 매핑한다. 그림 3에 테스트 Trajectory 00의 경로로 생성한 3D 지도를 보인다. 붉은색 선은 예측 포즈를 연결한 선이다.
그림 3. 3D 지도 생성 및 경로 추정 결과
Fig. 3. 3D map generation and path estimation results
Ⅴ. 결론
본 논문에서는 비지도 단안 카메라 영상 깊이 추정에 Self-Attention을 적용하였고, 자율주행을 위한 3D map 생성 기법을 제안하였다. 제안하는 네트워크는 Mid-Air 데이터 세트로 평가되었으며, 기존 네트워크보다 7.69% 낮은 에러를 확인하였다. 또한, 추정된 깊이 맵과 카메라 포즈로 3차원 포인트 클라우드 데이터를 재구성하였고, Octree 기반의 3D occupancy grid에 적용하고 3D 지도 생성을 확인하였다. 제안된 방법은 비지도 학습으로 드론의 자율 주행을 위한 3D 지도 생성을 가능하게 한다. 이는 비용이 비싼 라이다와 같은 센서 없이 카메라 기반 깊이 추정 기술로 자율주행을 위한 공간 인식이 가능함을 의미한다.
하지만 이미지 기반의 깊이 추정은 밀도 있는 포인트 클라우드를 생성하게 되고, 3D 지도 생성 시 데이터 누적에 따라 상당한 연산량을 요구하게 된다. 실시간 처리를 위해서 더 효율적인 3D 매핑 방법의 추후 연구가 필요하다.
Acknowledgments
본 연구는 경기도 지역협력 연구센터 사업의 일환으로 수행하였음. [GRRC항공2017-B04, 지능형 인터랙티브 미디어 및 공간 융합 응용 서비스 개발]
참고문헌
- C. Godard, O. M. Aodha, amd M. Firman, and G. J. Brostow, "Digging into self-supervised monocular depth estimation," in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV) ,Seoul, pp. 3828-3838, Oct. 2019.
- V. Guizilini, R. Ambrus, S. Pillai, A. Raventos, and A. Gaidon, "3d packing for self-supervised monocular depth estimation," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pp. 2485-2494, Jun. 2020.
- A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, and I. Polosukhin, "Attention is all you need," Advances in neural information processing systems, Jun. 2017.
- A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, and N. Houlsby, "An image is worth 16×16 words: Transformers for image recognition at scale," 2020, arXiv:2010.11929. [Online]. Available: https://arxiv.org/abs/2010.11929
- C. Zhao, Y. Zhang, M. Poggi, F. Tosi, X. Guo, Z. Zhu, and S. Mattoccia, (2022). "Monovit: Self-supervised monocular depth estimation with a vision transformer," arXiv:2208.03543. [Online]. Available: https://arxiv.org/abs/2208.03543
- M. Fonder, and M. Van Droogenbroeck, "Mid-air: A multi-modal dataset for extremely low altitude drone flights," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Long Beach: CA, pp. 0-0, June. 2019.
- A. Hornung, K. M. Wurm, M. Bennewitz, C. Stachniss, and W. Burgard, "OctoMap: An efficient probabilistic 3D mapping framework based on octrees," Autonomous robots, 34(3), pp. 189-206, 2013. https://doi.org/10.1007/s10514-012-9321-0
- R. Garg, V. K. Bg, G. Carneiro, and I. Reid, "Unsupervised cnn for single view depth estimation: Geometry to the rescue," in: Computer Vision-ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, Oct, 2016, Proceedings, Part VIII 14. Springer International Publishing, pp. 740-756, 2016.
- T. Zhou, M. Brown, N. Snavely, and D. G. Lowe, "Unsupervised learning of depth and ego-motion from video," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Honolulu: HI, pp. 1851-1858, July. 2017.
- J. Watson, O. Mac Aodha, V. Prisacariu, G. Brostow, and M. Firman, "The temporal opportunist: Self-supervised multi-frame monocular depth," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pp. 1164-1174, June. 2021.
- X. Wang, C. Wang, B. Liu, X. Zhou, L. Zhang, J. Zheng, and X. Bai, "Multi-view stereo in the deep learning era: A comprehensive review," Displays, 70, 102102. 2021.
- Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, and B. Guo, "Swin transformer: Hierarchical vision transformer using shifted windows," in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), pp. 10012-10022, Oct. 2021.
- R. Ranftl, A. Bochkovskiy, and V. Koltun, "Vision transformers for dense prediction," in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), pp. 12179-12188, Oct. 2021.
- Z. Cheng, Y. Zhang, and C. Tang, "Swin-Depth: Using Transformers and Multi-Scale Fusion for Monocular-Based Depth Estimation,". IEEE Sensors Journal, 21 (23), pp.26912-26920, 2021. https://doi.org/10.1109/JSEN.2021.3120753
- S. Woo, J. Park, J. Y. Lee, and I. S. Kweon, "Cbam: Convolutional block attention module," in Proceedings of the European conference on computer vision (ECCV), Munich, Germany, pp. 3-19, Sep. 2018.
- Z. Li, Z. Chen, X. Liu, and J. Jiang, "Depthformer: Exploiting long-range correlation and local information for accurate monocular depth estimation," arXiv preprint arXiv: 2203.14211, 2022 [Online]. Available: https://arxiv.org/abs/2010.11929
- A. Agarwal, and C. Arora, "Attention Attention Everywhere: Monocular Depth Prediction with Skip Attention," in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pp. 5861-5870. Jan. 2023.
- A. Gordon, H. Li, R. Jonschkowski, and A. Angelova, "Depth from videos in the wild: Unsupervised monocular depth learning from unknown cameras," in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Seoul, pp. 8977-8986, Oct. 2019.
- S. J. Hwang, S. J. Park, J. H. Baek, and B. Kim, "Self-supervised monocular depth estimation using hybrid transformer encoder," IEEE Sensors Journal, 22(19), pp. 18762-18770. 2022. https://doi.org/10.1109/JSEN.2022.3199265
- J. Guo, K. Han, H. Wu, C. Xu, Y. Tang, C. Xu, and Y. Wang, "Cmt: Convolutional neural networks meet vision transformers," 2021, arXiv:2107.06263. [Online]. Available: https://arxiv.org/abs/2107.06263