DOI QR코드

DOI QR Code

Semantic Segmentation of Clouds Using Multi-Branch Neural Architecture Search

멀티 브랜치 네트워크 구조 탐색을 사용한 구름 영역 분할

  • Chi Yoon Jeong (Superintelligence Creative Research Laboratory, Electronics and Telecommunications Research Institute) ;
  • Kyeong Deok Moon (Superintelligence Creative Research Laboratory, Electronics and Telecommunications Research Institute) ;
  • Mooseop Kim (Superintelligence Creative Research Laboratory, Electronics and Telecommunications Research Institute)
  • 정치윤 (한국전자통신연구원 초지능창의연구소) ;
  • 문경덕 (한국전자통신연구원 초지능창의연구소) ;
  • 김무섭 (한국전자통신연구원 초지능창의연구소)
  • Received : 2023.03.16
  • Accepted : 2023.04.07
  • Published : 2023.04.30

Abstract

To precisely and reliably analyze the contents of the satellite imagery, recognizing the clouds which are the obstacle to gathering the useful information is essential. In recent times, deep learning yielded satisfactory results in various tasks, so many studies using deep neural networks have been conducted to improve the performance of cloud detection. However, existing methods for cloud detection have the limitation on increasing the performance due to the adopting the network models for semantic image segmentation without modification. To tackle this problem, we introduced the multi-branch neural architecture search to find optimal network structure for cloud detection. Additionally, the proposed method adopts the soft intersection over union (IoU) as loss function to mitigate the disagreement between the loss function and the evaluation metric and uses the various data augmentation methods. The experiments are conducted using the cloud detection dataset acquired by Arirang-3/3A satellite imagery. The experimental results showed that the proposed network which are searched network architecture using cloud dataset is 4% higher than the existing network model which are searched network structure using urban street scenes with regard to the IoU. Also, the experimental results showed that the soft IoU exhibits the best performance on cloud detection among the various loss functions. When comparing the proposed method with the state-of-the-art (SOTA) models in the field of semantic segmentation, the proposed method showed better performance than the SOTA models with regard to the mean IoU and overall accuracy.

인공위성이 촬영한 영상의 내용을 정확하게 분석하기 위해서는 영상에 존재하는 구름 영역을 정확하게 인지하는 것이 필요하다. 최근 다양한 분야에서 딥러닝(deep learning) 모델이 뛰어난 성능을 보여줌에 따라 구름 영역 검출을 위해 딥러닝 모델을 적용한 방법들이 많이 제안되고 있다. 하지만 현재 구름 영역 검출 방법들은 의미 영역 분할 방법의 네트워크 구조를 그대로 사용하여 구름 검출 성능을 향상하는 데는 한계가 있다. 따라서 본 논문에서는 구름 검출 데이터 세트에 다중 브랜치 네트워크 구조 탐색을 적용하여 구름 영역 검출에 최적화된 네트워크 모델을 생성함으로써 구름 검출 성능을 향상하는 방법을 제안한다. 또한 구름 검출 성능을 향상하기 위하여 의미 영역 분할 모델의 학습 단계와 평가 단계의 평가 기준 불일치를 해소하기 위해 제안된 soft intersection over union (IoU) 손실 함수를 사용하고, 다양한 데이터 증강 방법을 적용하여 학습 데이터를 증가시켰다. 본 논문에서 제안된 방법의 성능을 검증하기 위하여 아리랑위성 3/3A호에서 촬영한 영상으로 구성된 구름 검출 데이터 세트를 사용하였다. 먼저 제안 방법과 의미 영역 분할 데이터 세트에서 탐색된 기존 네트워크 모델의 성능을 비교하였다. 실험 결과, 제안 방법의 mean IoU는 68.5%이며, 기존 모델보다 mIoU 측면에서 4%의 높은 성능을 보여주었다. 또한 soft IoU 손실 함수를 포함한 다섯 개의 손실 함수를 적용하여 손실 함수에 따른 구름 검출 성능을 분석하였으며, 실험 결과 본 연구에서 사용한 soft IoU 함수가 가장 좋은 성능을 보여주었다. 마지막으로 의미 영역 분할 분야에서 활용되는 최신 네트워크 모델과 제안 방법의 구름 검출 성능을 비교하였다. 실험 결과, 제안 모델이 의미 영역 분할 분야의 최신 모델들보다 mIoU와 정확도 측면에서 더 나은 성능을 보여주는 것을 확인하였다.

Keywords

1. 서론

현재 수천 개의 인공위성이 지구 궤도를 돌면서 매일 수백 테라바이트(terabytes)의 관찰 영상 데이터를 생성하고 있다(Buttar and Sachan, 2022). 인공위성의 관찰 영상 데이터는 기후 변화와 자연재해의 분석, 식생 모니터링, 객체 검출, 변화 탐지 등의 다양한 응용 분야에 활용될 수 있지만 사람이 수작업으로 분석하기에는 한계가 있다(Buttar and Sachan, 2022). 따라서, 방대한 양의 위성영상 데이터를 자동으로 분석할 수 있는 영상 분석 방법이 필요하다. 하지만, 위성영상은 평균적으로 지표면의 67%가 구름으로 가려져 있으며(Mohajerani and Saeedi, 2020), 이는 영상분석 방법의 성능을 저하하는 주요 원인이 된다. 따라서, 위성영상 데이터를 효과적으로 분석하기 위해서는 영상에 존재하는 구름 영역을 정확히 검출하는 과정이 필요하다. 이를 위해 위성영상에서 구름 영역을 탐지하기 위한 다양한 연구들이 진행되었다(Zhu et al., 2015; Qiu et al., 2017; Wei et al., 2020; Liu et al., 2022; Byeon et al., 2022; Kim et al., 2022; Kang et al., 2022).

위성영상에서 구름 영역을 탐지하는 방법은 전통적인 특징 기반 방법과 딥러닝(deep learning) 기반 방법으로 구분할 수 있다. 전통적인 특징 기반 방법은 구름 영역이 가지는 색상, 형태, 텍스쳐(texture), 반사도 등의 특징을 정의한 후 이를 기반으로 구름 영역을 분류하였다. 구름 영역을 분류하는 방법으로는 임계값 기반 방법(Zhu et al., 2015; Qiu et al., 2017)과 support vector machines, random forest 등의 기계학습 알고리즘을 사용하는 방법(Wei et al., 2020; Liu et al., 2022; Byeon et al., 2022)이 있다. 하지만 이런 방법들은 배경이나 영상 속 객체가 구름과 비슷한 특징을 가지는 복잡한 장면에서 성능이 떨어지는 문제가 있다.

다양한 분야에서 딥러닝 모델들이 기존의 전통적인 특징 기반 방법의 성능을 뛰어넘는 좋은 결과를 보여줌에 따라(Li et al., 2022; Seo and Jung, 2023;Jeong et al., 2023)구름 영역 검출을 위해 딥러닝 모델을 적용한 방법들이 많이 제안되고 있다. 딥러닝 기반 구름 영역 탐지 방법들은 심층 신경망을 사용하여 영상의 픽셀 단위로 범주를 분류하는 의미 영역 분할 방법을 기반으로 한다. 대표적으로 사용되는 딥러닝 모델은 U-Net (Ronneberger et al., 2015)이며, U-Net은 입력 영상에 합성곱(convolution)을 적용하여 특징을 인코딩(encoding)하고 풀링(pooling)을 통하여 특징 차원(feature dimension)을 점차 축소한 후, 다시 업샘플링(upsampling) 과정을 통하여 특징 차원을 확장하면서 의미 영역을 분류하게 된다. U-Net을 기반으로 다양한 구름 영역 탐지 방법들(Zhang et al., 2020; Buttar and Sachan, 2022)이 제안되었지만, U-Net은 단일 해상도를 사용하여 영상의 컨텍스트(context) 정보를 충분히 반영하지 못하는 단점이 있다.

최근 의미 영역 분할 분야에서 영상의 컨텍스트 정보를 충분히 활용하기 위해 다중 해상도를 활용하는 멀티 브랜치(multi-branch) 기반의 의미 영역 분할 모델들이 제안되고 있다(Hong et al., 2021; Yu et al., 2021; Lee et al., 2022). 멀티 브랜치 기반의 의미 영역 분할 모델들은 낮은 해상도를 처리하는 브랜치를 통하여 영상의 컨텍스트 정보를 추출하고, 상대적으로 높은 해상도를 처리하는 브랜치에서 영상의 세부 정보를 추출하여 통합함으로써 처리 속도의 저하 없이 의미 영역 분할 성능을 향상할 수 있는 장점이 있다. 하지만 다양한 범주의 의미 영역을 분류하는 기존 딥러닝 모델을 구름 영역 검출 태스크(task)에 적용하여 최적의 성능을 내기 위해서는 기존 모델의 네트워크 구조 및 하이퍼 파라미터(hyper-parameters)의 수정이 필요하며, 이 과정에서 많은 시간과 노력이 필요한 문제가 있다.

이와 같은 문제를 해결하기 위하여 neural architecture search (NAS)에 관한 연구들이 진행되고 있다(Liu et al., 2018; Chu et al., 2020). NAS는 주어진 문제를 해결하기 위한 최적의 네트워크 구조를 자동으로 탐색하는 방법으로, 의미 영역 분할 방법에도 멀티 브랜치 탐색이 가능한 NAS 방법이 적용되어 뛰어난 성능을 보여주었다(Chen et al., 2020). NAS를 적용하면 네트워크 모델의 성능 향상을 위해 네트워크 구조를 모델링하고 검증하는 시간을 줄일 수 있는 장점이 있다. 특히, 구름과 같이 형태와 크기가 다양하고 경계 영역이 복잡한 경우 기존 의미 영역 분할 모델을 적용하면 성능 향상이 제한적이며, 성능 향상을 위한 네트워크 모델링에 많은 시간이 소요되는 문제가 있다.

따라서 본 연구에서는 멀티 브랜치 탐색이 가능한 NAS를 활용하여 구름 영역을 검출하는 방법을 제안하였다. 먼저 NAS를 사용하여 구름 영역 검출에 최적화된 네트워크 모델을 생성하였다. 이후 의미 영역 분할의 특성을 반영한 손실 함수 및 데이터 증강 방법을 활용하여 구름 검출 모델의 성능을 향상하였다. 마지막으로 제안 방법과 다양한 딥러닝 기반 모델들의 성능을 비교 분석하였다. 실험 결과, 위성영상 데이터 세트에 멀티 브랜치 기반 NAS를 적용한 제안 방법이 기존 의미 영역 분할 분야에서 활용되는 최신 네트워크 모델보다 더 개선된 성능을 보여주는 것을 확인하였다.

2. 연구 방법

2.1. 멀티 브랜치 NAS 기반 의미 영역 분할 모델

의미 영역 분할 분야에서 멀티 브랜치 탐색이 가능한 NAS를 적용한 대표적 방법으로 FasterSeg (Chen et al., 2020)이 있다. FasterSeg은 의미 영역 분할에 최적화된 네트워크 모델을 찾기 위하여 먼저 Fig. 1과 같은 슈퍼 네트워크를 구성하였다. 슈퍼 네트워크는 입력 영상의 차원을 줄이면서 합성곱을 수행하는 3개의 고정된 스템(stem)과 다른 해상도에서 분석된 특징 맵(map)을 통합하여 의미 영역을 분류하기 위한 헤드(head) 및 L개 계층을 가지는 방향 비순환 그래프(directed acyclic graph)로 구성된다.

OGCSBN_2023_v39n2_143_f0001.png 이미지

Fig. 1. Structure of super network for multi-resolution branching search.

방향 비순환 그래프는 L개 계층, 3개 해상도에 존재하는 셀(cell)과 에지(edge)로 구성된다. Fig. 2(a)와 같이 셀과 셀을 연결하는 에지는 합성곱, 확대 합성곱(zoomed convolution), 잔차 연결(skip connection) 등의 다양한 연산으로 구성된다. 네트워크 모델을 탐색하는 동안 에지는 각각의 연산에 대한 확률값을 가지게 되며, 탐색이 끝나면 소프트맥스(softmax)를 사용하여 최댓값을 가지는 연산을 선택하게 된다. 또한 FasterSeg에서는 각 연산이 가지는 채널 수를 탐색할 수 있도록 하였으며, 이 때 탐색할 수 있는 채널의 범위는 기본값에 확장 비율을 곱하여 계산된다. 셀은 Fig. 2(b)와 같이 서로 완전히 연결되어 있지 않고 현재 셀과 같은 해상도(다운 샘플링 비율: s)와 더 높은 해상도(다운 샘플링 비율: s/2)의 셀과 연결되어 이전 계층 셀들의 출력값을 입력으로 받으며, 현재 해상도와 더 낮은 해상도(다운 샘플링 비율: 2s)의 출력값을 생성하여 다음 계층으로 전달하게 된다. 따라서, 다운 샘플링 비율 s, 현재 계층 l에 존재하는 셀의 입력은 다음 식(1)과 같이 정의된다(Chen et al., 2020).

OGCSBN_2023_v39n2_143_f0002.png 이미지

Fig. 2. Illustration of a connection between cells. (a) Search space for the connection. (b) Structure of the connection between cells.

\(\begin{aligned}\overline{I_{s, l}}=\beta_{s, l}^{0} \bar{O}_{s / 2 \rightarrow s, l-1}+\beta_{s, l}^{1} \bar{O}_{s \rightarrow s, l-1}\end{aligned}\)       (1)

위의 식에서 β는 이전 계층의 출력값에 대한 가중치를 의미한다. 셀의 출력값은 다음의 식(2), (3)과 같이 정의된다(Chen et al., 2020).

\(\begin{aligned}\bar{O}_{s \to s, l}=\sum_{k=1}^{|O|} \alpha_{s, l}^{k} O_{s \to s, l}^{k}(\bar{I}_{s, l}, \gamma_{s, l}^{j},stride=1)\end{aligned}\)       (2)

\(\begin{aligned}\bar{O}_{s \to 2 s, l}=\sum_{k=1}^{|O|} \alpha_{s, l}^{k} O_{s \to 2 s, l}^{k}(\bar{I}_{s, l}, \gamma_{s, l}^{j}, stride=2)\end{aligned}\)       (3)

α는 각 연산에 대한 가중치를 의미하며, γ는 현재 연산에 대해서 샘플링 되는 채널의 확장 비율을 의미한다. 네트워크를 탐색하는 동안에 각 셀에서는 모든 연산에 대한 α,γ 값과 이전 계층의 출력값에 대한 β를 업데이트하며, 최종적으로 가장 큰 값을 선택하여 연산의 종류와 채널의 수, 연결할 이전 계층의 셀을 선택하게 된다.

FasterSeg은 Fig. 1과 같이 다운 샘플링 비율이 각각 8, 16, 32인 3개의 브랜치가 존재하며, 네트워크 구조 탐색을 통해 1개 이상의 브랜치로 구성된 멀티 브랜치 네트워크 구조를 생성할 수 있다. 만약 2개의 브랜치로 구성된 네트워크를 생성할 때, 선택할 수 있는 브랜치는 {8, 16}, {8, 32}, {16, 32} 등 3개의 다운 샘플링 비율 조합이 가능하다. 따라서, 다양한 브랜치의 조합 중 최적의 조합을 선택하기 위해서는 정확도와 처리 속도를 모두 고려한 아래 식(4)를 사용하였다.

\(\begin{aligned}\operatorname{Target}(m)=\operatorname{Accuracy}(m) \times\left[\frac{\operatorname{Latency}(m)}{T}\right]^{w}\end{aligned}\)       (4)

m은 탐색된 네트워크 구조에서 2개의 브랜치로 구성된 네트워크 모델을 의미하며, ω는 처리 속도에 대한 가중치를 의미한다. ω가 음의 값을 가지기 때문에 네트워크 모델의 처리 시간(latency)이 목표 처리 시간(T)보다 적었을 때 높은 값을 가지게 된다. 이를 통해 네트워크모델의 정확도와 처리 속도를 고려한 최적의 모델을 선택할 수 있다.

2.2. 의미 영역 분할을 위한 손실 함수

딥러닝 기반 의미 영역 분할 모델에서 손실 함수는 검출 성능에 영향을 미치는 주요한 요소 중 하나이며, 일반적으로 교차 엔트로피(cross entropy, CE)를 많이 사용하고 있다. 하지만 의미 영역 분할 모델을 학습한 후, 모델의 성능을 평가할 때는 intersection over union (IoU)를 평가 기준으로 사용하여 학습에서의 성능과 일치하지 않는 문제점이 있다. 이를 해결하기 위해서 의미 영역 분할 모델을 학습하는 과정에서 모델의 성능 평가 기준인 IoU를 반영할 수 있는 soft IoU 손실 함수(Huang et al., 2020)가 제안되었다. Soft IoU 손실 함수는 다음 식(5)와 같이 정의된다(Huang et al., 2020).

\(\begin{aligned}Soft\;IoU=\frac{1}{|C|} \sum_{c} \frac{\sum_{i \in V} p_{i c} \cdot p_{i c}^{*}}{\sum_{i \in V} p_{i c}+p_{i c}^{*}-p_{i c} \cdot p_{i c}^{*}}\end{aligned}\)       (5)

위의 식에서 V는 모든 픽셀의 집합을 의미하며, C는 범주의 집합을 의미한다. pic는 픽셀 i가 범주 c로 예측될 확률을 의미하며, p*ic는 픽셀 i가 범주 c에 포함될 확률을 의미한다.

2.3. 데이터 증강 방법

데이터 증강 방법은 적은 양의 데이터로부터 변형이나 생성을 통하여 학습 데이터의 양을 늘리는 방법으로, 학습 모델의 과적합(overfitting)을 방지하고 성능을 향상할 수 있다(Yun et al., 2019; Jeong et al., 2021). 특히 구름 검출 데이터 세트의 경우 데이터 양이 적기 때문에 데이터 증강 방법의 적용이 필수적이다. 따라서, 본 연구에서는 넓은 면적에서 특정 객체의 영역이 작고 모양의 변화가 심한 구름 영상의 특성을 반영하여 학습 과정에서 랜덤 플립(random flip), 랜덤 스케일(random scale), 랜덤 로테이션(random rotation), 랜덤 크롭(random crop) 등의 데이터 증강 방법을 적용하였다.

랜덤 플립은 영상의 좌우 또는 상하를 반전시키는 방법으로 본 연구에서는 좌우를 반전시키는 방법을 사용하여 새로운 데이터를 생성하였다. 랜덤 스케일은 영상의 크기를 변경하는 방법으로 사전에 설정된 다수의 스케일 값 중 하나를 선택하여 해당 스케일만큼 확대 또는 축소된 영상을 생성하였다. 랜덤 로테이션은 랜덤하게 샘플링된 각도만큼 영상을 회전하는 방법으로 본 연구에서는 사전에 설정된 회전 각도 중 하나를 선택하여 영상을 회전하는 방법을 사용하였다. 랜덤 크롭은 영상에서 랜덤하게 선택된 위치에서 설정된 영역 크기만큼의 영상을 추출하는 방법이다. 이와 같은 데이터 증강 방법을 사용하면 학습 시 새로운 샘플 영상이 생성되어 학습 모델의 일반화 성능을 향상할 수 있다.

2.4. CloudNAS

본 연구에서는 멀티 브랜치 탐색이 가능한 NAS 알고리즘을 구름 영역의 특성을 반영할 수 있게 구름 영역 검출 태스크에 적용하였으며, 구름 검출 데이터 세트를 사용하여 탐색된 네트워크 모델을 CloudNAS로 정의하였다. CloudNAS는 기존의 FasterSeg 모델과 다르게 구름 영역 검출 데이터 세트를 활용하여 최적의 네트워크 모델을 탐색하였으며, 성능 개선을 위하여 soft IoU 함수및본 연구에서 제안한 데이터 증강 방법들을 사용하였다.

3. 실험 설계

3.1. 연구자료

본 연구에서 제안하는 구름 영역 검출 방법의 성능 분석을 위하여 위성영상 객체 판독 데이터 세트 중 구름 검출 데이터 세트(National Information Society Agency AI Hub, 2020)를 사용하였다. 본 연구에서 사용한 구름 검출 데이터 세트는 우리나라 고해상도 위성인 아리랑 위성 3/3A호에서 촬영한 영상으로 구성되어 있다. 아리랑위성 3/3A의 위성영상 해상도는 각각 2.8 m와 2.2 m이며, 상세한 정보는 Table 1과 같다. 촬영 영상은 적색, 녹색, 청색 등 3개의 색상 채널과 한 개의 근적외선 채널로 구성된다. 본 연구에서는 기존 의미 영역 분할 방법들과의 객관적인 성능 비교를 위해 기존 모델들이 주로 사용한 3개의 색상 채널만을 입력으로 사용하였다. 구름 검출 데이터 세트에서 구름 영역은 청천(clear), 짙은 구름(thick cloud), 옅은 구름(thin cloud), 구름 그림자(cloud shadow) 등 4개 범주로 구분하였다. 또한 구름 검출 데이터 세트는 데이터의 다양성을 위하여 농경지, 도심지, 초지, 습지 등 다양한 지면에 존재하는 구름 데이터로 구성되어 있다.

Table 1. Summary of Arirang 3/3A sensors (Yeom et al., 2018)

OGCSBN_2023_v39n2_143_t0001.png 이미지

구름 검출 데이터 세트의 원본 영상은 약 6,000 × 6,000의 해상도를 가지며, 학습 데이터 131장, 검증 데이터 32장으로 구성되어 있다. 구름 검출을 위한 딥러닝 모델은 입력 영상의 해상도가 높을수록 처리 시간과 메모리 사용량이 급격히 증가하기 때문에 본 연구에서는 원본 영상들을 겹치지 않게 1,920 × 1,920 크기로 분할하여 총 942장을 생성하였다. 생성된 영상 데이터들은 기존 연구들(Demir et al., 2018; Li et al., 2021)의 학습 데이터 분할 비율을 참고하여 학습 데이터 세트 531장, 검증 데이터 세트 240장, 테스트 데이터 세트 171장으로 분할하였다. Fig. 3은 본 연구에서 사용한 구름 영상 데이터 및 라벨링(labelling) 데이터의 예제를 나타낸다. 라벨링 데이터에서 적색, 녹색, 황색, 흑색은 각각 짙은 구름, 옅은 구름, 구름 그림자, 청천을 의미한다.

OGCSBN_2023_v39n2_143_f0003.png 이미지

Fig. 3. Example images of the cloud detection dataset.

3.2. 성능 평가 방법

구름 영역의 검출 성능을 평가하기 위한 척도로 범주별 IoU를 사용하였다. 짙은 구름 범주에 대한 IoU는 실제 짙은 구름 픽셀 또는 딥러닝 모델이 짙은 구름으로 분류한 픽셀 중에서 실제 짙은 구름이면서 딥러닝 모델에 의해 짙은 구름으로 분류된 픽셀의 비율을 의미한다. 특정 범주 c에 대한 IoU는 다음 식(6)을 사용하여 계산된다.

\(\begin{aligned}I o U_{c}=\frac{T P_{c}}{F P_{c}+T P_{c}+F N_{c}}\end{aligned}\)       (6)

IoU 이외에도 전체 픽셀 중 해당 범주로 바르게 분류된 픽셀의 비율을 의미하는 전체 정확도(overall accuracy)와 각 범주의 IoU 평균값을 의미하는 mean IoU를 성능 평가 기준으로 사용하였다.

3.3. 네트워크 모델 학습

NAS는 해당 태스크에 맞는 최적의 네트워크 모델을 탐색하는 과정과 탐색 된 네트워크 모델을 사용하여 학습하는 과정으로 구성된다. 네트워크 모델을 탐색하는 과정은 슈퍼 네트워크의 가중치를 학습하는 사전학습 단계와 네트워크 구조를 탐색하는 과정으로 구성된다. 사전학습 과정에서 반복 훈련 횟수(epoch)는 20, 네트워크 구조 탐색 과정에서 epoch은 30을 사용하고, 반복(iteration)은 모두 400으로 설정하였다. 슈퍼 네트워크의 가중치를 학습하는 과정에서 optimizer는 stochastic gradient descent (SGD) (학습률: 2 × 10–2, 학습 감소율: 5 × 10–4, 모멘텀: 0.9)를 사용하였으며, 네트워크 구조를 탐색하는 과정에서는 학습률만 10–2로 변경하였다. 학습 비율(learning rate)의 스케쥴링을 위해 epoch마다 지수적으로감소하는지수학습비율감소(exponential learning rate decay) 방법을 사용하였으며, 감소율(γ)은 0.978로 설정하였다.

네트워크 모델을 탐색하는 과정에서 셀과 셀 사이를 연결하는 에지의 연산으로는 잔차 연결, 합성곱(필터 크기: 3), 확대 합성곱(필터 크기: 3), 합성곱 2회 반복(필터 크기: 3), 확대 합성곱 2회 반복(필터 크기: 3) 등 5개를 사용하였다. 확대 합성곱은 입력 특징 맵의 크기를 축소하여 합성곱을 적용한 후 계산된 특징맵의 크기를 원래 크기로 보간(interpolation)하여 수용영역(receptive field)이 기존 합성곱보다 크고 처리 속도가 빠른 장점이 있다. 슈퍼 네트워크를 구성하는 네트워크 계층의 수는 16, 채널 확장의 기본값은 12를 사용하였다.

탐색된 네트워크 모델을 사용하여 학습하는 과정에서 epoch과 iteration은 각각 600과 300으로 설정하였다. Optimizer는 SGD (학습률: 10–2, 학습 감소율: 5 × 10–4, 모멘텀: 0.9)를 사용하였으며, 배치(batch) 사이즈는 12로 설정하였다. 제안 방법은 네트워크 학습을 위한 손실 함수로 soft IoU를 사용하였다. 또한 판단이 어려운 샘플을 더 많이 샘플링하는 online hard example mining(OHEM)을 적용한 CE 손실(Shrivastava et al., 2016), 초점 손실(focal loss) (Lin et al., 2017), 재현 손실(recall loss)(Tian et al., 2021), CE 손실 등 다양한 손실 함수를 적용하여 제안 방법과 성능을 비교하였다.

학습 데이터는 데이터 증강 방법을 적용하고 색상의 평균값(적색: 0.485, 녹색: 0.456, 청색: 0.406)과 표준편차(적색: 0.229, 녹색: 0.224, 청색: 0.225)를 사용하여 정규화한 후, 960 × 960 해상도로 크기를 변경하여 네트워크 모델의 입력으로 사용하였다. 데이터 증강 방법 중 랜덤 플립은 랜덤 샘플링된 확률값이 설정된 임계값(0.5)보다 큰 경우 좌우로 반전시키는 방법을 적용하였다. 기존 연구(Huang et al., 2020)에서는 3개 스케일(0.75, 1.0, 1.25) 중 하나를 선택하는 랜덤 스케일을 사용하였다. 하지만 구름의 경우 형태 변화가 매우 크기 때문에 본 연구에서는 기존 스케일 값에 0.5와 1.5를 추가하여 5개의 값을 사용하였다. 랜덤 로테이션이 랜덤 샘플링된 확률값으로 설정된 임계값(0.5)보다 큰 경우 사전 정의된 회전각도(90도, 180도, 270도) 중 하나를 선택하여 영상을 회전하였다. 랜덤 크롭은 랜덤하게 선택된 위치에서 사전 정의된 크기(960 × 960)만큼의 영역을 추출하여 데이터를 생성하였다.

3.4. 구름 검출 성능 비교 방법

NAS 통해 탐색 된 구름 검출 모델의 성능을 확인하기 위해서는 의미 영역 분할 분야에서 활용되는 다양한 모델들과의 성능 비교가 필요하다. 이를 위하여 다양한 의미 영역 분할 모델들의 성능을 비교할 수 있는 MMSegmentation (MMSegmentation, 2020)을 사용하였다. MMSegmentation은 fully convolutional network (FCN)(Long et al., 2015)부터 최근 연구되고 있는 트랜스포머(transformer) 기반의 네트워크 모델까지 동일한 프레임워크(framework)에서 성능 비교가 가능한 장점이 있다. 본 연구에서는 구름 의미 영역 분할 분야에서 많이 활용되는 DeepLabV3+ (Chen et al., 2018), OCRNet (Yuan et al., 2020), BiSeNetV2 (Yu et al., 2021), short-term dense concatenation (STDC) (Fan et al., 2021), SegFormer (Xie et al., 2021) 등 5개 모델을 사용하여 제안 모델과의 성능을 비교하였다. 각 방법은 모두 optimizer로 SGD (학습률: 10–2, 학습 감소율: 5 × 10–4, 모멘텀: 0.9)를 사용하였으며, 학습 비율의 경우 다항식을 사용하여 감소시키는 방법(파워: 0.9, 학습 비율 최솟값: 1 × 10–4)을 사용하였다. 배치 사이즈는 모든 방법에 대해 8로 설정하였으며, iteration의 경우 SegFormer는 16 × 104으로 설정하고, 나머지 방법은 8 × 104으로 설정하여 사용하였다. 데이터 증강 방법은 제안 방법과 비교 방법 모두 동일하게 적용하였다.

제안 방법은 PyTorch 프레임워크를 사용하여 구현하였으며, 성능 비교를 위한 실험은 듀얼 Intel Xeon 6258 CPU와 A40 GPU 8개가 장착된 리눅스 서버(운영체제: Ubuntu 20.04)에서 수행하였다. MMSegmentation 프레임워크는 기본 설정값들이 GPU 4개에 맞춰져 있어서, 비교 방법들을 학습할 때는 GPU 4개를 사용하였다.

4. 연구결과 및 토의

4.1. 구름 검출을 위한 네트워크 탐색 결과

본 연구에서 구름 검출 데이터 세트에 NAS를 적용하여 탐색한 네트워크 모델(CloudNAS)과 의미 영역 분할을 위한 데이터 세트에 적용하여 탐색된 네트워크 모델(FasterSeg)의 구조는 Fig. 4와 같다. Fig. 4를 보면 FasterSeg의 경우 다운 샘플링 비율이 16과 32인 브랜치를 사용하여 네트워크를 구성한데 반하여, CloudNAS는 다운 샘플링 비율이 8과 32인 브랜치를 사용하여 네트워크를 구성하였다. 또한, FasterSeg은 네트워크의 초기 단계에서 브랜치의 분기가 이루어지는데 반하여, CloudNAS는 네트워크의 후기 단계에서 브랜치의 분기가 이루어지는 것을 확인할 수 있다. CloudNAS가 기존 모델보다 높은 해상도를 사용하여 특징을 추출하는 것은 구름의 경우 의미 영역 분할 데이터 세트의 일반적인 객체들과 달리 형태와 경계가 매우 복잡하기 때문으로 판단된다.

OGCSBN_2023_v39n2_143_f0004.png 이미지

Fig. 4. Neural architecture search results. (a) Network structure of FasterSeg. (b) Network structure of CloudNAS.

CloudNAS와 FasterSeg의 각 셀에서 사용하는 연산은 각각 Table 2, 3과 같다. CloudNAS의 경우 정확도 향상을 위하여 일반적인 합성곱을 많이 사용한 반면, FasterSeg의 경우 임베디드(embedded) 환경에서의 처리 속도를 고려하여 확대 합성곱이 많이 사용되는 것을 확인할 수 있다. 또한 각 합성곱에 사용된 필터의 수를 살펴보면 CloudNAS가 기존의 FasterSeg보다 더 많이 사용하는 것을 확인할 수 있다.

Table 2. Detailed network structure of FasterSeg

OGCSBN_2023_v39n2_143_t0002.png 이미지

Table 3. Detailed network structure of CloudNAS

OGCSBN_2023_v39n2_143_t0003.png 이미지

4.2. 제안 방법의 구름 검출 성능

구름 검출 성능 비교를 위해 CloudNAS와 FasterSeg은 모두 구름 검출 데이터 세트를 사용하여 모델을 학습하였다. 네트워크 모델 학습 과정에서 CloudNAS는 본 연구에서 제안한 soft IoU 손실 함수 및 데이터 증강 방법을 적용하였으며, FasterSeg은 기존 연구(Huang et al., 2020)에서 사용한 OHEM이 적용된 CE 손실 함수와 데이터 증강 방법을 적용하였다.

CloudNAS와 FasterSeg의 구름 검출 테스트 데이터 세트에 관한 결과는 Table 4와 같다. Table 4를 살펴보면 구름 검출 데이터 세트를 사용하여 최적의 네트워크 구조를 탐색한 CloudNAS가 mIoU 측면에서 기존 FastserSeg보다 4%의 성능 향상을 보여주었다. 세부적으로 살펴보면 구름 그림자, 옅은 구름, 짙은 구름, 청전 범주에서 IoU가 각각 6.4%, 5.3%, 1.8%, 1.4% 향상되었으며, 기존 모델이 낮은 성능을 보여주었던 범주인 구름 그림자와 옅은 구름에서 더 높은 성능 향상을 보여주었다. 이와 같은 실험 결과는 데이터 세트의 특성으로 인하여 최적의 성능을 내는 네트워크 구조가 달라지기 때문에 타겟 데이터 세트를 활용하여 최적의 네트워크 구조를 탐색하는 것이 필요하다는 것을 의미한다.

Table 4. Quantitative evaluation results of the CloudNAS and FasterSeg

OGCSBN_2023_v39n2_143_t0004.png 이미지

Fig. 5는 제안 방법인 CloudNAS와 FasterSeg의 구름 검출 결과 영상을 나타낸다. Fig. 5를 살펴보면 제안 방법이 FasterSeg보다 더 정확하게 구름 영역을 탐지하는 것을 확인할 수 있다. 특히 정량적인 결과와 같이 제안 방법이 옅은 구름을 더 정확하게 검출하는 것을 확인할 수 있다.

OGCSBN_2023_v39n2_143_f0005.png 이미지

Fig. 5. Visual results of the CloudNAS and FasterSeg.

손실 함수는 구름 검출 모델의 성능에 영향을 미치는 주요한 요소 중 하나이기 때문에 본 연구에서는 CloudNAS에 다양한 손실 함수를 적용하여 성능을 비교하였다. 손실 함수에 따른 CloudNAS 모델의 성능은 Table 5와 같다. Table 5를 살펴보면 본 연구에서 사용한 soft IoU 손실 함수가 mIoU와 정확도 측면에서 가장 좋은 성능을 보여주었다. 또한 범주 불균형을 고려하기 위해서 제안된 초점 손실, OHEM 기반 CE 손실 함수 등이 CE 손실 함수보다 mIoU 측면에서는 더 낮은 성능을 보여주었다. 실험 결과를 보면 구름 검출을 위하여 최적의 네트워크 모델을 탐색하는 것과 함께 최적의 손실 함수를 찾는 것도 중요하다는 것을 확인할 수 있다.

Table 5. Quantitative evaluation results of the CloudNAS according to the loss function

OGCSBN_2023_v39n2_143_t0005.png 이미지

4.3. 기존 방법과의 구름 검출 성능 비교

의미 영역 분할 분야에서 많이 활용되는 5개 모델과 제안 방법의 성능은 Table 6과 같다. 의미 영역 분할 분야에서 가장 중요한 성능 지표인 mIoU 측면에서 성능을 살펴보면 제안 방법이 의미 영역 분할 분야에서 가장 최신 모델인 트랜스포머 기반의 SegFormer에 비해 더 나은 성능을 보여주는 것을 확인할 수 있다. 이는 데이터 세트에 최적화된 네트워크를 탐색하는 것이 딥러닝 모델의 성능 향상에 중요한 요소임을 의미한다. SegFormer의 경우 모델의 크기에 따라서 B0부터 B5의 모델로 구분되는데, 가장 작은 모델인 B0와 가장 큰 모델인 B5의 성능 차이가 크지 않는 것을 알 수 있다. 이는 구름 검출 학습 데이터의 양이 적어서 모델 규모가 큰 SegFormer-B5의 성능 향상이 제한되는 것으로 판단된다. 의미 영역 분할 분야에서 실시간 처리를 위해 속도에 초점을 둔 STDC, BiSeNetV2 모델과 정확도에 초점을 둔 DeepLabV3+, OCRNet 모델을 비교하면 정확도에 초점을 둔 DeepLabV3+, OCRNet 모델들이 5% 이상의 높은 성능을 보여주었다.

Table 6. Quantitative results comparison of state-of-the-art methods

OGCSBN_2023_v39n2_143_t0006.png 이미지

5. 결론

본 연구에서는 멀티 브랜치 탐색이 가능한 NAS를 적용하여 구름 검출 방법의 성능을 향상하는 방법을 제안하였다. 이를 위해서 의미 영역 분할 분야에 적용된 NAS 모델을 기반으로 손실 함수와 데이터 증강 방법을 개선하여 구름 검출 데이터 세트에서 최적의 네트워크 모델을 탐색할 수 있도록 하였다. 본 연구에서는 의미 영역 분할 모델의 성능을 평가할 때 활용되는 IoU를 학습 과정에 적용할 수 있도록 수정한 soft IoU 함수를 손실 함수로 사용하였다. 또한 인공위성에서 촬영한 구름 영상의 경우 매우 다양한 형태를 가지기 때문이 이를 고려하기 위하여 랜덤 플립, 랜덤 스케일, 랜덤 로테이션, 랜덤 크롭 등의 다양한 데이터 증강 기법을 적용하였다.

제안된 모델의 성능을 평가하기 위하여 아리랑위성 3/3A호에서 촬영한 위성영상으로 구성된 구름 검출 데이터 세트를 사용하였다. 먼저 구름 검출 데이터 세트에 제안 방법을 적용하여 탐색한 네트워크 모델인 CloudNAS와 의미 영역 분할 데이터 세트에서 탐색 된 최적의 네트워크 모델인 FasterSeg과 정량적, 정성적 성능을 비교하였다. 실험 결과 CloudNAS는 FasterSeg보다 mIoU 측면에서 4%의 성능 향상을 보여주었으며, 정성적인 결과에서도 기존 모델이 잘 검출하지 못하던 옅은 구름을 잘 검출하는 것을 보여주었다. 또한 CloudNAS 모델에 CE 손실, 초점 손실 등 5개 손실 함수를 적용하여 손실 함수에 따른 구름 검출 성능을 비교하였다. 실험 결과 본 연구에서 사용한 soft IoU 손실 함수가 mIoU와 정확도 측면에서 가장 좋은 성능을 보여주었으며, CE 손실 함수가 두 번째로 좋은 성능을 보여주었다. 마지막으로 제안 방법의 성능을 확인하기 위해 의미 영역 분할 분야에서 활용되는 DeepLabV3+, OCRNet, SegFormer 등 5개 모델과의 성능을 비교하였다. 실험 결과 제안 모델이 의미 영역 분할 분야의 가장 최신 모델인 SegFormer 보다 더 나은 성능을 보여주었으며, 이를 통하여 데이터 세트에 최적화된 네트워크를 탐색하는 것이 딥러닝 모델의 성능 향상에 중요한 요소임을 확인하였다.

본 연구에서 사용한 구름 데이터 세트는 적색, 녹색, 청색 등 3개의 색상 채널과 한 개의 근적외선 채널로 구성되어 있다. 하지만, 본 연구에서는 기존 방법과의 객관적인 성능 비교를 위해 3개의 색상 정보만을 입력으로 사용하였으며, 기존 방법에 비해 성능이 개선되는 것을 확인하였다. 따라서 향후 연구에서는 현재 분류 성능이 낮은 옅은 구름이나 구름 그림자의 검출 성능을 향상하기 위하여 근적외선 채널 정보를 통합하여 최적의 네트워크 구조를 탐색할 수 있도록 제안 방법을 확장할 예정이다.

사사

이 논문은 한국전자통신연구원 연구운영비지원사업(기본사업)의 인간중심 자율지능시스템 원천기술연구 과제(23ZS1200)의 지원을 받아 수행한 연구입니다.

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

References

  1. Buttar, P. K. and Sachan, M. K., 2022. Semantic segmentation of clouds in satellite images based on U-Net++ architecture and attention mechanism. Expert Systems with Applications, 209, 118380. https://doi.org/10.1016/j.eswa.2022.118380
  2. Byeon, Y., Jin, D., Seong, N., Woo, J., Jeon, U., and Han, K.-S., 2022. A study on daytime transparent cloud detection through machine learning: Using GK-2A/AMI. Korean Journal of Remote Sensing, 38(6-1), 1181-1189. https://doi.org/10.7780/kjrs.2022.38.6.1.15
  3. Chen, L. C., Zhu, Y., Papandreou, G., Schroff, F., and Adam, H., 2018. Encoder-decoder with atrous separable convolution for semantic image segmentation. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds.), Computer Vision - ECCV 2018, Springer, pp. 833-851. https://doi.org/10.1007/978-3-030-01234-2_49
  4. Chen, W., Gong, X., Liu, X., Zhang, Q., Li, Y., and Wang, Z., 2020. FasterSeg: Searching for faster real-time semantic segmentation. arXiv preprint arXiv:1912.10917v2. https://arxiv.org/abs/1912.10917v2 10917v2
  5. Chu, X., Zhou, T., Zhang, B., and Li, J., 2020. Fair DARTS: Eliminating unfair advantages in differentiable architecture search. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J. M. (eds.), Computer Vision - ECCV 2020, Springer, pp. 1-17. https://doi.org/10.1007/978-3-030-58555-6_28
  6. Demir, I., Koperski, K., Lindenbaum, D., Pang, G., Huang, J., Basu, S. et al., 2018. DeepGlobe 2018: A challenge to parse the earth through satellite images. In Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Salt Lake City, UT, USA, June 18-22, pp. 172-181. https://doi.org/10.1109/CVPRW.2018.00031
  7. Fan, M., Lai, S., Huang, J., Wei, X., Chai, Z., Luo, J., and Wei, X., 2021. Rethinking BiSeNet for real-time semantic segmentation. In Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, June 20-25, pp. 9711-9720. https://doi.org/10.1109/CVPR46437.2021.00959
  8. Hong, Y., Pan, H., Sun, W., and Jia, Y., 2021. Deep dual-resolution networks for real-time and accurate semantic segmentation of road scenes. arXiv preprint arXiv:2101.06085. https://doi.org/10.48550/arXiv.2101.06085
  9. Huang, Y., Tang, Z., Chen, D., Su, K., and Chen, C., 2020. Batching soft IoU for training semantic segmentation networks. IEEE Signal Processing Letters, 27, 66-70. https://doi.org/10.1109/LSP.2019.2956367
  10. Jeong, C.-Y., Shin, H.-C., and Kim, M., 2021. Sensor-data augmentation for human activity recognition with time-warping and data masking. Multimedia Tools and Applications, 80, 20991-21009. https://doi.org/10.1007/s11042-021-10600-0
  11. Jeong, C.-Y., Moon, K., and Kim, M., 2023. An end-to-end deep learning approach for real-time single image dehazing. Journal of Real-Time Image Processing, 20(1), 12. https://doi.org/10.1007/s11554-023-01270-2
  12. Kang, J., Park, G., Kim, G., Youn, Y., Choi, S., and Lee, Y., 2022. Cloud detection from sentinel-2 images using DeepLabV3+ and swin transformer models. Korean Journal of Remote Sensing, 38(6-2), 1743-1747. https://doi.org/10.7780/kjrs.2022.38.6.2.14
  13. Kim, M.-J. and Ko, Y.-H., 2022. A study on the cloud detection technique of heterogeneous sensors using modified DeepLabV3+. Korean Journal of Remote Sensing, 38(5-1), 511-521. https://doi.org/10.7780/kjrs.2022.38.5.1.6
  14. Lee, M., Kim, M., and Jeong, C. Y., 2022. Real-time semantic segmentation on edge devices: A performance comparison of segmentation models. In Proceedings of the 2022 13th International Conference on Information and Communication Technology Convergence (ICTC), Jeju Island, Republic of Korea, Oct. 19-21, pp. 383-388. https://doi.org/10.1109/ICTC55196.2022.9952938
  15. Li, L., Zhou, T., Wang, W., Li, J., and Yang, Y., 2022. Deep hierarchical semantic segmentation. In Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, LA, USA, June 18-24, pp. 1236-1247. https://doi.org/10.1109/CVPR52688.2022.00131
  16. Li, Q., Yang, W., Liu, W., Yu, Y., and He, S., 2021. From contexts to locality: ultra-high resolution image segmentation via locality-aware contextual correlation. In Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, Oct. 10-17, pp. 7232-7241. https://doi.org/10.1109/ICCV48922.2021.00716
  17. Lin, T. Y., Goyal, P., Girshick, R., He, K., and Dollar, P., 2017. Focal loss for dense object detection. In Proceedings of the 2017 IEEE/CVF International Conference on Computer Vision (ICCV), Venice, Italy, Oct. 22-29, pp. 2999-3007. https://doi.org/10.1109/ICCV.2017.324
  18. Liu, C., Yang, S., Di, D., Yang, Y., Zhou, C., Hu, X., and Sohn, B. J., 2022. A machine learning-based cloud detection algorithm for the Himawari-8 spectral image. Advances in Atmospheric Sciences, 39, 1994-2007. https://doi.org/10.1007/s00376-021-0366-x
  19. Liu, H., Simonyan, K., and Yang, Y., 2018. DARTS: Differentiable architecture search. arXiv preprint arXiv:1806.09055. https://doi.org/10.48550/arXiv.1806.09055
  20. Long, J., Shelhamer, E., and Darrell, T., 2015. Fully convolutional networks for semantic segmentation. In Proceedings of the 2015 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, June 8-10, pp. 3431-3440. https://doi.org/10.1109/CVPR.2015.7298965
  21. MMSegmentation, 2020. MMSegmentation: OpenMMLab semantic segmentation toolbox and benchmark. Available online: https://github.com/open-mmlab/mmsegmentation (accessed on Jan. 10, 2023).
  22. Mohajerani, S. and Saeedi, P., 2020. Cloud and cloud shadow segmentation for remote sensing imagery via filtered Jaccard loss function and parametric augmentation. arXiv preprint arXiv:2001.08768. https://doi.org/10.48550/arXiv.2001.08768
  23. National Information Society Agency AI Hub, 2020. Dataset for object recognition from satellite imagery. Available online: https://aihub.or.kr/aihubdata/data/view.do?currMenu=115topMenu=100 (accessed on Jan. 10, 2023).
  24. Qiu, S., He, B., Zhu, Z., Liao, Z., and Quan, X., 2017. Improving Fmask cloud and cloud shadow detection in mountainous area for Landsats 4-8 images. Remote Sensing of Environment, 199, 107-119. https://doi.org/10.1016/j.rse.2017.07.002
  25. Ronneberger, O., Fischer, P., and Brox, T., 2015. U-Net: Convolutional Networks for Biomedical Image Segmentation. In: Navab, N., Hornegger, J., Wells, W., Frangi, A. (eds.), Medical Image Computing and Computer-Assisted Intervention - MICCAI 2015, Springer, pp. 234-241. https://doi.org/10.1007/978-3-319-24574-4_28
  26. Seo, S. and Jung, H., 2023. A robust collision prediction and detection method based on neural network for autonomous delivery robots. ETRI Journal, 45(2), 329-337. https://doi.org/10.4218/etrij.2021-0397
  27. Shrivastava, A., Gupta, A., and Girshick, R., 2016. Training region-based object detectors with online hard example mining. In Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, June 27-30, pp. 761-769. https://doi.org/10.1109/CVPR.2016.89
  28. Tian, J., Mithun, N. C., Seymour, Z., Chiu, H., and Kira, Z., 2021. Striking the right balance: Recall loss for semantic segmentation. arXiv preprint arXiv: 2106.14917. https://doi.org/10.48550/arXiv.2106.14917
  29. Wei, J., Huang, W., Li, Z., Sun, L., Zhu, X., Yuan, Q., Liu, L., and Cribb, M., 2020. Cloud detection for Landsat imagery by combining the random forest and superpixels extracted via energy-driven sampling segmentation approaches. Remote Sensing of Environment, 248, 112005. https://doi.org/10.1016/j.rse.2020.112005
  30. Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J. M., and Luo, P., 2021. SegFormer: Simple and efficient design for semantic segmentation with transformers. Advances in Neural Information Processing Systems, 34, 12077-12090.
  31. Yeom, J., Ko, J., Hwang, J., Lee, C., Choi, C., and Jeong, S., 2018. Updating absolute radiometric characteristics for KOMPSAT-3 and KOMPSAT3A multispectral imaging sensors using well-characterized pseudo-invariant tarps and microtops II. Remote Sensing, 10(5), 697. https://doi.org/10.3390/rs10050697
  32. Yu, C., Gao, C., Wang, J., Yu, G., Shen, C., and Sang, N., 2021. BiSeNet v2: Bilateral network with guided aggregation for real-time semantic segmentation. International Journal of Computer Vision, 129, 3051-3068. https://doi.org/10.1007/s11263-021-01515-2
  33. Yuan, Y., Chen, X., and Wang, J., 2020. Object-contextual representations for semantic segmentation. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J. M. (eds.), Computer Vision - ECCV 2020, Springer, pp. 173-190. https://doi.org/10.1007/978-3-030-58539-6_11
  34. Yun, S., Han, D., Oh, S. J., Chun, S., Choe, J., and Yoo, Y., 2019. Cutmix: Regularization strategy to train strong classifiers with localizable features. In Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Republic of Korea, Oct. 27-Nov. 2, pp. 6022-6031. https://doi.ieeecomputersociety.org/10.1109/ICCV.2019.00612
  35. Zhang, J., Li, X., Li, L., Sun, P., Su, X., Hu, T., and Chen, F., 2020. Lightweight U-Net for cloud detection of visible and thermal infrared remote sensing images. Optical and Quantum Electronics, 52(397), 1-14. https://doi.org/10.1007/s11082-020-02500-8
  36. Zhu, Z., Wang, S., and Woodcock, C. E., 2015. Improvement and expansion of the Fmask algorithm: cloud, cloud shadow, and snow detection for Landsats 4-7, 8, and Sentinel 2 images. Remote Sensing of Environment, 159, 269-277. https://doi.org/10.1016/j.rse.2014.12.014