DOI QR코드

DOI QR Code

Few-shot Aerial Image Segmentation with Mask-Guided Attention

마스크-보조 어텐션 기법을 활용한 항공 영상에서의 퓨-샷 의미론적 분할

  • Kwon, Hyeongjun (School of Electrical and Electronic Engineering, Yonsei University) ;
  • Song, Taeyong (School of Electrical and Electronic Engineering, Yonsei University) ;
  • Lee, Tae-Young (Intelligence SW Team, Hanwha Systems) ;
  • Ahn, Jongsik (Intelligence SW Team, Hanwha Systems) ;
  • Sohn, Kwanghoon (School of Electrical and Electronic Engineering, Yonsei University)
  • Received : 2022.05.17
  • Accepted : 2022.05.26
  • Published : 2022.05.31

Abstract

The goal of few-shot semantic segmentation is to build a network that quickly adapts to novel classes with extreme data shortage regimes. Most existing few-shot segmentation methods leverage single or multiple prototypes from extracted support features. Although there have been promising results for natural images, these methods are not directly applicable to the aerial image domain. A key factor in few-shot segmentation on aerial images is to effectively exploit information that is robust against extreme changes in background and object scales. In this paper, we propose a Mask-Guided Attention module to extract more comprehensive support features for few-shot segmentation in aerial images. Taking advantage of the support ground-truth masks, the area correlated to the foreground object is highlighted and enables the support encoder to extract comprehensive support features with contextual information. To facilitate reproducible studies of the task of few-shot semantic segmentation in aerial images, we further present the few-shot segmentation benchmark iSAID-, which is constructed from a large-scale iSAID dataset. Extensive experimental results including comparisons with the state-of-the-art methods and ablation studies demonstrate the effectiveness of the proposed method.

Keywords

1. 서 론

최근 원격 탐사 기술의 급격한 발전과 함께, 원격탐사 영상에 대한 의미론적 분할 기술은 수림관리 [1,2], 지표면 관리[3,4], 그리고 건물/도로 탐지[5,6] 와 같은 다양한 분야에서 활용되어 각광받고 있는 연구 분야이다.최근 컨볼루션 신경망(Convolutional NeuralNetwork, CNN)을 기반으로 하는 의미론 적분할 기술[7,8,9,10,11]은 DLRSD[12]나 WHDLD [13]와 같은 대규모 데이터셋에 적용되어 항공 영상의 의미론적 분할 기술의 많은 성능 향상을 이루었다. 그러나 대규모 데이터셋은 픽셀 수준의 라벨링 과정이 어렵고 시간과 비용이 많이 소모되어 구축이 어렵다는 문제가 있다.그러나 딥러닝 네트워크의 학습에 소규모 데이터셋이 이용될 경우 네트워크에는 과적합(over fitting) 문제가 발생할 수 있다.또한, 소규모 데이터셋을 통해 학습된 네트워크는 새로운 클래스에 대하여 안정적인 성능을 유지하는데 어려움이 있다. 준지도(Semi-supervised) 의미론적 분할기술은[14, 15]앞서 언급된 대규모 데이터셋에 대한의존도를 줄이는 방법 중 하나로 제안되었으나, 여전히 새로운 클래스의 데이터에 대한 안정적인 성능 유지는 한계가 있다.

이러한 문제를 해결하는 방법의 하나로, 메타 학습 기술 중 퓨-샷 의미론적 분할(Few-shot semantic segmentation, FSS)이 사용될 수 있다. FSS는 새로운 클래스의 물체가 존재하는 쿼리(query)영상을, 해당 클래스에 대한 정답 마스크가 존재하는 소량의 지원(support)영상을 활용하여 분할하는 것을 효율적으로 학습하기 위한 방식이다.현재의 FSS 알고리즘들은 [16,17,18,19,20] 자연 영상에서 쿼리 영상의 표현자(feature)와 지원 영상의 프로토타입 (prototype)표현자를 비교하여 전경(fore ground)물체에 대한 분할 기능을 수행한다.기존의 연구들은 지원 영상의 정답 마스크를 활용하여 표현자를 추출하는 방법과, 마스크를 활용하지 않고 표현자를 추출하는 방법으로 분류할 수 있다.이 중 라벨 마스크를 활용하지 않는 방법들은 전경과 배경 정보가 적절히 구분되지 않은 표현자를 추출하기 때문에 성능이 저하된다. 반면, 이진 마스킹(binary masking) 기법을 적용하면 전경에 집중된 표현자를 인코딩(encoding) 하여 전경에 대한 정보를 선택적으로 취할 수 있으나, 배경(background)과의 연관성을 고려하지 못하기 때문에 함축적이지 못한 표현자를 추출하게 된다. Fig.1을 통해서 표현자를 추출하는 방법 별 구조를 간단하게 확인할 수 있다.

Fig. 1. Illustration of different support feature extraction methods. (a) vanilla backbone (None), (b) baseline (binary masking), and (c) the proposed mask-guided attention.

본 논문에서는 항공영상에서의 퓨-샷 의미론적 분할을 위한 프레임워크를 제안한다.먼저, 자기-어텐션(self-attention) 기반의 마스크-보조 어텐션(Mask-guided attention, MGA)모듈을 통해 지원 영상으로부터의 강인하고 함축적인 프로토타입 표현자를 추출하는 방식을 제안한다.마스크-보조 어텐션 알고리즘이 적용된 표현자는 전경 정보뿐만 아니라 배경과의 연관성을 고려하여 해당 클래스를 더욱 잘 대표하는 정보가 포함된 표현자를 추출할 수 있다. 해당모듈은 전경과 배경의 맥락 정보를 고려하여, 항공 영상의 의미론적 분할에 발생하는 주는 배경의 다양성 및 다양한 스케일에 의한 네트워크의 성능 저하를 방지할 수 있다.문헌 조사에 따르면 본 연구는 항공 영상의 퓨-샷 의미론적 분할을 수행하는 최초의 연구이다. 제안한 어텐션 기법을 적용하기 위해 다량의 의미론적 분할 라벨이 있는 항공 영상을 활용했으며, 결과적으로 분할 네트워크가 새로운 클래스에 대해안 정적인 분할 성능을 가지게끔 학습을 진행할 수 있다.제안한 마스크-보조 어텐션 모듈은 기존 네트워크들과 비교하여 학습 파라미터의 증가 없이 향상된 성능을 가질 수 있다.본 논문의 구성은 다음과 같다.2장에서는 본 논문과 관련되는 항공 영상의 의미론적 분할 기술, 그리고 퓨-샷 의미론적 분할의 연구에 관한 설명한다.3장에서는 문제 정의와 제안하는 네트워크, 그리고 목적 함수에 관해 설명하며, 4장에서는 네트워크를 학습하기 위한 기초, 제안된 기법을 적용한 네트워크의 정성 및 정량적인 평가 지표를 통한 실험 결과를 제시한다.마지막으로 5장에서는 본 논문에서 제안한 방법의 결론을 맺는다.

2. 연구 배경

2.1 항공 영상의 의미론적 분할 (Aerial Image Semantic Segmentation)

의미론적 분할은 컴퓨터 비전분야에서 영상 내 존재하는 물체에 대해 픽셀 수준의 정밀한 클래스 정보의 예측을 목표로 하는 기본적이지만 어려운 과제이다. 최근 컨볼루션 신경망의 발달로 항공 영상의 의미론적 분할에 대한 관심이 증가하고 있다 [7,8,9,10,21,22].일부 연구는 이 과제를 해결하기 위해 CNN과 통계 모델의 조합을 사용하는 데 중점을 둔다.예를 들어, CRF[13]은 더 정확한 픽셀 당 클래스 확률로 네트워크의 성능 향상을 위해 조건부 랜덤 필드(Conditional random field)를 사용하고, MRF-CNN[17]은 선명하고 정확한 경계 묘사를 제공하기 위해 마르코프 랜덤 필드( Markov random field)를통합하였다.일부 다른 작업에서는 다중 스케일 기능융합 구조를 사용하여 의미론적 분할을 수행 한다. 그 중 [10]에서는 먼저 항공 영상의 의미론적 분할을 처리하기 위해 피라미드 풀 링(Pyramid pooling) 모듈을 도입했다.한편, [23]은 분할 성능을 높이기 위해 서로 다른 레이어(layer)의 기능을 활용하는 2단계 방식을 제안한다.유사하게, ERN[9]은 유용한 의미론적 정보를 찾아내기 위해 출력에 대한 다중 가중경계 감독 기법을 도입했다.또한, 분할 성능을 향상시키기 위해 [24]는 경계 검출 분할 네트워크를 제안한다.

2.2 퓨-샷 의미론적 분할(Few-shot Semantic Segmentation)

퓨-샷 의미론적 분할 작업은 정답 마스크가 존재하는 적은 수의 지원 영상을 활용하여 쿼리 영상에서 새로운 클래스에 속하는 개체를 검출하는 것을 목표로 한다.SG-One[16]은 프로토타입과 쿼리 영상 간의 유사성 비교를 활용하여 분할 작업을 수행한다. 제안되는 방법 중 일부는 더욱 향상된 프로토타입을 설계하고 구성하는데 중점을 둔다.PANet [17]은 보다 일반화된 프로토타입을 얻기 위해 프로토타입 정렬(align) 정규화 알고리즘을 제안한다. PMM[18]은매개변수(parameter)가 없는 방식인 기댓값 최대화 알고리즘(Expectation and maximization)을 활용하여 다중 프로토타입을 생성하고 활용하여, 보다 강인한 표현자의 추출을 통해 분할 성능을 향상시켰으나계층적 정보(hierarchical information)를 고려하지 않았다.이 문제를 해결하기 위해 CANet[19]에서는분할 결과를 반복적으로 최적화하는 다단계 비교 모델을 제안한다.기존 클래스로 학습된 정보(knowledge)를 새로운 클래스로 전달(transfer)하는 문제는 앞서 언급한 모델들에서는 다루지 않는다. 이를극복하기 위해 AMP[20]에서 기존 클래스의 정보를 새로운 클래스에 관련된 정보 결합하여 효과적인 분할을 수행하기 위해 적응형 마스크 프록시(Adaptive masked proxy)의 표현자를 반복적으로 업데이트한다. 한편, PFENet[25]은 지원 영상에서 쿼리 영상으로의 정보 전달 문제를 고레벨 표현자의 사전(prior) 지식으로 해결하는 방법을 제안한다.또한, PGNet [26]은 정확한 퓨-샷 의미론적 분할을 수행하기 위해 피라미드 그래프(Pyramid graph)네트워크를 구축한다. 언급한 방법들은 자연 영상 도메인(natural image domain)에서 눈부신 발전을 이루었지만, 추출된 단일 지원 프로토타입은 쿼리와 지원 영상 간의 일치에 대한 대략적인 보조(guidance)만 제공할 수 있고 물체 모양과 크기에서의 큰 편차를 처리할 수 없기 때문에 모든 제시된 방법은 항공 영상 도메인 (aerial image domain)에서 부적절하다.

3. 제안 방법

3.1 문제 정의

퓨-샷 의미론적 분할 과제의 목표는 쿼리 영상 \(I_{q}\)과 해당 영상의 정답을 K개의 지원 영상 \(\left\{I_{s, k}\right\}_{k=1}^{K^{*}}\)과 해당 영상의 정답 레이블\(\left\{M_{s, k}\right\}_{k=1}^{K}\)를 활용하여 목표 클래스가 있는 객체에 대한 퀴리 영상의 추정 마스크 \(\widehat{M}_{q}\)를 생성하는 딥러닝 네트워크 Θ를 학습하는 것이다.

\(\widehat{M}_{q}=\Theta\left(I_{q},\left\{I_{s, k}, M_{s, k}\right\}_{k=1}^{K}\right)\)       (1)

지원 및 쿼리 영상 \(I_{s}, I_{q}\)가 주어지면 백본(back-bone)네트워크는 레벨 \(l\)의 컨볼루션 레이어의 표현자 시퀀스 \(\left\{F_{\mathrm{s}}^{l}, F_{q}^{l}\right\}_{l=1}^{L}\)를 생성한다. 이후 각 레이어에서 지원-쿼리 표현자 간의 상관관계(correlation)를 계산하여 사전 마스크(prior mask)를 생성한다. 사전마스크와 입력된 중간 레벨의 쿼리 및 지원 표현 자와 융합된 표현자는 디코더(decoder)에 입력된 다음 추정 마스크 \(\widehat{M}_{q}\)를 생성한다.본 논문에서는 FSS를 위한 일반적인 학습 방식, 즉 MatchingNet[27]에서 제안된 프로토콜인 episodic-learning전략을 따르며, 각 학습 에피소드 \(S=\left\{I_{q}, M_{q},\left\{I_{s, k}, M_{s, k}\right\}_{k=1}^{K}\right\}\)는 K개의 지원 영상과 라벨 마스크 그리고 쿼리 영상과 라벨 마스크를 포함한다.지원 영상 표현자가 해당 클래스에 대해 효과적이고 더욱 함축적인 정보를 포함할 수 있도록 지원 영상을 인코딩하는 인코더 (enocder, Enc)내에서 마스크-보조 어텐션(Mask-Guided Attention)모듈을 제안한다. 제안하는 방법의 전체적인 개요는 Fig.2에 나타내었다.다음 하위 섹션에서는 제안하는 MGA의 작동 원리와 정보를 제공한다.

Fig. 2. Overall pipeline of our proposed network. Network architecture with support encoder using the proposed MGA, and detailed architecture of MGA.

3.2 방법 개요

본 논문에서는 제안하는 딥러닝 기반의 퓨-샷 의미론적 분할 네트워크가 항공 영상에서 향상된 성능을 달성하는 것을 목표로 한다.이를 위해 Fig 1(c)과 같이 지원 영상을 입력으로 받는 인코더 내에 마스크 -보조 어텐션 모듈을 추가하여 표현자를 추출한다. 고레벨 표현자(high-level feature)을 활용하여 쿼리영상의 사전 마스크를 생성해주고, 쿼리 영상과 지원 영상들의 중간 레벨 표현자와 융합하는 표현자 향상 모듈(feature enrichment module, FEM)[25]을 활용하여 강화된 쿼리-지원 혼합 표현자를 생성한다.

3.3 마스크-보조 어텐션(Mask-Guided Attention)

제안된 마스크-보조 어텐션(Mask-guidedatten-tion, MGA)알고리즘은 지원 영상의 번 째 컨볼루 션 레이어의 표현자인 \(F_{s}^{l} \in \mathbb{R}^{c \times h \times w}\)와 해당 영상의 라벨 마스크 \(M_{s}\)를 입력으로 사용한다. 먼저, \(M_{s}\)를 사용하여 \(F_{s}^{2}\)에 마스크-평균 풀링(Mask-average pooling, MAP)을 적용하여 지원 표현자 벡터 \(v_{s}^{l}\)를 얻는다.

\(v_{s}^{l}=\frac{\sum_{i=1}^{h w} F_{s}^{l}(i) \odot\left[S^{\prime}\left(M_{s}\right)(i)=1\right]}{\sum_{i=1}^{h w}\left[\zeta^{l}\left(M_{s}\right)(i)=1\right]}\)       (2)

여기서 i는 공간 위치의 인덱스, ⊙는 아다마르곱(Hadamard product), \(\zeta\)의 해 \(M_{s}\)\(F_{8}^{l}\)의 해상상도와 일치시키는 쌍선형 보간 연산자이다.지원 샘플 인덱스 K는 간결함을 위해 생략되었다. 이후 \(v_{s}^{l}\)\(F_{8}^{l}\)사이의 코사인 유사도(cosinesimilarity)를 계산하여 공간 위치에 따른 유사도 맵 \(R_{s}^{l} \in \mathbb{R}^{1 \times h \times w}\)을 수 있다.

\(R_{s}^{l}(i)=\phi\left(F_{s}^{l}(i), v_{s}^{l}\right)\)       (3)

여기서 \(\phi(\cdot)\)는 코사인 거리 함수를 나타낸다.생성된 \(R_{s}^{l}\)은 지원 영상의 표현자의 전경 객체에 대한자가 어센션 맵(self-attentionmap)으로 해석된다. \(R_{s}^{l}\)를 사용하여 어텐션-지원 표현자 \(\hat{F}_{s}\)를 다음과 같이 얻는다.

\(\hat{F}_{s}^{\prime}=R_{s}^{l} \odot F_{s}^{l}\)       (4)

이는 백본 네트워크의 후속 레이어에 입력으로 제공된다.

\(F_{s}^{l+1}=\text { Enc }\)       (6)

이에 따라 생성된 지원 영상의 어텐션-지원 표현 자는, 사전 마스크의 생성 및 쿼리 영상에 대한 추정 (prediction) 마스크를 생성하는 데 이용된다.

4. 실험 결과 및 고찰

본 장에서는 제안한 방법의 효율성을 보이기 위한 실험 결과를 제시한다.먼저 사용한 데이터셋과 실험환경에 관해 설명하고, 기존의 데이터 증강 기법이 적용되었을 때와 본 논문에서 제시한 방법을 적용하였을 때 향상된 결과를 얻을 수 있음을 보인다. 마지막으로, 다른 FSS방법들과의 분할 성능을 비교한다.

4.1 데이터셋

퓨-샷 항공 영상 분할 학습을 위한 데이터셋이 기존에 존재하지 않았기 때문에, 본 연구에서는 이를 수행하기 위한 데이터셋을 구축하였다. 항공 영상 내 객체에 대한 의미론적 분할 마스크를 제공하는 iSAID [28]데이터셋을 원본 데이터셋으로 활용하였다. 해당 데이터셋은 15개 클래스에 속하는 655, 451개의 객체를 포함하며, 2806장의 고해상도 위성 영상으로 구성되어 있다.본 논문에서는 라벨이 있는 데이터셋을 확장하여 활용하기 위해서 256×256의 크기로 랜덤 크롭(Randomcrop)을 통해 18, 076장의 학습 영상과 6, 363장의 테스트 영상으로 구성하였다. 본연구에서는 PASCAL-\(5^{i}\)[20]와 동일한 방식으로 iSAID-\(5^{i}\) 데이터셋을 설정하였다.학습과 테스트를 위해 15개의 클래스를 3개의 스플릿으로 분류 하였다. 이 중 2개는 학습에 사용되고 1개는 테스트에 사용된다. 클래스 분류에 대한 자세한 설정은 Table1 을 통해 확인할 수 있다. K-샷 설정은 각각의 학습과 테스트 데이터셋으로 부터 동일한 클래스의 K+1개의 영상과 마스크를 랜덤으로 추출하여 개의 지원 영상과 한 개의 쿼리 영상으로 구분을 하여 분할 네트워크에 입력해주는 방식이다.

Table 1. Testing classes for 3-fold cross validation test. The training classes of iSAID-5i, i=0,1,2 are disjoint with the testing classes.

4.2 실험 환경 및 구현 세부사항

본 연구에서는 실험 과정에 3.8GHz CPU와 24GB RAM, NVIDIA Titan RTX GPU 2대가 장착된 PC 를 이용하였으며, 딥러닝 라이브러리로는 PyTorch 를 사용하였다.퓨-샷 항공 영상 분할 네트워크 학습을 위해 배치 크기는 32로 설정하였고, 최적화를 위하여 Stochastic Gradient Descent를 사용하였다. 학습은 총 100에포크(epoch)로 진행하였다.학습률은 0.0005로 설정하였고, 가중치 감소값은 0.0001, 모멘텀(momentum)은 0.9로 설정하였다.표현자 추출을 위한 백본 네트워크로는 ImageNet으로 사전학습 (pre-train)된 ResNet-50[29]을 사용하였다. 학습 시에 백본 네트워크의 파라미터는 업데이트되지 않는다.

4.3 마스크-보조 어텐션 모듈 적용 결과

제안한 마스크-보조 어텐션 모듈을 통하여 추출된 표현자의 활성화 맵을 통하여 적용한 네트워크의 성능을 확인하기 위하여 라벨 마스크를 활용하지 않고 표현자를 추출한 경우와 라벨 마스크를 통해 바이너리 마스킹을 적용한 네트워크와의 성능을 비교하였다. 이에 따른 결과는 Fig.4를 통해 확인할 수 있는데 공통적으로 (c)None방식의결과들은 목표 클래스 외에도 배경 영역 등 관계없는 영역에 활성화가 되는 것을 확인할 수 있다.또한, (d)BM방식의 경우 (c)방식의결과와 비교해서 조금 더 정확하게 목표 클래스의 영역에 어텐션이 활성화가 되는 것을 알 수 있으나 여전히 목표 클래스에 대한 어텐션이 부정확하고 배경 영역 등 관계없는 영역과 구별되는 정도가 부족한 것을 정성적으로 확인할 수 있다.그러나, 본 논문에서 제안한 방법인 (e)MGA방식의 결과들은 비교적 목표 클래스의 영역에 정확하고 구별되게 어텐션이 활성화 되어 있는 것을 확인할 수 있다. 또한, 각각의 방법을 적용하였을 때 쿼리 영상에 대한 사전 마스크가 적절하게 생성되는지 확인하였다. 의미론적 분할 성능의 객관 척도로는 mean Intersection over Union(mIoU)을 사용하였다. 이에 따른 결과는 Table2, 3과 Fig.3을 통해 정성적, 정량적 결과를 확인할 수 있으며 기존의 네트워크와 비교하여 1-shot, 5-shot 설정에서 약 6% 성능향상을 그리고 최신 알고리즘 대비 약 4%의 성능향상을 보인 것을 확인할 수 있다.또한, Fig.4의 활성화 맵을 통해서 제시한 MGA를 적용한 네트워크가 전경에 적합하게 활성화된 것을 확인할 수 있다.

Table 2. Study on impact of each components on iSAID- 5i with 1-shot and 5-shot setting.

Fig. 3. Qualitative results on samples in iSAID-5(a) support images,(b) query images,(c) ground truth query masks, estimated query masks of(d) PFENet, and(e) Ours

Fig. 4. Visual comparisons of prior masks for novel-class objects in iSAID-5i (a) support images, (b) query images, prior masks with different support feature enhancement methods, (c) None, (d) Binary Masking, and (e) the proposed MGA.

5. 결 론

본 논문에서는 딥러닝 기반 퓨-샷 항공 영상 분할네트워크의 학습을 위한 자기 어텐션 기반의 마스크-보조 어텐션을 이용한 퓨-샷 의미론적 분할 네트워크를 제안하였다.지원 영상을 이용하여 클래스 별 대표 표현자를 추출하는 과정에서 각 영상의 라벨 마스크를 활용하여 쿼리 영상에 대한 최적의 사전 마스크를 생성하였으며, 라벨 마스크를 활용하지 않은 네트워크와 라벨 마스크를 이진 마스크로 활용한 네트워크에 비해 의미론적 분할 성능이 향상됨을 확인하였다. 제안하는 마스크-보조 어텐션 알고리즘은 향후 퓨-샷 객체 검출 등 다른 영상 인지 작업에 접목하여 확장할 수 있다.

References

  1. M. Dalponte, L. Bruzzone, and D. Gianelle, "Tree Species Classification in the South9 Alps based on the Fusion of Very High Geometrical Resolution Multispectral/ Hyperspectral Images and LiDAR Data," Remote Sensing of Environment, Vol. 123, pp. 258-270, 2012. https://doi.org/10.1016/j.rse.2012.03.013
  2. J.V. Solrzano, J.A. Meave, J.A. Gallardo- Cruz, E.J. Gonzlez, and J.L. Hernndez- Stefanoni, "Predicting Old-Growth Tropical Forest Attributes from Very High Resolution (VHR)-Derived Surface Metrics," International Journal of Remote Sensing, Vol. 38, No. 2, pp. 492-513, 2017. https://doi.org/10.1080/01431161.2016.1266108
  3. G. Moser, S.B. Serpico, and J.A. Benediktsson, "Land-Cover Mapping by Markov Modeling of Spatial-Contextual Information in Very-High-Resolution Remote Sensing Images," Proceedings of the IEEE, Vol. 101, No. 3, pp. 631-651, 2013. https://doi.org/10.1109/JPROC.2012.2211551
  4. B. Huang, B. Zhao, and Y. Song, "Urban Land-Use Mapping Using a Deep Convolutional Neural Network with High Spatial Resolution Multispectral Remote Sensing Imagery," Remote Sensing of Environment, Vol. 214, pp. 73-86, 2018. https://doi.org/10.1016/j.rse.2018.04.050
  5. H. Zhou, H. Kong, L. Wei, D. Creighton, and S. Nahavandi, "On Detecting Road Regions in a Single UAV Image," IEEE Transactions on Intelligent Transportation Systems, Vol. 18, No. 7, pp. 1713-1722, 2017. https://doi.org/10.1109/TITS.2016.2622280
  6. Y. Yi, Z. Zhang, and W. Zhang, "Building Segmentation of Aerial Images in Urban Areas with Deep Convolutional Neural Networks," Conference of the Arabian Journal of Geosciences, pp. 61-64, 2018.
  7. L. Ding, H. Tang, and L. Bruzzone, "LANet: Local Attention Embedding to Improve the Semantic Segmentation of Remote Sensing Images," IEEE Transactions on Geoscience and Remote Sensing, Vol. 59, No. 1, pp. 426-435, 2021. https://doi.org/10.1109/TGRS.2020.2994150
  8. L. Mi and Z. Chen. "Superpixel-Enhanced Deep Neural Forest for Remote Sensing Image Semantic Segmentation," ISPRS Journal of Photogrammetry and Remote Sensing, Vol. 159, pp. 140-152, 2020. https://doi.org/10.1016/j.isprsjprs.2019.11.006
  9. S. Liu, W. Ding, C. Liu, Y. Liu, Y. Wang, and H. Li, "ERN: Edge Loss Reinforced Semantic Segmentation Network for Remote Sensing Images," Remote Sensing, Vol. 10, No. 9, p. 1339, 2018. https://doi.org/10.3390/rs10091339
  10. B. Yu, L. Yang, and F. Chen, "Semantic Segmentation for High Spatial Resolution Remote Sensing Images Based on Convolution Neural Network And Pyramid Pooling Module," IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, Vol. 11, No. 9, pp. 3252-3261, 2018. https://doi.org/10.1109/jstars.2018.2860989
  11. S. Park and Y. S. Heo, "Multi-Path Feature Fusion Module for Semantic Segmentation," Journal of Korea Multimedia Society, Vol. 24, No. 1, pp. 1-12, 2021. https://doi.org/10.9717/KMMS.2020.24.1.001
  12. B. Chaudhuri, B. Demir, S. Chaudhuri, and L. Bruzzone, "Multilabel Remote Sensing Image Retrieval Using a Semisupervised GraphTheoretic Method," IEEE Transactions on Geoscience and Remote Sensing, Vol. 56, No. 2, pp. 1144-1158, 2018. https://doi.org/10.1109/TGRS.2017.2760909
  13. Z. Shao, W. Zhou, X. Deng, M. Zhang, and Q. Cheng, "Multilabel Remote Sensing Image Retrieval Based on Fully Convolutional Network," IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, Vol. 13, pp. 318-328, 2020. https://doi.org/10.1109/jstars.2019.2961634
  14. J. Wang, C. Ding, S. Chen, C. He, and B. Luo, "Semi-Supervised Remote Sensing Image Semantic Segmentation via Consistency Regularization and Average Update of Pseudo-Label," Remote Sensing, Vol. 12, No. 21, pp. 3603, 2020. https://doi.org/10.3390/rs12213603
  15. J. Castillo-Navarro, B. Le Saux, A. Boulch, N. Audebert, and S. Lefevre, "Semi-Supervised Semantic Segmentation in Earth Observation: The Minifrance Suite, Dataset Analysis and Multi-Task Network Study," Machine Learning, pp. 1-36, 2021.
  16. X. Zhang, Y. Wei, Y. Yang, and T.S. Huang, "SG-One: Similarity Guidance Network for One-Shot Semantic Segmentation," IEEE Transactions on Cybernetics, Vol. 50, No. 9, pp. 3855-3865, 2020. https://doi.org/10.1109/tcyb.2020.2992433
  17. K. Wang, J.H. Liew, Y. Zou, D. Zhou, and J. Feng, "PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment," IEEE/CVF International Conference on Computer Vision, pp. 9196-9205, 2019.
  18. B. Yang, C. Liu, B. Li, J. Jiao, and Q. Ye, "Prototype Mixture Models for Few-Shot Semantic Segmentation," European Conference on Computer Vision, pp. 763-778, 2020.
  19. C. Zhang, G. Lin, F. Liu, R. Yao, and C. Shen, "CANet: Class-Agnostic Segmentation Networks with Iterative Refinement and Attentive Few-Shot Learning," IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 5212-5221, 2019.
  20. M. Siam, B. Oreshkin, and M. Jagersand, "AMP: Adaptive Masked Proxies for FewShot Segmentation," IEEE/CVF International Conference on Computer Vision, pp. 5248-5257, 2019.
  21. S. Paisitkriangkrai, J. Sherrah, P. Janney, and A.V.-D. Hengel, "Effective Semantic Pixel Labelling With Convolutional Networks and Conditional Random Fields," IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 36-43, 2015.
  22. C. Zhang, I. Sargent, X. Pan, A. Gardiner, J. Hare and P.M. Atkinson, "VPRS-Based Regional Decision Fusion of CNN and MRF Classifications for Very Fine Resolution Remotely Sensed Images," IEEE Transactions on Geoscience and Remote Sensing, Vol. 56, No. 8, pp. 4507-4521, 2018. https://doi.org/10.1109/tgrs.2018.2822783
  23. L. Ding, J. Zhang, and L. Bruzzone, "Semantic Segmentation of Large-Size VHR Remote Sensing Images Using a Two-Stage Multiscale Training Architecture," IEEE Transactions on Geoscience and Remote Sensing, Vol. 58, No. 8, pp. 5367-5376, 2020. https://doi.org/10.1109/tgrs.2020.2964675
  24. D. Marmanis, K. Schindler, J.D. Wegner, S. Galliani, M. Datcu, and U. Stilla, "Classification with an Edge: Improving Semantic Image Segmentation with Boundary Detection," ISPRS Journal of Photogrammetry and Remote Sensing, Vol. 135, pp. 158-172, 2018. https://doi.org/10.1016/j.isprsjprs.2017.11.009
  25. Z. Tian, H. Zhao, M. Shu, Z. Yang, R. Li, and J. Jia, "Prior Guided Feature Enrichment Network for Few-Shot Segmentation." IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 44, No. 2, pp. 1050-1065, 2022. https://doi.org/10.1109/TPAMI.2020.3013717
  26. C. Zhang, G. Lin, F. Liu, J. Guo, Q. Wu, and R. Yao, "Pyramid Graph Networks with Connection Attentions for Region-Based OneShot Semantic Segmentation," IEEE/CVF International Conference on Computer Vision, pp. 9586-9594, 2019.
  27. O. Vinyals, C. Blundell, T. Lillicrap, K. Kavukcuoglu, and D. Wierstra, "Matching Networks for One Shot Learning," Advances in Neural Information P rocessing Systems, Vol. 29, pp. 3630-3638, 2016.
  28. S.W. Zamir et al., "iSAID: A Large-Scale Dataset for Instance Segmentation in Aerial Images," IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshop, pp. 28-37, 2019.
  29. K. He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 770-778, 2016.