1. 서론
농업용 저수지는 관개기(irrigation period) 및 갈수기(droughty season)에 홍수기에 저장한 수량을 저류하여 저수지의 용수를 공급하는 필수적인 구조물로, 저수지의 용수 공급 능력은 농업적 가뭄에 대한 대응 능력과 직결되는 중요한 요소이다(Lee et al., 2022). 국내 농업용 저수지는 전국적으로 약 18,000여 개소가 존재하며, 그 중에서 3,000여 개소는 한국농어촌공사에서 관리하고 있고, 그 외 14,000여 개소는 지자체에서 관리하고 있다. 현재 운용되고 있는 대부분의 농업용 저수지가 관개 규모가 100 ha (1 km2) 이하의 소규모 저수지로 50년 이전에 축조되어 심각하게 노후와 된 곳이 많아 용수 공급 기능을 상실하거나 농업용수 공급 및 유지관리 측면에서 비효율성이 지속되고 있다(Kim et al., 2020). 그럼에도 불구하고 관리인력과 예산 부족 등의 문제로 저수지의 관리 및 저수량 계측이 체계적으로 이루어지지 않고 있다.
특히 국내에서 계절성·국지성 폭우빈도가 증가하고 있으며, 농업용 저수지는 댐과 달리 물을 빠르게 방류할 수 있는 수문이 설치되어 있지 않은 경우가 많아 홍수 조절 측면에서 농업용 저수지의 불안정성이 크다(Noh and Lee, 2014). 공사 관리 농업용 저수지 중 저수량이 100만 m3 이상인 저수지는 용수의 빠른 방류를 도와주는 비상수문이 설치되어 있으나, 대부분이 여수토와 여수로 등을 통해 일정 수위를 넘어선 여분의 물이 흘러가는 시스템으로 설계되어 있어 폭우 시 월류로 인한 붕괴 위험에 취약하다(Noh and Lee, 2014). 이에 한국농어촌공사 등 여러 기관에서 저수지의 체계적인 관리를 위해 자동 수위 관측기를 설치하여 저수위 및 저수량의 자료를 획득하고자 했으나, 비용으로 인한 설치 미비 및 수위 계측 지점이 충분하지 않은 점 등과 같은 문제들로 현재까지 국내 저수지 자원의 효율적인 관리에 어려움을 겪고 있다(Jeong et al., 2021).
최근에는 지점 관측의 시·공간적인 한계를 극복하기 위해 인공위성 기반의 원격탐사 기술을 활용하여 저수지와 같이 광역적으로 분포하는 목표물에 대해 정기적인 모니터링을 할 수 있는 기술에 대한 연구가 활발히 진행되고 있다(Li et al., 2022; Kseňak et al., 2022). 합성개구레이더(synthetic aperture radar, SAR) 영상은 위성의 레이더에 방출된 마이크로파 (microwave)가 지표면에서 반사된 후방산란계수(backscattering coefficient)를 통해 수체를 탐지하는 원리로 구름, 눈과 같은 기상현상의 영향을 적게 받기 때문에 장기간 모니터링에 적합하다. 저수지를 대상으로 한 선행 연구들을 SAR 영상에 임계값 기법을 적용하여 수표면적을 추출하였고 저수 면적 변화와 저수량(율) 관계를 분석하거나(Jang et al., 2011; Jeong et al., 2021), support vector machine (SVM), random forest (RF), artificial neural network (ANN) 등의 학습 기반의 알고리즘과 히스토그램 기반 분할기법들을 이용하여 각 방법에 대한 수표면적 탐지 성능을 비교하였다(Jeong et al., 2022). 그러나 이러한 기존의 방법들은 기술적 또는 활용성 측면에서 여러 한계점을 지니고 있다. 히스토그램 기반의 임계값 설정은 노이즈, 조도 변화, 수표면적의 크기 및 질적인 변화 등 다양한 요인에 민감하게 반응하여 일관된 결과를 얻기 어렵고 (Otsu, 1979; Bangira et al., 2019) 특정 조건에서는 적합한 임계값을 찾기 어렵다. 또한 기계학습 기반의 알고리즘들은 환경에 따라 최적의 성능을 위해 여러 복잡한 파라미터들을 수동으로 조정해야 하는 경우가 많으며, 복잡한 데이터셋에 대한 반복적인 실험을 필요로 한다(Janiesch et al., 2021). 특히, 위성 영상에서의 미세한 변화나 노이즈 같이 고차원 및 비선형적 데이터패턴을 학습하는데 한계를 보이거나(Janiesch et al., 2021; Sujatha et al., 2021), 영상의 공간적 맥락을 잘 반영하지 못하여 다양한 저수지에 대한 적용이 부족하다.
이후 convolution neural network (CNN)를 활용하여 화소 또는 화소군 간의 공간적 맥락을 반영하는 의미론적 영상분할(semantic segmentation) 기반의 수체 탐지 연구가 진행되고 있다(Zhang et al., 2021). CNN은 이동창 방식의 컨볼루션 레이어(covolution layer)로 영상의 특징을 추출하고, 풀링 레이어(pooling layer)에서 차원 축소를 통해 영상 특징을 요약한다. 이러한 컨볼루션과 풀링을 순차적으로 배열하여 특징맵(feature map)을 생성하는 구조를 가지고 있으며, 복잡한 패턴을 학습하고 핵심 특징을 추출하여 영상 내 수체의 정밀한 형태를 추출할 수 있다(Albawi et al., 2017). 최근 컴퓨터비전 분야에서는 CNN보다 더 앞선 기술로 Transformer 모델이 등장하였고, 셀프어텐션(self-attention) 메커니즘을 활용하여 입력 영상의 채널 및 영역에 따라 중요한 특징을 선택적으로 집중함으로써 높은 인식 정확도를 달성하였다(Vaswani et al., 2017; Dosovitskiy et al., 2020). 또한 계층적 이동창(shifted window) 방식으로 셀프어텐션을 더욱 효과적으로 적용한 Shifted Windows Transformer (Swin Transformer) 모델은 기존의 CNN 모델이나 초기의 Vision Transformer 모델에 비해 상당한 성능 향상을 보이며, 영상 인식 작업에서 높은 정확도를 달성하고 있다(Liu et al., 2021).
이러한 맥락에서 본 연구는 최신의 딥러닝 모델인 Swin Transformer와 Sentinel-1 SAR 영상을 활용하여 국내 농업용 저수지의 수표면적을 더욱 향상된 정확도로 산출하는 방법을 제안한다. 국내의 저수지에 대한 선행 연구는 임계치 또는 기계학습 방법이 주로 활용되었고 CNN 적용 사례도 적은 상황이지만, 본 연구에서는 이보다 더 나아가 여러 버전의 Swin Transformer 모델을 최적화하여 다양한 크기에 저수지에 대한 수표면적 탐지 성능을 최대화시킴으로써 저수지 모니터링의 효율성 향상에 기여하고자 한다.
2. 연구자료 및 방법
2.1. 연구지역
연구대상 저수지는 총 7개소로 유효저수량(톤)으로 구분하면, 70만톤급 달전(DJ), 대도(DD), 유계(YG) 저수지와 90만톤급 신리(SR), 용덕(YD) 저수지 그리고 150만톤급 천태(CT), 감돈(GD) 저수지이다. 저수지의 제원은 Table 1, 저수지 위치는 Fig. 1(a)에 제시되었다. 연구대상 저수지들의 수표면적과 가장 연관도가 높은 만수면적은 최소 8.1 ha에서 최대 40 ha까지 분포한다. Fig. 1(b)는 각 저수지의 광학영상과 고수위 기간 중 Sentinel-1 입력영상 그리고 레이블 영상이고, 해당 날짜의 Sentinel-1 위성영상과 저수지의 수위 정보를 Table 2에 제시하였다. 각 저수지에 대한 보다 자세한 제원은 농촌용수종합정보시스템 RAWRIS (https://rawris-am.ekr.or.kr/wrms/)와 한국농어촌공사 농업기반시설제원저수지(https://www.data.go.kr/data/15044339/fileData.do)에서 확인할 수 있다.
Table 1. Specifications of target reservoirs
Table 2. List of Sentinel-1 images presented in Fig. 1(b) and the reservoir water levels for the corresponding dates
Fig. 1. Reservoir locations and satellite imagery. (a) Locations of the reservoirs in the study area. (b) Google basemap images, Sentinel-1 featuring 3-band (VV, VH and IA) images, and the label images for the reservoirs.
2.2. Sentinel-1 SAR 데이터
Sentinel-1 SAR 영상은 European Space Agency에서 해양 및 육지의 지속적인 레이더 매핑을 위해 발사된 위성으로 동일한 궤도를 공유하는 Sentinel-1 A/B로 구성된다(Torres et al., 2012). C-band (5.405 GHz)의 이중 편파(dual-polarization) SAR는 능동형마이크로파 센서(active microwave sensor)로 주·야간, 역광 등 일조현상과 기상조건에 구애받지 않고 관측이 가능하다. Sentinel-1 A/B는 6~12일의 시간 해상도와 10 m, 25 m, 40 m의 공간해상도를 지니고 있다. Sentinel-1 B 위성은 2022년 8월 3일 공식적으로 작동이 불가능해짐에 따라 현재는 Sentinel-1 A로만 운용되고 있다. Sentinel 자료는 자료 획득 모드에 따라 Strip Map (SM), Interferometric Wide (IW) Swath, Extra-Wide (EW) Swath, Wave (WV)의 4가지 모드로 구분된다. 본 연구에서는 구글 어스 엔진 (google earth engine, GEE)에서 제공하는 IW 모드의 ground range detected (GRD) 레벨 1자료를 사용하였으며(Puttinaovaratet al., 2015), 2017년 1월부터 2021년 12월까지 총 2,528장(달전 268장, 대도 288장, 유계 287장, 신리 379장, 용덕 277장, 천태 329장, 감돈 322장), 10 m의 공간해상도의 SAR 이미지를 산출하였다(Table 3). 산출된 이미지는 VV, VH 편파 밴드와 입사각(incidence angle, IA) 값을 포함하는 3밴드의 이미지로, 딥러닝 모델의 입력 영상으로 활용되었다. VV 및 VH 편파는 표면 거칠기(surface roughness)가 작은 물보다 표면 거칠기가 큰 땅에서 후방산란계수가 증가하므로 선행연구에서는 이러한 특성을 활용하여 물과 땅을 분별하였다(Ferrentino et al., 2020; Geng et al., 2021; Stonevicius et al., 2022). 입사각(IA)은 SAR 이미지의 밝기와 후방산란 특성에 영향을 미치며, 입사각이 증가함에 따른 후방산란 특성의 변화는 이미지 해석에 중요한 역할을 한다(Small, 2011).
Table 3. Characteristics of collected Sentinel-1 SAR images for target reservoirs
VV, VH, IA 3밴드는 모두 GEE를 통해 획득하였는데, GEE의 전처리 과정은 궤도 보정(orbit data update), 노이즈 제거(noise removal), 방사보정(radiometric calibration), 지형보정(terrain correction)의 단계를 포함한다(Filipponi, 2019; Mullissa et al., 2021). VV와 VH 편파영상에는 다양한 산란원으로부터 무작위적인 간섭에 의해 스페클 노이즈(speckle noise)가 종종 발생하는데(Singh and Shree, 2016), 주로 지면의 다양한 특성에 따라 반사 신호의 차이가 크게 나타나기 때문이다. 이는 SAR 영상의 선명도를 저하시켜 물체 탐지나 분류 정확도를 낮추는 주요 원인이다(Lopes et al., 1990; Lee et al., 1999). 본 연구에서는 추가적으로 VV, VH 편파 영상에의 스페클 노이즈 제거를 위해 Block Matching and 3D Filtering (BM3D) 방법을 적용하였다. 유사한 이미지 블록들을 그룹화하여 3D 배열을 생성하고, 이를 대상으로 협업 필터링을 수행하여 노이즈를 제거한다(Dabov et al., 2007). 필터링 첫 단계에서는 각 이미지 블록을 다른 블록들과 비교하여 유사한 블록들을 그룹화하고, 이산 웨이블릿 변환(discrete wavelet transform, DWT)과 임계값 적용을 통해 노이즈를 줄인다. 이어서 Wiener filtering 단계에서는 첫 번째 단계의 출력을 기반으로 노이즈를 더욱 정밀하게 제거하고 이미지를 복원한다. 데이터셋에서 임계값은 영상의 정보 손실을 최소화하면서 잡음을 감소시키기 위한 반복실험을 통해 설정되었으며, 노이즈의 표준편차를 나타내는 Noise Power Spectral Density (PSD)를 2.3으로 하여 필터링을 수행하였다(Fig. 2). Table 3은 대상 저수지별 영상 촬영 기간, 개수, 크기, 입력 밴드 종류와 전처리후각 밴드별 표준편차와 평균 값을 나타낸다.
Fig. 2. Senitnel-1 ground range detected (GRD) preprocessing workflow from Google Earth Engine.
2.3. Deep Learning Network
Swin Transformer는 데이터의 연관성을 강화하며, 고유의 메커니즘을 통해 필요한 이미지 영역과 채널에 대해 차별적으로 참조할 수 있게 해준다. 이 고유한 매커니즘이 이미지 인식 작업에서 정확도와 효율성을 크게 향상시키는 역할을 한다(Kim et al., 2022). 첫 번째 레이어 채널 수 및 레이어 수에 따라 Tiny (Swin-T), Small (Swin-S), Base (Swin-B), Large (Swin-L)로 나뉘는데 본 연구에서는 Swin-L를 백본(backbone)으로 사용하고, Unified Perceptual Parsing Network (UPerNet)을 디코더 헤드(decoder head)로 채택하여 저수지 수체 탐지와 의미론적 분할을 수행하는 모델을 개발하였다.
2.3.1. Swin Transformer Backbone
Swin Transformer는 초기 단계에서 원본 입력 이미지(높이 H, 너비 W 및 채널 수 C의 3차원 텐서 형태)를 소규모 패치로 세분화한다. 주어진 패치의 크기는 4 × 4이며, RGB 이미지를 예로 들면, 각 패치는 4 × 4 × 3의 차원을 가지며 이는 총 N개의 패치와 48의 차원을 형성한다. 이 패치들은 이미지의 일부를 대표하나, Transformer 모델에 직접 투입되기에는 적합하지 않은 형태이다. 따라서, 각 패치는 선형 임베딩(linear embedding) 과정을 거쳐 d-차원 벡터로 재구성되어 Swin Transformer 블록으로 이동한다. 각 블록은 LayerNorm (LN) 층, Window-based Multi-Head Self Attention (W-MSA), Shifted Window-based Multi-Head Self Attention (SW-MSA), 그리고 Multi-Layer Perceptron (MLP)으로 이루어져 있어 순차적으로 학습의 안정화를 돕는다. 또한, 각 모듈 이후에는 잔차 연결(residual connection)이 도입되어, 모델 성능을 최적화하며, 이 과정은 아래 수식을 통해 표현될 수 있다.
\(\begin{aligned}\hat{z}^{l}=W-\operatorname{MSA}\left(L N\left(z^{l-1}\right)\right)+z^{l-1}\end{aligned}\) (1)
\(\begin{aligned}z^{l}=M L P\left(L N\left(\hat{z}^{l}\right)\right)+\hat{z}^{l}\end{aligned}\) (2)
\(\begin{aligned}\hat{z}^{l+1}=S W-M S A\left(L N\left(z^{l}\right)\right)+z^{l}\end{aligned}\) (3)
\(\begin{aligned}z^{l+1}=\operatorname{MLP}\left(L N\left(\hat{z}^{l+1}\right)\right)+\hat{z}^{l+1}\end{aligned}\) (4)
여기서, \(\begin{aligned}\hat{z}^{l}\end{aligned}\)과 zl는 블록 l에서의 W-MSA, SW-WMS와 multilayer perception (MLP)의 출력을 나타낸다. 이 수식에서 각 입력은 layer norm (LN)에 의해 정규화 된다.
W-MSA 메커니즘은 각 패치가 해당 지역적 이웃들과만 셀프어텐션을 수행하도록 제한함으로써 계산 복잡성을 최소화한다. 이 방식은 패치가 국부적 컨텍스트를 효과적으로 포착할 수 있도록 지원한다. 그러나 W-MSA는 패치들이 그들의 지역적 이웃들과만 정보를 교환할 수 있기 때문에, 윈도우(window) 간 정보 교환이 제한적이라는 한계를 가지고 있다. 이를 극복하기 위해, SW-MSA 메커니즘이 도입되었다. 이 방식은 W-MSA의 연속으로 수행되며, 윈도우 내 패치들의 위치를 순환적으로 이동시키는 순환시프트(cyclic shift) 연산을 포함한다. 이동된 패치들은 이미지 경계를 넘어가면 반대편으로 이동되며, 이 과정을 통해 각 패치는 이전 단계에서 고려되지 않았던 이웃 패치들과의 정보를 공유하게 된다(Liu et al., 2021). SW-MSA 단계 후, 이동된 윈도우 내에서 셀프 어텐션이 다시 수행되며, 각 패치는 추가적인 정보를 얻게 된다. 이 기술은 전체 이미지에 대한 정보 교환을 개선하고, 이미지의 전반적인 컨텍스트 이해를 강화한다.
Stage 2의 Swin Transformer 블록으로 이동하기 전에 patch merging 단계가 수행된다. 이 단계에서 인접한 (2 × 2) 패치들이 병합되어 하나의 super-patch를 생성하며, 차원은 4C로 확장된다. 이후 linear layer를 통과하여 차원이 2C로 조정된 후, Swin Transformer 블록을 다시 통과하며 셀프어텐션 계산이 완료된다. 모델 구조 대한 구체적인 그림을 Fig. 3에서 확인할 수 있으며, 각 단계에서의 출력 크기 및 모델 설정은 Table 4에 제시하였다.
Table 4. Swin Transformer large stage specifications and operations
Fig. 3. Swin Transformer encoder architecture: Converting satellite images (H × W × 3) to multi-scale feature maps.
윈도우 크기는 Swin Transformer 모델의 특성 포착 능력 및 학습 동작에 큰 영향을 끼치는 요소이다. 작은 윈도우 사이즈는 높은 지역적 컨텍스트를 집중하여 세밀한 특성을 포착하는데 유리하며 계산 복잡도가 비교적 감소한다. 그러나 각 패치가 소수의 이웃들과 정보를 교환하므로 큰 윈도우 사이즈에 비해 성능이 저하될 수 있다. 반면, 큰 윈도우 사이즈는 더 넓은 영역의 정보를 동시에 고려하여 글로벌 컨텍스트를 더 잘 이해하고 이미지의 다양한 부분에서 픽셀간 관계를 더욱 효과적으로 학습하여 전반적인 성능을 향상시키지만, 계산 복잡도를 증가시키고 학습 속도가 저하될 수 있다(Liu et al., 2021). 다음 식(5)와 식(6)은 멀티헤드 셀프어텐션과 윈도우기반 셀프어텐션의 연산량을 계산하는 수식이다.
Ω(MSA) = 4hwC2 + 2(hw)2C (5)
Ω(W – MSA) = 4hwC2 + 2M2hwC (6)
각 변수들의 의미는 다음과 같다:
h : attention head의 수
w : 각 attention head 내의 width
C : feature의 차원 수
M : window size
W-MSA는 윈도우 내에서의 MSA의 연산량을 의미한다. MSA와 다르게 윈도우 내에서만 연산이 수행되기 때문에 어텐션 점수 계산의 연산량이 2M2 hwC로 변경되었다. 즉, M (window size)가 커질수록, 윈도우 내에서의 토큰 간의 관계를 계산하기 위한 연산량이 증가하게 된다(Liu et al., 2021). 그러므로 윈도우 사이즈 선택은 학습 효율성과 성능 간의 균형을 맞추는데 중요한 요소로 작용할 수 있으며, 본 연구에서는 윈도우 사이즈에 대한 모델의 성능을 확인하였다.
2.3.2. UperNet Decoder
Unified Perceptual Parsing Network (UPerNet)은 이미지를 세분화하여 여러 부분과 픽셀 수준의 레이블을 할당하는 역할을 하는 네트워크이다. 이 네트워크는 Feature Pyramid Network (FPN)와 유사한 아키텍처를 특징으로 하지만, 다양한 스케일의 공간 해상도를 가진 특징맵을 생성하는 FPN과는 달리, UPerNet은 일정한 해상도의 특징맵을 생성한다. 이 과정에서, 스케일 간 정보 교환을 활용하여 모든 스케일에서 고정된 해상도의 특징맵을 생성한다.
Swin Transformer의 백본에서 출력된 네 가지 특징맵은 UPerNet 헤드로 전송되어 디코딩 과정의 입력으로 사용된다. Stage 4에서 생산된 가장 고해상도의 특징맵은 Pyramid Pooling Module (PPM)을 통과하게 되는데, 이 PPM은 1×1, 2×2, 3×3, 6×6의네개 계층으로 구성되어 있다. 이 단계에서 평균 풀링과 1×1 컨볼루션이 다양한 스케일에 적용되며, 그 결과 생성된 특징맵들은 원래의 해상도로 업샘플링 된다. 이렇게 생성된 특징맵들은 원래의 특징맵과 병합되며, 이후 3×3 컨볼루션을 통해 합쳐져 하나의 특징맵을 형성한다.
결합된 특징맵(P5)은 FPN 구조를 통과하여, 다양한 스케일의 특징맵이 수직으로 통합된다. 이 후, 1×1의 Lateral convolution을 통해 수평으로 통합되어, 다양한 스케일에서 다운샘플링(4, 8, 16, 32)이 적용된 P2, P3, P4, P5 특징맵들이 생성된다. 최종적으로, 이 특징맵들은 P2 특징맵과 동일한 해상도로 업샘플링되고 통합되며, 1×1 Convolution을 통해 segmentation 맵이 도출된다(Fig. 4).
Fig. 4. UPerNet decoder architecture: Processing through Swin Transformer and feature pyramid network to output segmentation map.
2.4. 훈련 전략
GEE 플랫폼을 통해 이미지 데이터셋을 구축하고 70만톤급, 90만톤급, 그리고 150만 톤 급의 각톤급 별로 1개소씩 달전, 용덕, 감돈 저수지들을 제외하고 나머지 저수지 데이터셋을 이용하여 모델을 학습하였다(Fig. 5). DD, YG, SR 그리고 CT 저수지 영상은 1,283 장으로 이를 셔플링(shuffling) 하여 K폴드(fold) 교차검증(Kohavi, 1995)을 적용하였다(K=5). 5개의 폴드마다 훈련(train) 820장, 검증(validation) 205장, 시험(test) 257장으로 구성된 입력 데이터셋을 생성하였다. 데이터 효율성 면에서 볼 때, K폴드 교차검증은 개별 데이터가 정확히 한 번은 테스트 셋으로, 나머지 K-1번은 훈련 셋으로 사용하여 데이터를 활용도를 높이기 때문에, 데이터가 많지 않은 상황에서도 과적합(overfitting)을 방지하는 모델을 수립할 수 있다(Kohavi, 1995; Arlot and Celisse, 2010). 본 연구에서는 훈련 데이터셋에 영상자료증강(image data augmentation)을 적용하여 학습 데이터셋의 크기를 2배로 증가시켜 훈련 및 성능평가를 수행하였다.
Fig. 5. Overview of research workflow: Dataset preparation, model training strategy, and performance evaluation.
2.4.1. 데이터 증강
데이터 증강은 모델의 일반화 능력을 향상시키며, 본 연구에서는 훈련 데이터의 다양성을 증가시키기 위해 horizontal flip, vertical flip, random rotate, shift scale rotate 등의 기하학적 변환을 사용하였다(Fig. 6).
Fig. 6. Image augmentation using horizontal flip, vertical flip, random rotate 90, and shift scale rotate.
2.4.2. 모델 학습 파라미터 설정
전이학습(transfer learning) 효과를 위해 ADE20K 데이터셋으로 사전학습(pretrained) 된 모델을 사용하였으며, 옵티마이저(optimizer)는 AdamW, 학습률(learning rate)은 0.00006, weight decay는 0.005, β1=0.9, β2=0.999, max iterations는 60,000, batch size 4 등의 하이퍼파라미터는 Poly strategy 최적화 과정을 통해 설정되었다. Table 5에 모델 파라미터와 입력 이미지 특징에 대해 제시하였다.
Table 5. Hyperparameter setting for the water-body detection model
2.5. 모델 평가 방법
Swin Transformer의 수체 탐지 성능평가를 위해 시험 데이터셋을 활용해 정확도(accuracy), mIoU, F1-score, 정밀도(precision), 재현율(recall)를 계산하였다. 수체 또는 배경의 이진 분류에서, 모델에 의한 예측 결과와 실제 레이블 간의 상관 관계는 True Positive (TP), True Negative (TN), False Positive(FP), False Negative (FN)로 구성된 혼동 행렬(confusion matrix)을 통해 표현될 수 있으며(Fig. 7), 각 지표의 높은 값은 모델의 성능이 우수함을 의미한다(Sokolova and Lapalme, 2009). 평가 과정에서 가장 뛰어난 성능을 보인 모델은, 학습 과정에 포함되지 않았던 5년 간의 Sentinel-1 저수지 데이터셋에 대한 예측이 수행되었다. 이를 통해, 선택된 모델이 새로운 데이터에 대해서도 안정적인 성능을 보이는지 확인하였다.
Fig. 7. Confusion matrix and the test measures for image segmentation. (a) confusion matrix and metric formulas. (b) IoU and mIoU calculation.
3. 결과 및 토의
3.1. 전처리 및 윈도우 크기에 따른 결과 비교
Swin Transformer의 성능을 평가하기 위해 스페클 노이즈 제거, 데이터 증강, 그리고 모델의 윈도우 크기 등 다양한 실험 조건을 적용하여 조사하였다. 실험은 Sentinel-1 영상의 3 밴드(VV, VH, IA) 원본 이미지와 스페클 노이즈 제거와 기하학적 변환 증강 기법을 적용하여 전처리된 이미지 데이터셋 모두에 대해 윈도우 크기 7과 12를 적용하여 수행되었으며, 정확도, 수체 IoU, mIoU, F1-score, 재현율, 정밀도 등의 성능 지표를 측정하였다. 스페클 필터가 적용된 이미지에서 BM3D 알고리즘(PSD=2.3)이 사용되었으며, 데이터셋 크기는 기하학적 변환 증강을 통해 기존 820장에서 1640장으로 두배 증강시켰다.
실험 결과, 스페클 노이즈 필터 적용 여부와 윈도우 크기와는 큰 상관없이 우수한 성능을 보여주었다. 입력 이미지에 전처리를 수행한 데이터셋의 결과는 윈도우 사이즈가 7인 모델의 경우, mIoU 값이 94.93%으로 전처리를 수행하지 않은 데이터셋에 비해 0.01% 향상되었으며, 수체 클래스에 대한 IoU가 0.05% 증가하였다. 윈도우 사이즈가 12인 모델의 경우엔 mIoU 값이 전처리 후 데이터셋에서 94.94%로 전처리를 수행하지 않은 데이터셋에 비해 마찬가지로 0.01% 증가하였으며, 수체 클래스에 대한 IoU는 0.04%가량 증가하였다.
3.2. 5폴드 교차검증 결과 분석
전처리가 적용된 영상을 사용하여 윈도우 크기 별로 훈련된 Swin-L 모델의 성능을 평가하기 위해 5폴드 교차검증을 수행했다. Table 7에서, 윈도우 크기가 7일 때와 12일 때의 모델의 성능을 비교했을 때, 모든 폴드에서 유사하게 높은 성능을 보여주며, 윈도우 크기에 따른 성능 차이는 본 연구 데이터셋에서는 매우 미미한 것으로 나타났다. 이 결과는 윈도우 크기 변화가 모델 성능에 큰 영향을 주지 않았음을 시사하며, 윈도우 크기가 증가함에 따라 글로벌 컨텍스트의 이해가 향상되어 성능이 소폭 향상될 수 있으나, 이러한 향상은 데이터 셋의 특성, 분포 및 훈련 과정에서 설정된 다양한 하이퍼파라미터와 최적화 전략에 크게 좌우될 수 있다.
Table 6. Performance metrics of Swin Transformer large: Impact of speckle filtering, window sizes, and augmentation methods (Unit: %)
Table 7. Swin Transformer large: Evaluation of window sizes over five folds with preprocessed dataset (Unit: %)
윈도우 크기는 Swin Transformer 모델의 성능에 일정한 영향을 미칠 수 있지만, 본 연구에서 사용된 데이터 셋과 실험 설정 상에서 그 영향은 제한적이었다. 그럼에도 불구하고, 윈도우 크기 12에서의 모델이 평균적으로 약간 더 높은 성능을 보였다. 특히, 윈도우 크기가 12인 경우 중 성능이 가장 뛰어난 4번 폴드의 의미론적 분할 결과를 Fig. 7에 제시하였다. Fig. 7은 시험 데이터셋에서 위성영상의 저수지별 수표면적 변화의 직관적인 비교를 위해 저수면적이 적은 날과 높은 날의 위성 영상을 시각화 하였다. 시각화 된 결과에서 볼 수 있듯이, 모델은 수체 영역에 대해 매우 높은 정확도로 배경과 구분할 수 있었다. 특히, 그림자 영역의 후방산란값이 수체와 유사하게 나타나더라도, 모델은 이를 정확히 식별하고, 수체 영역에 대해서는 세밀한 분석이 가능함을 확인할 수 있다.
3.3. 신규 저수지 데이터셋을 활용한 모델 성능 평가
학습 데이터셋에 포함되지 않은 신규 저수지 데이터 셋에서 모델의 일반화 성능을 검증하기 위하여, 저수지의 크기 및 지역적 특성을 고려하여 달전, 용덕, 감돈 저수지의 2017-2021년 영상을 준비하고, 앞서 도출된 최적 성능 모델로 이를 평가하였다. 신규 데이터셋을 활용한 평가는 모델의 실제 환경에서의 적용 가능성과 한계를 보다 명확하게 이해하는데 도움을 제공하며, 이 평가를 통해 본 연구가 위성 영상 데이터를 활용한 딥러닝 기반의 수표면적 탐지 기법이 실제 환경에서 수체 변화 모니터링에 효과적인지를 객관적으로 판단할 수 있다. Table 8은 저수지의 유효저수량 크기별로 분류된 저수지의 성능 지표를 보여준다. 각 저수용량별로 정확도, mIoU, F1-score, 재현율 및 정밀도 값을 구하였다. 저수용량 70만톤급(700K-ton)의 달전(DJ) 저수지의 경우, 정확도는 99.65%, mIoU는 94.32%, F1-score는 97.00%, 재현율은 99.14%, 그리고 정밀도는 95.05%로 나타났다. 다음으로, 90만톤급(900K-ton)의 용덕(YD) 저수지에서는 각각 99.40%, 95.40%, 97.60%, 97.05%, 98.18%의 성능을 보여주었으며, 150만톤급(1.5M-ton)의 감돈(GD) 저수지에서는 99.15%, 95.58%, 97.71%, 97.50%, 97.92%의 결과가 관측되었다.
Table 8. Performance metrics of reservoirs grouped by capacity size (Unit: %)
Fig. 8. Comparisons of the ground truth and predictions by Swin Transformer Large (window 12) for varying waterbody sizes for multiple reservoirs.
본 연구의 분석 결과는 여러 저수지들, 각각이 다른 저수용량 및 형태의 특성을 가지고 있음에도 불구하고, 모델이 높은 정확도와 함께 일관된 성능을 보여주었음을 시사한다. 특히, 모든 저수지에서 95% 이상의 높은 정밀도 값과 재현율 값을 기록하였으며, mIoU는 학습 데이터에 대한 성능 평가 결과와 상응하는 94% 이상의 높은 값을 보여주었다. 모델의 성능을 시각적으로 확인하기 위해, 각 모델별 예측 결과를 Fig. 9에 제시하였다. 이 그림에서는 저수지의 수면적이 크게 변화하는 시점을 대표하여, 특히 수면적이 작았던 날과 크게 증가한 날의 결과를 비교하여 제시하였다.
Fig. 9. Comparisons of the ground truth and predictions by Swin Transformer Large (window 12) for varying waterbody sizes for DJ, YD, and GD reservoirs.
신규 저수지 데이터셋을 활용한 모델 성능 평가 결과는 이전의 학습 데이터셋에 기반한 결과에 상응하는 성능을 보였다. 모델은 수체와 비수체 영역의 구분에 있어서 상당히 높은 정확도를 나타냈으며, 이는 학습 과정에서 얻은 패턴을 신규 데이터셋에도 효과적으로 적용하였음을 의미한다. 그러나, 몇몇 경우에는 입력 영상의 품질 저하와 해상도의 한계로 인해 세부적인 탐지에 어려움이 있었다. 이러한 문제는 세밀한 경계 구분이나 수로와 같은 규모가 작은 물체의 탐지에서 나타났다. 세밀한 변화에 대한 일부 한계점은 있었지만, 전반적으로 본 연구의 모델은 수면의 주요 변화를 감지하는 데 큰 장점을 가지고 있다. 그 중에서도, 주목할 점은, 최대 만 수면적이 15.1ha인 달전 저수지에서도 모델의 성능이 일관되게 유지되었다는 점이다. 모델은 달전 저수지에서 최소 2.2ha까지의 수체면적 감소를 정밀하게 탐지하였고, 이는 본 연구의 모델이 다양한 크기의 저수지에서도 효과적으로 작동할 수 있음을 보여주었다.
4. 결론
본 연구는 2017년부터 2021년까지의 기간 동안 Sentinel-1 SAR 영상과 딥러닝 모델인 Swin Transformer를 활용하여 농업용 저수지의 수체 탐지를 수행하였다. GEE 플랫폼을 통해 대상 저수지의 Sentinel-1 영상 데이터셋을 확보하고 추가적으로 스페클 노이즈를 제거하였으며, 수체와 비수체 간의 후방산란 계수 차이를 기반으로 수체 탐지 모델을 구성하였다. 스페클 노이즈 필터링이나 윈도우 크기에 따른 성능의 차이는 크지 않았지만, 5폴드 교차검증에서 모든 모델이 정확도 99% 이상, mIoU 94% 이상의 높은 성능을 나타냈다. 또한, 모델의 일반화 성능을 검증하기 위해, 학습에 사용되지 않은 2017년부터 2021년까지의 새로운 영상에 대한 수체 탐지 실험에서도 역시 정확도 99% 이상, mIoU 94% 이상의 높은 성능을 보였으며, 이는 국내 중소규모 저수지를 대상으로 수표면적 탐지 연구를 수행한 이전 연구(Choi et al. 2022)에 비해 약 13%의 정확도 향상을 타나낸 것인다. 10미터 해상도의 Sentinel-1 영상으로 매우 작은 규모의 저수지 탐지는 어렵겠지만, 수표면적의 전반적인 변화에 대한 12일 주기의 정기적인 모니터링이 가능하다는 점은 매우 고무적이다.
향후 연구 방향으로는 그림자와 같은 혼동 가능성이 있는 특징에 대한 모델의 탐지 성능을 개선하기 위해 Digital elevation model (DEM) 등과 같은 지형 정보를 추가적으로 포함하여 모델의 학습을 강화할 필요가 있다(Jeon et al., 2020). 또한, 안정적인 정확도로 수표면적 데이터를 축적하게 될 경우, 미계측 저수지에 대한 수위 및 수량 추정에도 활용할 수 있을(Jeong et al., 2021) 것으로 기대된다.
사사
본 연구는 행정안전부 국립재난안전연구원의 지원(위성자료를 이용한 전국 저수지 수표면적 분석·가시화 기술 개발)에 의해 수행되었으며, 이에 감사드립니다. 이 논문은 행정안전부 지능형상황관리 기술개발사업의 지원을 받아 수행된 연구이며(2021-MOIS37-002), 이에 감사드립니다.
Conflict of Interest
No potential conflict of interest relevant to this article was reported.
References
- Albawi, S., Mohammed, T. A., and Al-Zawi, S., 2017. Understanding of a convolutional neural network. In Proceedings of the 2017 International Conference on Engineering and Technology (ICET), Antalya, Turkey, Aug. 21-23, pp. 1-6. https://doi.org/10.1109/ICEngTechnol.2017.8308186
- Arlot, S., and Celisse, A., 2010. A survey of cross-validation procedures for model selection. arXiv preprint arXiv:0907.4728. https://arxiv.org/abs/0907.4728
- Bangira, T., Alfieri, S. M., Menenti, M., and Van Niekerk, A., 2019. Comparing thresholding with machine learning classifiers for mapping complex water. Remote Sensing, 11(11), 1351. https://doi.org/10.3390/rs11111351
- Choi, S. Y., Youn, Y. J., Kang, J. G., Park, G. H., Kim, G. H., Lee, S. C. et al., 2022. An artificial intelligence approach to waterbody detection of the agricultural reservoirs in South Korea using Sentinel-1 SAR images. Korean Journal of Remote Sensing 38(5-3), 925-938. https://doi.org/10.7780/kjrs.2022.38.5.3.10
- Dabov, K., Foi, A., Katkovnik, V., and Egiazarian, K., 2007. Image denoising by sparse 3-D transform-domain collaborative filtering. IEEE Transactions on Image Processing, 16(8), 2080-2095. https://doi.org/10.1109/TIP.2007.901238
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T. et al., 2020. An image is worth 16x16 words: Transformers for image recognition at scale. ArXiv preprint arXiv:2010.11929. https://arxiv.org/abs/2010.11929
- Ferrentino, E., Nunziata, F., Buono, A., Urciuoli, A., and Migliaccio, M., 2020. Multipolarization time series of Sentinel-1 SAR imagery to analyze variations of reservoirs' water body. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 13, 840-846. https://doi.org/10.1109/JSTARS.2019.2961563
- Filipponi, F., 2019. Sentinel-1 GRD preprocessing workflow. Proceedings, 18(1), 11. https://doi.org/10.3390/ECRS-3-06201
- Geng, X., Shi, L., Yang, J., Li, P., Zhao, L., Sun, W., and Zhao, J., 2021. Ship detection and feature visualization analysis based on lightweight CNN in VH and VV polarization images. Remote Sensing, 13(6), 1184. https://doi.org/10.3390/rs13061184
- Jang, M. W., Lee, H. J., Kim, L. H., and Hong, S. Y., 2011. Application of satellite SAR imagery for estimating reservoir storage. Journal of the Korean Society of Agricultural Engineer, 53(6), 7-16. https://doi.org/10.5389/KSAE.2011.53.6.007
- Jeong, H. G., Park, J. S., Lee, D. G., Lee, J. W., 2022. A comparative study of reservoir surface area detection algorithm using SAR image. Korean Journal of Remote Sensing, 38(6), 1777-1788. https://doi.org/10.7780/kjrs.2022.38.6.3.3
- Jeong, J., Oh, S., Lee, S., Kim, J., and Choi, M., 2021. Sentinel-1 SAR image-based waterbody detection technique for estimating the water storage in agricultural reservoirs. Journal of Korea Water Resources Association, 54(7), 535-544. https://doi.org/10.3741/JKWRA.2021.54.7.535
- Jeon, H., Kim, D. J., Kim, J., Vadivel, S. K. P., Kim, J., Kim, T., and Jeong, S., 2020. Selection of optimal band combination for machine learning-based water body extraction using SAR satellite images. Journal of the Korean Association of Geographic Information Studies, 23(3), 120-131. https://doi.org/10.11108/kagis.2020.23.3.120
- Kim, H. W., Jang, S. W., Bak, S. H., Gong, S. W., Kwak, J. W., Kim. J. S. et al., 2022. Semantic segmentation of the habitats of Ecklonia Cava and Sargassum in undersea images using HRNet-OCR and Swin-L models. Korean Journal of Remote Sensing, 38(5), 913-924. https://doi.org/10.7780/kjrs.2022.38.5.3.9
- Kim, J. H., Kim, Y. S., and Cho, D. S., 2020. A study on the reinforcement effect analysis of aging agricultural reservoir using surface stabilizer. Journal of the Korean Geosynthetics Society, 19(2), 13-21. https://doi.org/10.12814/jkgss.2020.19.2.013
- Kohavi, R., 1995. A study of cross-validation and bootstrap for accuracy estimation and model selection. In Proceedings of the 1995 14th international joint conference on artificial intelligence (IJCAI), Montreal, Canada, Aug. 20-25, pp. 1137-1145. https://www.ijcai.org/Proceedings/95-2/Papers/016.pdf
- Ksenak, L, Pukanska, K., Bartos, K., and Blistan, P., 2022. Assessment of the usability of SAR and optical satellite data for monitoring spatiotemporal changes in surface water: Bodrog river case study. Water, 14(3), 299. https://doi.org/10.3390/w14030299
- Lee, J. S., Grunes, M. R., and De Grandi, G., 1999. Polarimetric SAR speckle filtering and its implication for classification. IEEE Transactions on Geoscience and Remote Sensing, 37(5), 2363-2373. https://doi.org/10.1109/36.789635
- Lee, S. C., Jeong, J. H., Oh, S. C., Jeong, H. G., Choi, M. H., 2022. Multi-resolution SAR image-based agricultural reservoir monitoring. Korean Journal of Remote Sensing, 38(5), 497-510. https://doi.org/10.7780/kjrs.2022.38.5.1.5
- Li, J., Ma, R., Cao, Z., Xue, K., Xiong, J., Hu, M., and Feng, X., 2022. Satellite detection of surface water extent: A review of methodology. Water, 14(7), 1148. https://doi.org/10.3390/w14071148
- Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z. et al., 2021. Swin Transformer: Hierarchical vision transformer using shifted windows. arXiv preprint arXiv:2103.14030. https://arxiv.org/abs/2103.14030 103.14030
- Lopes, A., Touzi, R., and Nezry, E., 1990. Adaptive speckle filters and scene heterogeneity. IEEE Transactions on Geoscience and Remote Sensing, 28(6), 992-1000. https://doi.org/10.1109/36.62623
- Mullissa, A., Vollrath, A., Odongo-Braun, C., Slagter, B., Balling, J., Gou, Y., Reiche, J. et al., 2021. Sentinel-1 SAR backscatter analysis ready data preparation in Google Earth Engine. Remote Sensing, 13(10), 1954. https://doi.org/10.3390/rs13101954
- Noh, J. J., and Lee, D. W., 2014. Behavior of failure for embankment and spillway transitional zone of agriculture reservoirs due to overtopping. Journal of the Korean Society of Agricultural Engineers, 56(1), 71-79. https://doi.org/10.5389/KSAE.2014.56.6.063
- Otsu, N., 1979. A threshold selection method from gray-level histograms. IEEE Transactions on Systems, Man, and Cybernetics, 9(1), 62-66. https://cw.fel.cvut.cz/b201/_media/courses/a6m33bio/otsu.pdf https://doi.org/10.1109/TSMC.1979.4310076
- Singh, P., and Shree, R., 2016. Analysis and effects of speckle noise in SAR images. In Proceedings of the 2016 2nd International Conference on Advances in Computing, Communication, & Automation (ICACCA), Bareilly, India, Sept. 30-Oct. 1, pp. 1-5. https://doi.org/10.1109/ICACCAF.2016.7748978
- Small, D., 2011. Flattening gamma: Radiometric terrain correction for SAR imagery. IEEE Transactions on Geoscience and Remote Sensing, 49(8), 3081-3093. https://doi.org/10.1109/TGRS.2011.2120616
- Sokolova, M., and Lapalme, G., 2009. A systematic analysis of performance measures for classification tasks. Information Processing & Management, 45(4), 427-437. https://doi.org/10.1016/j.ipm.2009.03.002
- Stonevicius, E., Uselis, G., and Grendaite, D., 2022. Ice detection with Sentinel-1 SAR backscatter threshold in long sections of temperate climate rivers. Remote Sensing, 14(7), 1627. https://doi.org/10.3390/rs14071627
- Torres, R., Snoeij, P., Geudtner, D., Bibby, D., Davidson, M., Attema, E. et al., 2012. GMES Sentinel-1 mission. Remote Sensing of Environment, 120, 9-24. https://doi.org/10.1016/j.rse.2011.05.028
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N. et al., 2017. Attention is all you need. arXiv preprint arXiv:1706.03762. https://arxiv.org/abs/1706.03762
- Zhang, Z., Lu, M., Ji, S., Yu, H., and Nie, C., 2021. Rich CNN features for water-body segmentation from very high resolution aerial and satellite imagery. Remote Sensing, 13(10), 1912. https://doi.org/10.3390/rs13101912