DOI QR코드

DOI QR Code

KOMPSAT Optical Image Registration via Deep-Learning Based OffsetNet Model

딥러닝 기반 OffsetNet 모델을 통한 KOMPSAT 광학 영상 정합

  • Jin-Woo Yu (Department of Geoinformatics, University of Seoul) ;
  • Che-Won Park (Department of Geoinformatics, University of Seoul) ;
  • Hyung-Sup Jung (Department of Geoinformatics, University of Seoul)
  • 유진우 (서울시립대학교 공간정보공학과) ;
  • 박채원 (서울시립대학교 공간정보공학과) ;
  • 정형섭 (서울시립대학교 공간정보공학과)
  • Received : 2023.11.30
  • Accepted : 2023.12.07
  • Published : 2023.12.31

Abstract

With the increase in satellite time series data, the utility of remote sensing data is growing. In the analysis of time series data, the relative positional accuracy between images has a significant impact on the results, making image registration essential for correction. In recent years, research on image registration has been increasing by applying deep learning, which outperforms existing image registration algorithms. To train deep learning-based registration models, a large number of image pairs are required. Additionally, creating a correlation map between the data of existing deep learning models and applying additional computations to extract registration points is inefficient. To overcome these drawbacks, this study developed a data augmentation technique for training image registration models and applied it to OffsetNet, a registration model that predicts the offset amount itself, to perform image registration for KOMSAT-2, -3, and -3A. The results of the model training showed that OffsetNet accurately predicted the offset amount for the test data, enabling effective registration of the master and slave images.

위성 시계열 데이터가 증가함에 따라 원격탐사 자료의 활용도가 높아지고 있다. 시계열 자료를 통한 분석에 있어 영상 간의 상대적인 위치 정확도는 결과에 큰 영향을 미치기 때문에 이를 보정하기 위한 영상 정합 과정은 필수적으로 선행되어야 한다. 최근에는 기존 알고리즘의 성능을 상회하는 딥러닝 기반 영상 정합 연구의 사례가 증가하고 있다. 딥러닝 기반 정합 모델을 학습하기 위해서는 수 많은 영상 쌍이 필요하다. 또한, 기존 딥러닝 모델의 데이터 간의 상관도 map을 제작하고, 이에 추가적인 연산을 적용하여 정합점을 추출는데 이는 비효율적이다. 이러한 문제를 해결하기 위해 본 연구에서는 영상 정합 모델 학습을 위한 데이터 증강 기법을 구축하여 데이터셋을 제작하였고, 이를 오프셋(offset) 양 자체를 예측하는 정합 모델인 OffsetNet에 적용하여 KOMSAT-2, -3, -3A 영상 정합을 수행하였다. 모델 학습 결과, OffsetNet은 평가 데이터에 대해 높은 정확도로 오프셋 양을 예측하였고, 이를 통해 주영상과 부영상을 효과적으로 정합하였다.

Keywords

1. 서론

위성 원격 탐사 자료는 광범위한 영역을 동일한 품질로 지속적으로 제공되어 지상을 모니터링 하는데 활용되고 있다(Zhu, 2017). 특히, 최근 위성들의 재방문 주기가 단축되어 시계열 데이터의 양이 대폭 증가하면서 이에 대한 활용도는 더욱 높아지고 있다, 시계열 자료를 통해 지표의 변화를 정확하게 모니터링 하기 위해서는 시계열 자료 간의 상대적인 위치 정확도가 높아야 한다(Im et al., 2008). 그러나 동일한 지점을 대상으로 촬영한 영상임에도 불구하고, 촬영 시간, 촬영 각도, 촬영 방향에 따라 기복 변위가 서로 다르게 나타나 영상 간의 상대적인 위치 차이가 발생한다(Han et al., 2022). 영상들 사이의 상대적 위치 차이는 변화 탐지의 오차를 발생시키며, 이는 결과를 분석할 때 잘못된 해석을 야기할 수 있다(Lee et al., 2021a). 이러한 이유로 시계열 영상을 통한 정밀한 지구 모니터링을 수행하기 위해서는 영상 정합(image registration) 과정이 반드시 선행되어야 한다.

영상 정합은 주영상(master image)과 부영상(slave image) 간의 기하학적인 관계를 추정하여 서로 다른 시기에 촬영된 영상을 동일한 위치에 정렬하는 것을 의미한다(Kim et al., 2022; Zitova and Flusser, 2003). 일반적으로 영상 정합에는 영역 기반의 정합 기법(area-based image matching)과 특징 기반 정합 기법(feature-based image matching)으로 구분되어 활용되고 있다(Sung et al., 2021). 영역 기반의 정합 기법은 이미지 강도에 중점을 두고 영상 간 유사성을 이용하여 기하학적인 변형을 통해 정합을 수행하며, 특징 기반 정합 기법은 scale-invariant feature transform (SITF)와 같이 고정된 특징점을 추출하고, 이를 통해 영상을 매칭하는 수행하는 기법이다(Bentoutou et al., 2005; Ma et al., 2015). 두 기법은 모두 정합하고자 하는 영상 간의 객체의 유사성과 분광 특성을 기반으로 영상 정합을 수행한다.

최근에는 영상 정합에 딥러닝을 활용하고 있다. 딥러닝 기법은 다양한 영상처리 분야에서 기존의 비 딥러닝 기법을 상회하는 성능을 나타내고 있다(Baek and Jung, 2021; Bai et al., 2022). 이에 따라 위성 데이터에 딥러닝을 적용한 연구 사례 증가하고 있으며, 이는 영상 정합에도 활용되고 있다(Sommervold et al., 2023; Vakalopoulou et al., 2019). 딥러닝 기반의 영상 정합 기법은 patch 단위의 데이터를 입력자료로 활용하여 영역기반 매칭 기법과 유사한 방법으로 연산이 수행되며, convolution을 통해 각 이미지의 특성맵(feature map)을 추출하고, 이를 활용하여 정합을 수행하기 때문에 때문에 특징 기반의 매칭 기법의 장점도 가진다(Sung and Choi, 2022).

딥러닝 기반 위성 영상 정합에는 합성곱신경망(convolution neural network, CNN) 기반의 모델과 샴네트워크(siamese neural network, SNN) 기반의 모델을 통해 수행되고 있다(He et al., 2019; Lee et al., 2021b). 이 중, SNN은 동일한 구조를 가지는 서브네트워크 쌍이 서로 가중치를 공유하는 특징을 가지는 모델이다(Koch et al., 2015). 이는 단일 구조를 가지는 CNN 기반의 모델보다 좋은 정합 성능을 보여주고 있다. SNN 기반 정합 모델은 주영상과 부영상을 각각 서브네트워크에 입력하여 두 이미지 사이의 상관도맵(heatmap)을 예측하고, 이를 통해 정합을 수행한다(Li et al., 2022). 예측된 상관도 맵으로부터 후처리 과정을 적용하여 영상의 결합점을 도출하는 접근 방식은 추가적인 연산의 수행으로 전체 정합 과정의 효율성을 저하시킬 수 있으며, 고해상도 이미지 내에서 결합점을 정확하게 추출하는 데 어려움이 있을 수 있다(Wu et al., 2022). 이에 따라 정합하고자 하는 영상 쌍에 대한 x 방향과 y 방향의 오프셋(offset) 양자체를 예측하는 딥러닝 모델을 구축할 필요가 있다.

또한, 딥러닝 기반 영상 정합 모델을 학습시키기 위해서는 매우 많은 양의 주영상과 부영상 쌍을 필요로 한다(Kang et al., 2022). 그러나 공개 원격 탐사 자료의 양은 한정적이고, 상용 위성 영상의 높은 구매 비용으로 인해 많은 양의 데이터를 확보하긴 어렵다. 또한, 광학 영상의 특성상 기상 조건의 영향으로 인해 동일 지역의 영상 쌍을 확보하는 데는 상당한 어려움이 있다. 한정적인 데이터의 수는 새로운 데이터(unseen data)에 대한 모델의 강건성도 떨어뜨릴 수 있으며, 학습 데이터에만 의존적으로 편향되는 과적합(overfitting) 야기할 수 있다(Shorten and Khoshgoftaar, 2019). 딥러닝 기반 영상 정합을 위한 적합한 데이터 증강 기법을 설계하여 데이터 부족에 대한 문제를 해결할 필요가 있다.

이러한 문제점을 보완하기 위해 본 연구에서는 단일 영상에 여러 데이터 증강 기법을 적용하여 시뮬레이션된 주영상과 부영상 패치(patch) 쌍의 다양성을 확보하고, 기존 SNN의 서브네트위크 구성의 장점을 가지면서 오프셋 양 자체를 예측하는 모델인 OffsetNet을 구축하여 KOMPSAT 광학 영상 정합을 수행하고자 한다. 이를 위해 KOMPSAT-2, -3, -3A 영상을 취득하였으며, 정사 변환, 패치 자르기, 데이터 증강 기법의 전처리를 수행하여 모델 학습(training) 및 평가(test)를 위한 정합용 데이터 셋을 제작하였다 . 그 후, 제작된 데이터를 OffsetNet 모델에 적용하였고, 평가 지표를 통해 모델의 성능을 분석하였다.

2. 연구 지역 및 데이터

2.1. 연구 지역

Fig. 1은 연구 지역을 나타낸다. 연구 지역은 다양한 지표의 특성을 모델 학습에 반영하기 위해 국내의 서울, 대전, 세종, 공주, 김제, 보령 지역을 선정하였다. 서울과 대전은 대도시 지역으로 다양한 크기의 건축물과 도시 인프라가 구축되어 있는 지역이며, 주변이 산악 지형으로 둘러 쌓여있다. 또한, 세종 지역은 새롭게 개발되고 있는 도시 지역으로, 계획적 도시 구조의 특성이 나타나며, 구릉성 산지와 평지 등 자연 지형이 공존하고 있다. 김제 지역은 김제는 넓은 평야로 인해 농업 지역이 발달한 지역으로 논과 밭으로 주로 이루어져 있으며, 보령 지역은 대부분의 지형이 해변산골로 이루어져 산 바로 옆에 바다가 접해 있는 지형적 특성을 가진다.

OGCSBN_2023_v39n6_3_1707_f0001.png 이미지

Fig. 1. Study area.

2.2. 연구 데이터

Table 1은 선정된 연구 지역에 대해 취득한 데이터를 나타낸다. 본 연구에서는 다양한 해상도의 영상이 가지는 특성을 딥러닝 모델에 반영하고, 학습된 모델의 범용성과 적용 가능성을 높이기 위해 KOMPSAT-2, -3, -3A 위성 영상을 사용하였다. 사용한 밴드 대역은 Red, Green, Blue로 가시광 대역의 영상을 활용하였다. KOMPSAT-2 영상은 약 4 m의 공간해상도 영상을 제공하며, KOMPSAT-3와 -3A는 각각 약 2.8 m, 2.2 m의 더 높은 해상도로 영상을 제공한다. KOMPSAT-2, -3, -3A 영상은 각각 12장, 2장, 6장의 데이터를 활용하였다.

Table 1. KOMPSAT-2, -3, and -3A images used in this study

OGCSBN_2023_v39n6_3_1707_t0001.png 이미지

3. 연구 방법

Fig. 2는 본 연구의 흐름도를 나타낸다. 연구는 크게 1) 입력 및 라벨 데이터 제작, 2) 모델 학습 및 평가로 이루어져 있다. 입력 및 라벨 데이터 제작 과정에서 KOMPSAT-2, -3, -3A 영상을 지상과 영상 공간의 관계를 나타내는 rational polynomial coefficients (RPC)와 각 영상의 해상도에 맞게 리샘플링(resampling)된 수치표고모델(digital elevation model, DEM)을 통해 정사 변환을 수행하였다. 정사 변환된 이미지를 패치의 형태로 겹치지 않게 잘라 주었고, 이를 학습(training) 데이터와 평가(test) 데이터로 나눠주었다. 그 후, 각 패치에 대해 다양한 데이터 증강 기법을 적용하고, x, y 방향으로 오프셋 양을 설정하여 시뮬레이션된 주영상과 부영상의 쌍, 라벨 데이터를 제작하였다. 제작된 학습 데이터를 구축된 OffsetNet에 적용하여 모델 학습을 수행하였고, 평가 데이터를 학습된 적용하여 모델 성능 평가를 수행하였다.

OGCSBN_2023_v39n6_3_1707_f0002.png 이미지

Fig. 2. Overall workflow of this study.

3.1. 입력 및 라벨 데이터 제작

위성의 촬영각, 지형 등에 의해 발생하는 기복 변위를 보정하기 위해 정사 보정(orthorectification)을 수행하였다. 이를 위해 각 촬영 지역에 대한 30 m의 공간해상도를 가지는 Copernicus DEM을 취득하였고, 이를 KOMPSAT-2, -3, -3A의 해상도에 맞게 2차원 선형 보간(bi-linear interpolation)을 수행하였다. 이후 리샘플링된 DEM과 각 영상과 함께 제공되는 RPC를 활용하여 정사 보정을 수행하였으며, 이에 대한 수식은 식(1)과 같다(Oh et al., 2021). 식(1)의 (Xn, Yn, Zn)은 각각 정규화된 지상 좌표(latitude, longitude, hegiht)를 나타내며, (ln, sn)은 정규화 된 영상 좌표(line, sample)을 나타내고, P1부터 P4는 RPC로부터 제공된 계수를 통해 제작된 다항식을 나타낸다.

\(\begin{aligned}l_{n}=\frac{P 1\left(X_{n}, Y_{n}, Z_{n}\right)}{P 2\left(X_{n}, Y_{n}, Z_{n}\right)} \quad s_{n}=\frac{P 3\left(X_{n}, Y_{n}, Z_{n}\right)}{P 4\left(X_{n}, Y_{n}, Z_{n}\right)}\end{aligned}\)       (1)

학습된 모델의 일반화 성능을 정확히 평가하기 위해서는 학습 데이터와 평가 데이터 간의 독립성이 유지되어야 한다. 이를 위해 정사 보정된 각 영상을 (512,512,3) 크기의 패치로 나눠주었다. 패치는 총 1,915장이 도출되었으며, KOMSAT-2, -3, -3A 각 위성마다 도출된 패치의 개수는 655장, 314장, 946장이다. 이를 학습 데이터와 평가 데이터로 겹치지 않게 약 80:20으로 나눠주었다.

그 후, 단일 영상에 99% 최대-최소 정규화, 데이터 변환, 오프셋 설정을 통한 주영상과 부영상의 패치 생성, 랜덤 히스토그램 조정 및 cut-out 기법을 적용하여 입력 데이터와 라벨 데이터를 구축하였고, 해당 과정에 대해 반복을 수행하면서 데이터의 양을 증강하여 다양성을 가지는 광학 위성 영상 정합 데이터셋을 구축하였다. Fig. 3은 단일 패치로부터 모델의 입력 데이터(주영상과 부영상의 쌍)와 라벨 데이터(두 영상 사이의 오프셋)를 도출하는 과정을 나타낸다.

OGCSBN_2023_v39n6_3_1707_f0003.png 이미지

Fig. 3. The process of generating image registration datasets.

우선 단일 이미지에 99% 최대-최소 정규화를 진행하였다. 딥러닝 모델은 다양한 데이터 사이의 특성을 비교하며 패턴을 찾고, 이를 통해 모델을 학습한다. 이 과정에서 값의 범위가 크게 다를 경우 딥러닝 모델이 제대로 훈련되지 않을 수 있으므로 딥러닝 모델의 성능을 높이기 위해서는 데이터의 값의 범위와 단위를 맞춰주는 과정이 필수적이다(Jo, 2019). 또한, 영상 촬영 시 센서에 포함되는 노이즈, 원본 이미지 압축과정의 노이즈, 등이 발생하는데 이는 모델의 성능 저하 원인으로 작용될 수 있다(Park and Jo, 2021). 따라서 값의 단위를 일관된 범위로 맞춰주고, 영상 내 포함된 이상치를 제거하기 위해 99% 최대-최소 정규화를 수행하였다.

정규화된 원본 이미지에 대해 이미지의 픽셀을 변형시켜 새로운 위치에 매핑하는 데이터 변환을 적용하여 다양한 형태를 가지는 이미지를 생성하였다. 적용된 변환은 평행 이동(translation), 회전(rotation), 스케일링(scaling), 전단(shearing)이 적용되었으며, 각 변환량은 랜덤으로 설정하였다. 평행 이동은 -50에서 50 pixel 사이의 랜덤한 값으로 수행되었으며, 회전은 180° 내에서 랜덤한 값을 가지고 회전 변환이 수행되었다. 또한, 스케일링은 변화량은 1에서 1.1 사이의 랜덤한 값을 선정하였으며, 전단의 변화량은 -3에서 3 사이의 값을 갖도록 설정하였다.

데이터 변환이 수행된 단일 이미지를 통해 주영상과 부영상의 패치를 시뮬레이션 하고자 하였다. 이를 위해 주영상과 부영상 사이의 x 방향의 오프셋과 y 방향의 오프셋을 설정하였다. 두 방향 모두 -50에서 50 사이의 랜덤한 오프셋을 갖도록 설정하였다. 그 후, 512 × 512의 크기 가지는 영상 내에서 주영상의 좌상단 좌표를 설정하였으며, 좌상단 좌표를 기준으로 256 × 256의 크기로 영상을 잘라내어 주영상 패치를 생성하였다. 그리고 주영상의 좌상단 좌표에 대해 랜덤으로 설정된 x, y 방향의 오프셋을 더하여 부영상의 좌상단 좌표를 설정하였으며, 이를 통해 256 × 256의 크기로 영상을 잘라내어 부영상 패치를 생성하였다. 부영상 패치를 잘라내는 과정에서 주영상과의 객체 경계의 선명도 차이를 주기 위해 가우시안 필터링(Gaussian filtering)을 적용하였다. 가우시안 필터링도 마찬가지로 랜덤한 값을 가지고 필터링이 수행되었으며, 0-1 사이의 랜덤한 표준 편차 값을 기준으로 필터링을 수행하였다.

위성 영상은 촬영 일자나 시간, 기상 조건에 따라 영상의 밝기 값 및 대비 값이 다르게 나타난다. 또한, 두 영상 사이의 촬영 일자가 크게 차이나는 경우, 지형이나 지물의 변화가 일어나 토지 피복의 특성이 달라질 수 있다. 이를 반영하여 데이터를 시뮬레이션 하기 위해 주영상과 부영상에 서로 다른 히스토그램 스트레칭을 적용하였으며, cut-out을 랜덤하게 적용하여 두 영상 간의 차이를 발생시켰다.

위의 전반적인 과정을 통해 주영상과 부영상, 오프셋을 시뮬레이션하였으며, 해당 과정을 반복적으로 수행하여 데이터의 양을 증강시켰다. 이 과정에서 각 위성 간의 학습 및 평가 데이터의 비율을 맞춰주기 위해 KOMPSAT -2, -3, -3A의 패치에 대해 각각 3배, 6배, 2배 증강을 적용하였고, 이를 통해 전체 학습 데이터 4,590개, 평가 데이터 1,151개를 구축하였다.

3.2. 모델 학습 및 평가

Fig. 4는 본 연구에서 구축한 OffsetNet의 구조를 나타낸다. OffsetNet은 크게 주영상과 부영상으로부터 특성맵을 추출하는 부분과 추출된 특성맵으로부터 x, y 방향에 대한 offset을 추정하는 부분으로 구성되어 있다. 특성맵을 추출하는 부분은 SNN 모델과 유사하게 두 개의 서브 네트워크를 가지고 있으며, 각 서브 네트워크에 주영상과 부영상이 들어가 연산이 수행된다. 주영상 서브네트워크와 부영상 서브네트워크는 서로 가중치를 공유하며 모델 학습을 수행한다. 각 서브 네트워크는 U-Net의 인코더(encoder)와 유사한 구조를 가지고 있다(Ronneberger et al., 2015). 서브 네트워크는 다수의 convolution 연산을 통해 특성맵을 추출하며, 각 층의 끝부분에서 max-pooling을 수행하여 이미지의 크기를 줄여나가면서 다른 크키의 이미지가 가지는 다양한 특성 맵을 추출함으로써 적은 오프셋을 가지는 데이터와 큰 오프셋을 가지는 데이터를 모두 반영하였다. 그 후, 두 서브네트워크의 각 층에서 추출된 특성맵을 서로 결합(concatenate)함으로써 주영상과 부영상에서 추출된 특징의 차이를 모델이 고려할 수 있게 하였다.

OGCSBN_2023_v39n6_3_1707_f0004.png 이미지

Fig. 4. OffsetNet model structure.

그 후, 오프셋의 양을 도출하는 부분에서는 우선 각 층에서 결합된 서로 다른 크기의 지역적인 특성을 평균화하면서 동일한 크기로 맞춰주기 위해 average-pooling을 수행하였다. 이 후, average-pooling을 수행한 각 층의 특성맵에 대하여 추가적인 convolution 연산을 수행하여 주영상과 부영상 사이의 차이를 추출하고 이를 하나로 결합하여 주 영상과 부영상 내의 오프셋 특성을 확장하였다. 추가적으로 확장된 특성맵들에 대해 convolution 연산을 수행하여 오프셋 특성을 정밀하게 계산하고, 이를 4 × 4 × 2의 형태로 출력하였다. 이 후, x, y 방향에 각 16 (4 × 4)개의 pixel에 대해 99% 신뢰구간을 설정하고 임계값이 넘는 이상치를 제거하고 평균 값을 계산하여최종적인 x, y 방향에 대한 오프셋을 추청하게 모델 구조를 설정하였다.

구축된 OffsetNet 모델에 학습 데이터를 적용하여 모델 학습을 수행하였다. Table 2는 모델 학습 과정에서 사용된 주요 하이퍼파라미터(hyperparameter)의 값을 나타낸다. 모델 학습에는 모델 최적화 함수(optimizer), 손실 함수(loss function), 에포크(epoch), 학습률(learning rate), 배치 크기(batch size)가 주요 하이퍼파라미터로 활용되었다. 모델 최적화 함수는 adaptive memoment estimation(Adam)을 사용하였으며, 손실함수는 일반적으로 회귀 모델에 활용되는 평균 절대 오차(mean absolute error, MAE)를 사용하였다. 에포크는 1,000으로 설정하여 반복 학습을 수행하였으며, 모델을 최적화시키는 비율인 학습률은 에포크가 증가할수록 0.0001에서 0.00001까지 변화하게 설정하였다. 또한, 1회의 역전파(backpropagation)과정에서 사용될 데이터의 개수인 배치크기는 50으로 설정하였다.

Table 2. Hyperparameters of trained OffsetNet

OGCSBN_2023_v39n6_3_1707_t0002.png 이미지

이후, 학습한 모델에 평가 데이터를 적용하여 모델의 성능 평가를 수행하였다. 모델의 예측 성능을 평가하기 위해 피어슨상관계수(Pearson correlation coefficient, PCC) 값과 평균제곱근오차(root mean squared error, RMSE) 값을 활용하였다.

PCC는 두 변수 사이의 상관성을 평가하는 지표로 측정하려는 두 변수의 서로 선형의 관계에 있을 때 사용하는 지표이다(Waldmann, 2019). PCC의 값은 -1에서 1사이의 값을 가지며, 상관계수가 음수면 음의 상관관계, 양수면 양의 상관관계를 가지고, 값이 0에 가깝다면 두 변수 간의 상관 관계가 적음을 나타낸다. 본 연구에서는 실제 오프셋 양과 예측된 오프셋 양 사이의 상관성 파악하여 모델이 실제 오프셋의 경향성을 제대로 반영하여 학습하였는지 확인하기 위해 PCC의 값을 활용하였으며, PCC의 값을 구하는 수식은 식(2)와 같다. 식의 σl과 σp는 각각 실제 오프셋의 분산과 예측된 오프셋의 분산을 나타내며, σlp는 실제 오프셋과 예측된 오프셋의 공분산을 나타낸다.

\(\begin{aligned}r=\frac{\sigma_{l p}}{\sigma_{l} \sigma_{p}} \quad r=\frac{\sigma_{l p}}{\sigma_{l} \sigma_{p}}\end{aligned}\)       (2)

RMSE는 회귀 예측 모델에 일반적으로 사용되는 지표로 실제값과 예측한 값 사이의 오차를 평가하는 방법으로, 오차의 크기를 직관적으로 이해할 수 있어 모델 평가에 있어 자주 활용되고 있다(Hodson, 2022). RMSE의 값이 낮을수록 예측 모델의 성능이 더 좋다는 것을 의미하며, RMSE를 구하는 수식은 식(3)과 같다. 해당 수식에서 n은 데이터의 개수를 나타내며, yi는 실제 오프셋 양을 나타내고, \(\begin{aligned}\widehat{y}_i\end{aligned}\)은 예측된 오프셋의 양을 나타낸다.

\(\begin{aligned}R M S E=\sqrt{\frac{1}{n} \sum_{i=0}^{n}\left(y_{i}-\widehat{y}_{i}\right)^{2}}\end{aligned}\)       (3)

3. 연구결과 및 토의

Fig. 5는 본 연구에서 설계한 영상 정합 데이터셋 구축 방법을 통해 제작된 데이터의 예시를 나타낸다. 각 a부터 d까지는 각각 다른 지역에 대해 제작된 패치를 나타내며, -1과 -2는 각각 주영상의 패치와 부영상의 패치를 나타낸다. 데이터 제작 결과, 여러 연구 지역을 통해 데이터를 제작하여 도심지, 평지, 농지, 산지 등 다양한 토지 피복의 특성을 갖는 데이터가 제작된 것을 확인할 수 있다. 또한, 해상도가 서로 다른 KOMPSAT-2, -3, -3A의 영상으로부터 데이터를 제작하였기 때문에 객체의 크기가 다양하게 나타나는 것을 확인할 수 있다. 부영상에 대해 가우시안 필터링을 수행하여 객체의 경계 부분이 조금 더 흐려진 것을 확인할 수 있었으며, 각 영상 쌍에 서로 다른 히스토그램 스트레칭과 랜덤한 cut-mix를 적용하여 서로 다른 형태로 나타나고 x, y 방향에 대해 오프셋의 양만큼 영상의 위치가 차이나는 주영상과 부영상을 시뮬레이션 할 수 있었다.

OGCSBN_2023_v39n6_3_1707_f0005.png 이미지

Fig. 5. Generated image registration dataset. (a–d) are examples of data generated for different regions. -1 in each (a–d) represents the master image and -2 represents the slave image.

Fig. 6는 평가 데이터를 학습된 모델에 적용하여 예측된 오프셋과 실제 오프셋 간의 상관관계를 나타내는 산점도(scatter diagram)를 나타낸다. (a)는 전체 테스트 영상에 대한 그래프를 나타내며, (b)는 KOMPSAT-2 테스트 영상에 대한 결과, (c)와 (d)는 각각 KOMPSAT-3와 KOMPSAT-3A의 테스트 영상에 대한 그래프를 나타낸다. 각 (a–d)의 -1과 -2는 각각 x 방향과 y 방향에 대한 실제 오프셋과 예측된 오프셋 간의 산점도를 나타낸다. 분석 결과, 모든 경우에서 실제 오프셋과 예측된 오프셋 간의 상관 계수는 1에 가까운 값을 나타내어 모델이 높은 정확도로 예측을 수행하였음을 시사한다. 이는 입력 데이터를 기반으로 모델이 실제 오프셋의 양을 효과적으로 추정하였으며, 이로써 모델이 주영상 및 부영상에 대한 오프셋 추정에 있어 뛰어난 능력을 보유하고 있음을 확인할 수 있었다. 3개의 위성 영상 중 KOMPSAT-3가 가장 오프셋을 잘 예측하고 있으며, KOMPSAT-3A가 상대적으로 예측 성능이 떨어진 것을 확인할 수 있다. 이는 KOMPSAT-3A의 특정 소수의 영상에서 라벨의 값과 예측된 값의 차이가 크게 발생하여 나타난 결과로 보여진다.

OGCSBN_2023_v39n6_3_1707_f0006.png 이미지

Fig. 6. Scatter plots showing the correlation between the offset of the label and the predicted offset. (a) Results for all test data. (b), (c), and (d) are results for test data from KOMPSAT-2, KOMPSAT-3, and KOMPSAT-3A, respectively. -1 is the scatter plot for the x-direction. -2 is the scatter plot for the y-direction.​​​​​​​

이는 히스토그램과 RMSE의 값에서도 유사하게 나타난다. Fig. 7은 평가 데이터를 통해 예측한 오프셋 값과 실제 오프셋 값의 차이를 히스토그램으로 나타낸 것이다. (a)는 전체 영상에 대한 히스토그램을 나타내며, (b)–(d)는 각각 KOMPSAT-2, -3, -3A에 대한 히스토그램을 나타낸다. -1과 -2는 x 방향과 y 방향에 대한 오차 히스토그램을 나타내며 -3은 각 영상 쌍에 대해 구한 RMSE 값을 히스토그램으로 표현한 것이다. 앞선 결과와 동일하게 KOMPSAT-3의 영상에서 가장 좋은 성능을 보이고 있으며, KOMPSAT-3A 영상에서 가장 낮은 성능을 보이고 있다. 각 위성 영상의 x, y, 전체 RMSE 값은 KOMPSAT-2 0.78, 0.79, 1.12로 나타났으며, KOMPSAT-3는 0.78, 0.80, 1.05 값을 보였고, KOMPSAT-3A는 3.13, 1.73, 3.57로 나타났다. 또한, 전체 영상에 대해서는 각각 1.91, 1.18, 2.24값으로 나타났다. 앞선 Fig. 6의 KOMPSAT-3A의 산점도에 나타난 오차가 큰 특정 영상으로 인해 KOMPSAT-3A의 RMSE 값이 다른 두 위성 영상보다 RMSE 값이 높게 나탄 것을 확인할 수 있었으며, 이로 인해 전체 영상에 대한 RMSE의 값도 낮게 나타나는 것을 확인할 수 있다.

OGCSBN_2023_v39n6_3_1707_f0007.png 이미지

Fig. 7. Histogram and RMSE of the difference between predictions and labels. (a) Results for the full test data. (b–d) Results for KOMPSAT-2, 3, and 3A, respectively. The -1 and -2 denote the graphs for the x and y directions, respectively. -3 shows the histogram of RMSE for each image pair.​​​​​​​

특정 영상에서 예측 결과와 라벨의 차이가 크게 발생한 이유를 파악하기 위해 오차가 크게 발생하는 발생하는 KOMPSAT-3A의 패치에 대해 육안 분석을 수행하였다. Fig. 8은 모델이 KOMPSAT-3A의 영상 중 오프셋 양을 잘 제대로 예측하지 못한 4가지의 경우에 대한 주영상과 부영상의 쌍을 나타낸다. 분석 결과 (a)부터 (c)까지는 모두 수체 영역으로 인해 문제가 발생하였다. 물의 경우 가시광선을 흡수하기 때문에 상대적으로 주변 지형에 비해 어둡게 나타난다. 해당 영상들에는 수체 영역이 대부분을 차지하고 있기 때문에 다음과 같은 결과가 나타난 것으로 보여진다. 또한, (a)는 수체 이외의 지형인 도로에 대해 낮은 오프셋 값을 예측하였는데 이는 형태적 유사성으로 인해 오프셋 양이 크지 않다고 판단하여 나타난 결과로 보여진다. (b)와 (c)는 부영상에서 특정 영역을 제외하고 거의 모든 부분이 수체로 나타나고 있다. 이로 인해 일부 국소적인 영역만을 보고 오프셋을 예측하였기 때문에 오차가 크게 발생한 것으로 보여진다. (d)는 도심지 부분의 영상으로 건물이 상당히 많이 분포한다. 영상 내의 건물의 경우 형태적 유사성을 지니고 있어 오차가 크게 설정된 영상에서 특징을 매칭하지 못하여 오프셋이 크게 나타나는 것으로 보인다. 데이터 제작 과정에서 이들을 고려할 추가적인 방법이 필요할 것으로 보인다.

OGCSBN_2023_v39n6_3_1707_f0008.png 이미지

Fig. 8. KOMPSAT-3 test data where the amount of offset was poorly predicted. (a–d) represent images from different regions. -1 and -2 denote pairs of master and slave images, respectively.​​​​​​​

Fig. 9는 예측된 오프셋을 통해 부영상을 평행이동하여 영상 정합을 수행한 결과를 나타낸다. (a)부터 (d)는 다른 지역에 대해 촬영된 영상을 나타내며, -1은 주영상, -2는 부영상, -3은 예측된 오프셋으로 평행이동을 수행하여 부영상을 주영상 위치로 변환해준 영상, -4는 주영상과 정합된 부영상을 4 × 4 그리드(grid)에 섞어 놓은 영상을 나타낸다. 정합 결과를 확인해보면 서로 다른 색상과 형태를 가진 주영상과 부영상이 잘 정합된 것을 확인할 수 있다. 이는 -4의 주영상과 부영상의 경계를 통해 자세히 확인할 수 있다. 또한, 도심지와 산지, 평야 등 다양한 지형적 특성을 가지는 영상들에서 정합이 잘 수행되었다. 해당 결과는 본 연구에서 구축된 영상 정합을 위한 데이터 증강 기법이 효과적임을 확인할 수 있었으며, 오프셋 양을 직접적으로 추출하는 OffsetNet이 영상 정합에 있어 효과적이라는 것을 확인할 수 있었다.

OGCSBN_2023_v39n6_3_1707_f0009.png 이미지

Fig. 9. Results of image registration. (a-d) Images of different regions. -1 and -2 represent the master image and the slave image, respectively. -3 is the registered image using the predicted offset. -4 is a mixed image of the master and the registered image​​​​​​​

4. 결론

본 연구에서는 딥러닝 기반 OffsetNet을 통해 KOMP SAT 광학 영상 정합을 수행하였다. 위성 자료를 통해 지표의 변화를 정확하게 탐지하기 위해서는 위성 시계열 자료 간의 상대적인 위치 정확도가 높아야 한다. 이를 위해 주영상과 부영상 사이의 기하학적인 관계를 추정하여 동일 위치에 정렬시키는 영상 정합을 수행한다. 기존에는 영역 기반 및 특징 기반의 정합 기법을 사용하여 영상 정합을 수행하였으며, 최근에는 이미지 처리 분야에서 높은 성능을 보이고 있는 딥러닝 모델을 활용하여 영상 정합을 수행한다. 현재 정합에 많이 활용되는 딥러닝 모델인 SNN은 예측된 상관도 맵으로부터 후처리 과정을 적용하여 영상의 결합점을 도출하고, 이를 통해 정합하는 방식을 가지는데 이는 비효율적이다. 또한, 딥러닝 모델을 학습하기 위해서는 매우 많은 양의 영상 쌍이 필요하지만 공개 위성 자료 양의 한정, 영상 구매 비용, 기상 조건 등의 이유로 동일 지역의 영상 쌍을 많이 취득하는 것은 어렵다.

위와 같은 문제를 해결하기 위해서 본 연구에서는 영상 정합에 적합한 데이터 증강 기법을 구축하고, 이를 통해 제작된 데이터를 직접 오프셋 양을 예측하는 모델인 OffsetNET 모델에 적용하여 영상 정합을 수행하였다. 이를 위해 KOMPSAT-2, -3, -3A의 단일 영상으로부터 데이터 변환, 오프셋 설정, 가우시안 필터링, 히스토그램 스트레칭, cut-mix를 랜덤하게 적용하였고, 이를 통해 시뮬레이션된 주영상과 부영상의 쌍을 생성할 수 있었다. 해당 데이터로 SNN과 유사한 서브네트워크의 구조를 가지고, 오프셋 양을 직접적으로 추출하는 OffsetNet을 학습하였다. 평가 데이터를 통해 모델의 성능을 분석한 결과, 모델이 대체로 오프셋 양을 잘 예측하는 것을 확인할 수 있었다.

예측된 결과와 라벨은 매우 높은 상관관계를 보였으며, 전체 영상에 대한 RMSE는 2.23, KOMPSAT-2, -3, -3A의 각 RMSE의 값은 1.12, 1.05, 3.57로 나타났다. 히스토그램과 RMSE 값을 통해 대체로 모델이 오프셋을 잘 예측한다는 것을 확인할 수 있었다. KOMPSAT-3A의 RMSE 값이 다른 두 값보다 상대적으로 높게 나오는데 이는 특정 패치들이 대부분 수계 영역으로 이루어져 있어 오프셋 예측이 제대로 수행되지 않았고, 해당 패치들로 인해 RMSE 값이 높게 도출되었다. 이를 통해 데이터 시뮬레이션 과정을 통해 제작된 데이터들을 추가적으로 검수하는 방안이 필요하다는 것을 확인할 수 있었다.

본 연구에서 구축된 데이터 증강 기법을 통해 영상 정합 데이터 부족의 한계를 극복할 수 있었으며, 구축된 데이터를 통해 모델을 효과적으로 학습할 수 있었다. 또한, 서브네트워크의 구조를 가지고, 오프셋 양을 직접적으로 추출하는 OffsetNet이 영상 정합에 있어 효과적이다라는 것을 파악할 수 있었다. 실제 동일 지역에 대한 다른 시기의 영상은 촬영각과 촬영일자에 의해 기복 변위 및 변화된 지역을 포함하고 있다.

본 연구에서는 단일 영상을 통해서 시뮬레이션하여 영상의 쌍을 구축하였기 때문에 이에 대한 효과를 충분히 반영하지 못하는 한계가 있다. 추후 연구에서는 단일 영상으로부터 제작된 패치를 통해 사전 학습 모델(pre-trained model)을 구축하고, 서로 다른 일자의 영상을 통해 제작된 데이터로 추가 학습을 수행을 진행하고자 한다. 이를 통해 더욱 강건하고 범용성 있는 정합 모델을 제작할 수 있을 것이며, 위성 시계열 자료의 활용성과 정확성을 더욱 높여줄 것으로 기대된다.

사사

이 논문은 2023년 정부(방위사업청)의 재원으로 국방과학연구소의 지원을 받아 수행된 연구임(UI220065WD).

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

References

  1. Baek, W. K., and Jung, H. S., 2021. Performance comparison of oil spill and ship classification from x-band dual- and single-polarized SAR image using support vector machine, random forest, and deep neural network. Remote Sensing, 13(16), 3203. https://doi.org/10.3390/rs13163203
  2. Bai, Y., Zhao, Y., Shao, Y., Zhang, X., and Yuan, X., 2022. Deep learning in different remote sensing image categories and applications: Status and prospects. International Journal of Remote Sensing, 43(5), 1800-1847. https://doi.org/10.1080/01431161.2022.2048319
  3. Bentoutou, Y., Taleb, N., Kpalma, K., and Ronsin, J., 2005. An automatic image registration for applications in remote sensing. IEEE Transactions on Geoscience and Remote Sensing, 43(9), 2127-2137. https://doi.org/10.1109/TGRS.2005.853187
  4. Han, Y., Kim, T., Ye, Y., Jung, M., Kim, Y., and Lee, J., 2022. Analysis of image-to-image registration performance of multitemporal KOMPSAT-3·3A imagery with respect to convergence angle. International Journal of Remote Sensing, 43(12), 4454-4476. https://doi.org/10.1080/01431161.2022.2114111
  5. He, H., Chen, M., Chen, T., Li, D., and Cheng, P., 2019. Learning to match multitemporal optical satellite images using multi-support-patches Siamese networks. Remote Sensing Letters, 10(6), 516-525. https://doi.org/10.1080/2150704X.2019.1577572
  6. Hodson, T. O., 2022. Root-mean-square error (RMSE) or mean absolute error (MAE): When to use them or not. Geoscientific Model Development, 15(14), 5481-5487. https://doi.org/10.5194/gmd-15-5481-2022
  7. Im, J., Jensen, J. R., and Tullis, J. A., 2008. Object-based change detection using correlation image analysis and image segmentation. International Journal of Remote Sensing. 29(2), 399-423. https://doi.org/10.1080/01431160601075582
  8. Jo, J. M., 2019. Effectiveness of normalization preprocessing of big data to the machine learning performance. The Journal of the Korea Institute of Electronic Communication Sciences. 14(3), 547-552. https://doi.org/10.13067/JKIECS.2019.14.3.547
  9. Kang, W. B., Jung, M. Y., and Kim, Y. I., 2022. A study on training dataset configuration for deep learning based image matching of multi-sensor VHR satellite images. Korean Journal of Remote Sensing, 38(6-1), 1505-1514. https://doi.org/10.7780/kjrs.2022.38.6.1.38
  10. Kim, T., Yun, Y., Lee, C., Yeom, J., and Han, Y., 2022. Image registration of very-high-resolution satellite images using deep learning model for outlier elimination. In Proceedings of the 2022 IEEE International Geoscience and Remote Sensing Symposium, Kuala Lumpur, Malaysia, July 17-22, pp. 155-158. https://doi.org/10.1109/IGARSS46834.2022.9884075
  11. Koch, G., Zemel, R., and Salakhutdinov, R., 2015. Siamese neural networks for one-shot image recognition. In Proceedings of the 2015-ICML Deep Learning Workshop, Lille, France, July 6-11.
  12. Lee, M., Jung, N., Choi, J., Lee, G., Ryu, B., and Kim, K., 2021a. A study on the performance of SAR change detection depending on co-registration condition. Journal of Korean Institute of Electromagnetic Engineering and Science, 32(9), 826-835. https://doi.org/10.5515/KJKIEES.2021.32.9.826
  13. Lee, W., Sim, D., and Oh, S. J., 2021b. A CNN-based high-accuracy registration for remote sensing images. Remote Sensing, 13(8), 1482. https://doi.org/10.3390/rs13081482
  14. Li, X., Wang, T., Cui, H., Zhang, G., Cheng, Q., Dong, T., and Jiang, B., 2022. SARPointNet: An automated feature learning framework for spaceborne SAR image registration. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 15, 6371-6381. https://doi.org/10.1109/JSTARS.2022.3196383
  15. Ma, J., Zhou, H., Zhao, J., Gao, Y., Jiang, J., and Tian, J., 2015. Robust feature matching for remote sensing image registration via locally linear transforming. IEEE Transactions on Geoscience and Remote Sensing, 53(12), 6469-6481. https://doi.org/10.1109/TGRS.2015.2441954
  16. Oh, K. Y., Lee, K. J., Hwang, J. I., and Kim, Y. S., 2021. A study on the efficient orthorectification of KOMPSAT image. Korean Journal of Remote Sensing, 37(6-3), 2001-2010. https://doi.org/10.7780/kjrs.2021.37.6.3.8
  17. Park, J. H., and Jo, S. I., 2021. Study of image denoising techniques. The Magazine of the IEEE, 48(2), 49-59.
  18. Ronneberger, O., Fischer, P., and Brox, T., 2015. U-Net: Convolutional networks for biomedical image segmentation. arXiv preprint arXiv:1505.04597. https://doi.org/10.48550/arXiv.1505.04597
  19. Shorten, C., and Khoshgoftaar, T. M., 2019. A survey on image data augmentation for deep learning. Journal of Big Data, 6, 60. https://doi.org/10.1186/s40537-019-0197-0
  20. Sommervold, O., Gazzea, M., and Arghandeh, R., 2023. A survey on SAR and optical satellite image registration. Remote Sensing, 15(3), 850. https://doi.org/10.3390/rs15030850
  21. Sung, J. Y., Lee, W. J., and Oh, S. J., 2021. Deep learning-based keypoint filtering for remote sensing image registration. Journal of Broadcast Engineering, 26(1), 26-38. https://doi.org/10.5909/JBE.2021.26.1.26
  22. Sung, S. K., and Choi, J. W., 2022. Image matching for orthophotos by using HRNet model. Korean Journal of Remote Sensing, 38(5-1), 597-608. https://doi.org/10.7780/kjrs.2022.38.5.1.13
  23. Vakalopoulou, M., Christodoulidis, S., Sahasrabudhe, M., Mougiakakou, S., and Paragios, N., 2019. Image registration of satellite imagery with deep convolutional neural networks. In Proceedings of the IGARSS 2019 - 2019 IEEE International Geoscience and Remote Sensing Symposium, Yokohama, Japan, July 28-Aug. 2, pp. 4939-4942. https://doi.org/10.1109/IGARSS.2019.8898220
  24. Waldmann, P., 2019. On the use of the Pearson correlation coefficient for model evaluation in genome-wide prediction. Frontiers in Genetics, 10, 899. https://doi.org/10.3389/fgene.2019.00899
  25. Wu, Z., Guo, W., Chen, Z., Wang, H., Li, X., and Zhang, Q., 2022. Three-dimensional shape and deformation measurement on complex structure parts. Scientific Reports, 12, 7760. https://doi.org/10.1038/s41598-022-11702-x
  26. Zhu, Z., 2017. Change detection using Landsat time series: A review of frequencies, preprocessing, algorithms, and applications. ISPRS Journal of Photogrammetry and Remote Sensing, 130, 370-384. https://doi.org/10.1016/j.isprsjprs.2017.06.013
  27. Zitova, B., and Flusser, J., 2003. Image registration methods: A survey. Image and Vision Computing, 21(11), 977-1000. https://doi.org/10.1016/S0262-8856(03)00137-9