DOI QR코드

DOI QR Code

Land Cover Classifier Using Coordinate Hash Encoder

좌표 해시 인코더를 활용한 토지피복 분류 모델

  • 윤용선 (텔레픽스 주식회사 AI연구팀) ;
  • 권동재 (텔레픽스 주식회사 영상과학연구팀)
  • Received : 2023.11.13
  • Accepted : 2023.12.04
  • Published : 2023.12.31

Abstract

With the advancements of deep learning, many semantic segmentation-based methods for land cover classification have been proposed. However, existing deep learning-based models only use image information and cannot guarantee spatiotemporal consistency. In this study, we propose a land cover classification model using geographical coordinates. First, the coordinate features are extracted through the Coordinate Hash Encoder, which is an extension of the Multi-resolution Hash Encoder, an implicit neural representation technique, to the longitude-latitude coordinate system. Next, we propose an architecture that combines the extracted coordinate features with different levels of U-net decoder. Experimental results show that the proposed method improves the mean intersection over union by about 32% and improves the spatiotemporal consistency.

최근 딥러닝의 발전으로 의미론적 분할을 통한 토지피복 분류 방법들이 제안되고 있다. 그러나 기존의 딥러닝 기반 모델들은 영상 정보만을 이용하기 때문에 시공간적 일관성을 담보할 수 없는 한계점이 있다. 이에 본 연구에서는 좌표 정보를 활용한 토지피복 분류 모델을 제안한다. 먼저 암시적 신경 표현 기법인 다중해상도 해시 인코더를 위경도 좌표계로 확장한 좌표 해시 인코더를 통해 좌표의 특징을 추출하였다. 다음으로 추출된 좌표 특징을 다양한 단계의 U-net 디코더와 결합하는 아키텍처를 제안하였다. 실험 결과, 제안 방법이 약 32% 향상된 분류 정확도를 보였고, 시공간적 일관성이 향상됨을 확인하였다.

Keywords

1. 서론

토지피복지도는 지표면 지형지물의 형태, 물리적 구성을 일정한 기준에 따라 분류하여 동질한 특성을 지닌 구역별로 구분한 환경주제도의 일종으로, 도시 계획, 변화 탐지, 재난 대응, 탄소흡수량/방출량 평가 등 다양한 분야에서 활용되고 있다(Environmental Geographic Information Service, 2023). 토지피복지도의 제작을 위한 기초자료로는 항공 및 위성 영상이 주로 활용되며, 근래에는 비용과 주기성에 있어 유리한 위성영상이 널리 활용되고 있다(Han and Choi, 2011). 위성영상을 이용한 토지피복 분류 방법으로는 분광지수(spectral index)를 활용한 통계적 분류, 영상판독관의 육안 분석을 통한 분류 등이 있다(Faridatul and Wu, 2018). 고해상도 토지피복도 제작을 위해서는 분광밴드(spectral band)가 제한적인 고해상도 위성 영상을 활용해야 하므로 육안 판독 의존도가 높았으나, 최근에는 딥러닝 기법이 컴퓨터 비전 분야에서 높은 성과를 보이면서 이미지 내의 객체들을 의미론적으로 분할(semantic segmentation)하는 모델들을 위성/항공영상 기반 토지피복 분류에도 적용하려는 연구들이 활발히 진행되고 있다(Lee and Lee, 2022; Sim et al., 2023).

그러나 기존의 모델들은 영상의 밴드 정보(주로RGB)만을 이용하여 토지피복을 분류하는데, 이로 인해 텍스처 변화에 취약하다는 한계점이 있다. 위성 영상은 계절, 대기 상태, 촬영 각도에 따라 동일한 피복에 대해 다른 텍스처로 표현될 수 있다. 밴드 정보만 상용하는 모델의 경우 텍스처가 변할 때 토지피복 예측 결과(segmentation map)가 바뀔 수 있고 이는 정확도 저하로 이어진다. 또한 고해상도 위성 영상의 단일 영상(scene)은 작게는 수백 만에서 많게는 수억 픽셀 가량으로 이루어져 있기 때문에 보통 일정한 크기의 패치로 분할되어 예측된다. 분할된 패치의 가장자리 부분에서는 모델이 예측에 참고하는 컨텍스트가 달라지기 때문에 예측 결과가 일관되지 않는 문제가 발생한다.

위의 한계점들을 해결하기 위해 본 연구에서는 좌표 정보를 활용한 토지피복 분류 모델을 제안한다. 암시적 신경 표현 기법(Implicit neural representation)인 다중해상도 해시 인코더(Multi-resolution hash encoder)를 사용하여 좌표의 특징 벡터를 추출하였고, 이를 U-net 모델과 결합하였다. 실험 결과, 좌표 정보를 결합한 제안 모델이 기존의 밴드 정보만을 사용한 모델보다 약 32% 향상된 분류 정확도를 보였고, 시공간적 일관성이 향상됨을 확인하였다.

2. 연구자료 및 방법

2.1. 학습 및 검증 데이터셋

본 연구는 AIHub에서 제공하는 <토지피복지도 항공위성 이미지> 관련 데이터셋 중 위성영상 데이터를 학습 및 검증 데이터로 활용하였다(AI Hub, 2023). 이 데이터는 Sentinel-2 위성으로 수도권 지역을 촬영한 영상으로 구축되었으며, 총 7개의 클래스(건물, 도로, 논, 밭, 활엽수림, 침엽수림, 비대상지)로 구분되어 있다. 데이터의 예시는 Fig. 1에 도시하였다.

OGCSBN_2023_v39n6_3_1771_f0001.png 이미지

Fig. 1. An example of AIHub data.

위 데이터는 서울특별시, 경기 남동부, 경기 남서부 일대를 촬영한 총 720개의 학습 영상과 90개의 검증 영상으로 이루어졌다. 이 중 113개의 학습 데이터와 85개의 검증 데이터는 동일한 지점을 다른 일자에 촬영한 영상으로 구성하여 학습된 모델이 시계열적으로 일관된 객체분할을 수행하면서도 변화탐지를 적절하게 수행하는지 검증하는 데에 활용하였다. 본 연구에 활용된 데이터의 지리적 분포는 Fig. 2에서 확인할 수 있다. 파란색은 학습 데이터만 촬영된 지역, 초록색은 학습과 검증 데이터 모두 촬영된 지역, 빨간색은 검증 데이터만 촬영된 지역을 뜻한다.

OGCSBN_2023_v39n6_3_1771_f0002.png 이미지

Fig. 2. Visualization of locations of the images.

2.2. 좌표 해시 인코더

암시적 신경 표현은 데이터를 효과적으로 모델링하는 방법 중 하나로, 다층 퍼셉트론(multi-layer perceptron)으로 구현한다.이 모델은 주로 픽셀좌표(X,Y)를 입력 받아 해당 픽셀의 RGB 값을 출력함으로써 이미지 데이터를 표현하는 데 활용된다. 이러한 개념은 2차원 영상 및 3차원 영상 뿐만 아니라 동영상과 같은 다양한 형식의 데이터까지도 효과적으로 표현할 수 있는 장점이 있다.

Müller et al. (2022)은 기존의 주기 함수 방식에 비해 더 정확하고 빠르게 데이터를 표현할 수 있는 다중해상도 해시 인코더를 제안했다. 제안 방법은 다음과 같다. 먼저 전체 이미지를 여러 해상도의 그리드로 나누고, 그리드 노드(Grid node)에 각각 임베딩(Embedding) 벡터를 부여한다. 특징을 추출할 좌표가 입력되면 좌표가 속한 그리드 셀을 탐색한 뒤, 해당 셀의 꼭지점 노드들의 임베딩 벡터에 이중선형보간법(bilinear interpolation)을 적용해 입력 좌표의 특징 벡터를 산출한다(Fig. 3).

OGCSBN_2023_v39n6_3_1771_f0003.png 이미지

Fig. 3. Architecture of multi-resolution hash encoder (Müller et al., 2022).

본 연구에서는 다중해상도 해시 인코더를 실제 공간 좌표로 확장하였다. Fig. 4와 같이 수도권 범위의 지도상에 다중해상도의 그리드를 설정한 뒤, 입력 위경도에 해당하는 특징 벡터를 이중선형보간법을 사용해 추출했다. 이러한 방식으로 추출된 좌표 특징은 다양한 해상도를 고려하기 때문에 전체적인 지역의 특징과 세부적인 지역의 특징을 모두 담을 수 있다는 장점이 있다.

OGCSBN_2023_v39n6_3_1771_f0004.png 이미지

Fig. 4. Visualization of multi-resolution grids of coordinate hash encoder.

2.3. 좌표 특징을 결합한 U-net 모델

U-net은 의미론적 분할에서 널리 사용되는 딥러닝 아키텍처로서, 이미지의 특징을 추출하는 인코더 부분과 인코더에서 추출한 특징을 업샘플링하여 픽셀을 분류하는 디코더 부분, 그리고 인코더의 고해상도 특징을 보존하기 위한 잔차 연결(skip connection)로 구성된다(Ronneberger et al., 2015).

본 연구에서는 피복지도 분류에서 좋은 성능을 보이는 U-net 구조를 최대한 활용하는 방향으로 좌표 특징을 결합하였다. 먼저 각 픽셀의 중앙 지점의 좌표를 계산하여 입력 좌표 이미지를 산출한 뒤, 좌표 해시 인코더로 좌표의 특징 벡터를 추출했다. 좌표 특징 벡터를 잔차 연결 부분에서 인코더의 출력값과 함께 결합함으로써 모델이 좌표 정보를 파악할 수 있게 했다. 이 때 다양한 크기의 디코딩 과정에서 좌표 정보를 활용할 수 있도록 모든 디코더 층에서 좌표 정보를 결합하여 입력하였다. Fig. 5에서 모델의 전체 구조를 도시하였다.

OGCSBN_2023_v39n6_3_1771_f0005.png 이미지

Fig. 5. Architecture of U-net with coordinate features.

2.4. 학습 및 검증

실험은 Ubuntu 18.04 LTS 환경에서 NVIDIA GeForce RTX 3090을 사용하여 진행했다. 3개의 패치 사이즈에서 각각 100 에폭(Epoch)씩 학습시켰다. 자세한 하이퍼파라미터(Hyperparameter)는 Table 1에서 확인할 수 있다. 과적합을 방지하기 위해 랜덤 플립(random flip), 랜덤 로테이션(random rotation), 랜덤 크롭(random crop)과 같은 데이터 증강 방법을 사용했다. Dice 오차 함수로 모델을 학습했고, mean Intersection over Union (mIoU) 지표로 모델의 최종 성능을 측정하였다.

Table 1. Hyperparameter

OGCSBN_2023_v39n6_3_1771_t0001.png 이미지

3. 연구결과 및 토의

3.1. 분류 정확도 평가

Table 2의 3번째 칼럼을 통해 좌표 정보를 사용한 모델이 모든 패치 사이즈에서 성능이 향상됨을 확인할 수 있다. 특히 학습한 위치에 해당하는 데이터(seen) 뿐만 아니라 학습하지 않은 위치의 데이터(unseen)에서도 좌표 정보를 사용한 모델이 더 높은 성능을 보였다. 이를 통해 모델이 특정 지점의 정보만을 기억하는 것이 아니라, 주변 좌표 정보를 활용해 학습하지 않은 곳의 정보를 유추한다는 것을 알 수 있다.

Table 2. Evaluation results

OGCSBN_2023_v39n6_3_1771_t0002.png 이미지

Fig. 6에서 패치 사이즈별 모델의 예측 결과를 도시했다. 좌표 정보를 활용한 모델은 도로와 같은 세밀한 피복을 더 정확하게 예측하였고, 활엽수림/침엽수림과 같이 판별이 어려운 클래스도 정확하게 분류를 하는 것을 확인할 수 있다. 또한 패치 사이즈 128과 256 모델의 결과에서 패치가 분할되는 부분 근처에서 불연속적인 예측 값이 완화되는 결과를 확인하였다.

OGCSBN_2023_v39n6_3_1771_f0006.png 이미지

Fig. 6. Examples of model predictions.

3.2. 시간적 일관성 평가

시간 변화에 따른 예측 일관성을 보다 엄밀하게 평가하기 위해 토지피복 변화 여부와 예측값 변화 여부를 비교하였다. 데이터셋에서 같은 지역을 촬영한 두개영상의 라벨을 비교해 라벨이 바뀐 픽셀에 1, 바뀌지 않은 픽셀에 0을 할당하여 정답 변화 라벨을 만들었다. 같은 방식으로 모델이 해당 영상들에 대해 예측한 결과들을 비교하여 예측 변화 맵을 만들었다. 정답 변화 라벨과 예측 변화 맵을 비교하여 mIoU와 F1을 산출하였고, 이를 통해 변화되지 않은 지점에 대한 일관성과 변화된 지점에 대한 민감성을 종합적으로 평가하였다.

Table 3을 보면, 영상 정보만 사용한 모델은 피복 변화 여부에 대해 0.7202의 mIoU를 보인 반면, 좌표 정보를 활용한 모델은 27% 향상된 mIoU 0.9177을 보였다. 이를 통해 좌표 정보를 활용함으로써 텍스처 변화에도 일관된 토지피복 예측이 가능함을 확인하였다.

Table 3. Temporary consistency evaluation results

OGCSBN_2023_v39n6_3_1771_t0003.png 이미지

4. 결론

본 연구에서는 좌표 정보를 활용한 토지피복 분류 모델을 제안했다. 다중해상도 해시인코더를 위경도 좌표계로 확장한 좌표 해시 인코더를 사용해 좌표 특징을 추출 하였고, 이를 U-net과 결합하였다. 제안 방법은 기존의 영상 정보만 활용한 U-net 보다 32% 가량 높은 mIoU를 기록했으며, 패치가 분할되는 부분에서도 더 일관된 예측 결과를 보였다.

본 연구의 결과를 바탕으로 다음과 같은 후속 연구를 진행할 계획이다. 먼저 좌표 인코더의 자기주도학습(self-supervised learning)이다. 거의 모든 위성 영상은 좌표 정보를 메타 데이터로 보유하고 있기 때문에 최근 발전하고 있는 자기주도학습 기법을 좌표 인코더 학습에 적용한다면 추가적인 성능 개선을 기대할 수 있다.

또한 제안 방법은 좌표 정보가 없는 기존의 토지피복 데이터셋에 적용할 수 없다는 한계점이 있다. 복수의 데이터셋을 결합한 다중 데이터셋 학습 방법을 적용한다면 좌표 정보의 활용성을 키울 수 있을 것이다.

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

References

  1. AI Hub, 2023. Landcover map aerial and satellite image. Available online: https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71361 (accessed on Dec. 5, 2023).
  2. Environmental Geographic Information Service, 2023. Landcover map. Available online: https://egis.me.go.kr/intro/land.do (accessed on Dec. 5, 2023).
  3. Faridatul, M. I., and Wu, B., 2018. Automatic classification of major urban land covers based on novel spectral indices. ISPRS International Journal of Geo-Information, 7(12), 453. https://doi.org/10.3390/ijgi7120453
  4. Han, S. J., and Choi, M. H., 2011. Comparison between supervised and unsupervised land cover classification using satellite image. In Proceedings of the Korea Water Resources Association Conference, Daegu, Republic of Korea, May 19-20, pp. 355-359.
  5. Lee, S. H., and Lee, M. J., 2022. Comparisons of multi resolution based AI training data and algorithms using remote sensing focus on landcover. Frontiers in Remote Sensing, 3, 832753. https://doi.org/10.3389/frsen.2022.832753
  6. Muller, T., Evans, A., Schied, C., and Keller, A., 2022. Instant neural graphics primitives with a multi-resolution hash encoding. ACM Transactions on Graphics, 41(4), 1-15. https://doi.org/10.1145/3528223.3530127
  7. Ronneberger, O., Fischer, P., and Brox, T., 2015. U-net: Convolutional networks for biomedical image segmentation. In: Navab, N., Hornegger, J., Wells, W., Frangi, A. (eds.), Medical image computing and computer-assisted intervention - MICCAI 2015, Springer, pp. 234-241. https://doi.org/10.1007/978-3-319-24574-4_28
  8. Sim, W. D., Yim, J. S., and Lee, J. S., 2023. Accuracy assessment of land-use land-cover classification using semantic segmentation-based deep learning model and RapidEye imagery. Korean Journal of Remote Sensing, 39(3), 269-282. https://doi.org/10.7780/kjrs.2023.39.3.2