1. 서론
초분광 영상(Hyperspectral Image)은 수백 개의 연속적이고 좁은 분광 밴드(spectral band)를 가지는 영상을 말하며, 이를 바탕으로 탐지나 영상 분류에 효과적으로 활용된다(Lillesand et al., 2015). 한편, 최근 딥러닝(deep learning) 기법은 많은 양의 데이터를 효과적으로 처리함과 동시에 깊은 층을 통해 추상적인 특징을 추출할 수 있어 분류, 영상인식 등 다양한 분야에서 우수한 성능을 입증하고 있다. 대표적인 딥러닝 기법 중 하나인 Convolutional Neural Network(CNN)는 고수준의 공간분광 특징을 추출할 수 있어 영상 분류 분야에서 두각을 나타내고 있으며, 특히 초분광 영상에 대해서도 선행 연구들을 통해 활발히 적용되고 있다. Slavkovikj et al. (2015)와 Hu et al.(2015)는 CNN을 활용하여 초분광 영상의 연속적인 분광 응답 함수(spectral response function)를 학습하였고 기존 전통적인 분류 기법 대비 우수한 성능을 보여주었다. Makantasis et al.(2015), Chen et al.(2016), Zhang et al.(2017) 등의 연구에서는 한 픽셀과 주변 픽셀을 포함하는 패치(patch)를 사용한 모델을 제안하여 효율적이고 높은 정확도의 분류 결과를 보여주었다. 또한, 3차원 커널(3D kernel) 기반의 3D-CNN을 초분광 영상의 3차원 데이터 큐브(data cube)에 적용하여 공간-분광 특징을 효과적으로 분석한 바 있다(Li et al., 2017; He et al., 2017).
그러나 초분광 영상의 높은 분광 차원은 몇 가지 분석의 문제점을 초래한다. 고차원의 데이터는 분석 과정을 복잡하게 만들어 학습시간을 증폭시킬 수 있다. 뿐만 아니라 고차원의 변수는 그에 상응하는 다량의 학습 표본을 필요로 하기 때문에 상대적인 학습 표본의 부족을 일으킬 수 있다. 이러한 문제를 해결하기 위해 다양한 차원축소 기법들이 초분광 영상에 적용되어왔다. 특히, Principal Component Analysis(PCA)는 데이터를 독립적인 주성분의 축으로 변환시킬 수 있어 초분광 영상의 분광 차원축소 기법으로써 활용되어왔다. Rodarmel and Shan(2002)는 PCA가 소수의 주성분만으로도 원 영상과 유사한 분류 성능을 보여줄 수 있어 초분광 영상 분류에 유용한 처리 기술이라고 분석하였다. Lim et al.(2001)은 신호 대 잡음비(SNR: Signal to Noise Ratio)를 기반으로 PCA의 데이터 압축 효과를 평가하였고, 이를 통해 초분광 영상의 압축을 위한 PCA의 활용가능성을 증명하였다. PCA가 초분광 영상을 효율적으로 압축할 수 있다는 장점은 딥러닝 기반 초분광 영상 분류에서 더욱 부각된다. 딥러닝 네트워크 모수(parameter)의 개수는 필터(filter)의 크기, 즉 너비(width), 높이(height), 채널(channel)과 필터의 개수에 의해 결정된다. 초분광 영상의 경우 높은 분광 차원에 의해 필터의 채널을 증폭시키고 이에 따라 연산의 복잡도가 증가한다. 이를 해결하기 위해 CNN 기반 초분광 영상 분류 연구들에서는 차원축소의 목적으로 PCA를 적용한 바 있다(Makantasis et al., 2015;Zhao and Du, 2016; Chen et al., 2016; Liang and Li, 2016; Zhang et al., 2017; Mei et al., 2019). 그러나 PCA를 사용한 기존의 CNN 기반 초분광 영상 분류 연구들은 PCA가 분류결과에 미치는 영향에 대해 초점을 맞추지 않았으며, PCA의 적용 방법에 대한 정량적 근거를 제시하지 않았다는 점에서 한계점을 가진다. PCA는 초분광 영상의 분광 차원을 축소하여 딥러닝 네트워크의 복잡도를 낮출 수 있지만, 원 영상의 풍부한 분광 정보를 그대로 보존할 수 없어 분광 정보의 손실을 야기할 수 있다. 이렇듯 PCA의 사용 유무는 학습의 정확도와 연산속도의 측면에서 영향을 미치지만 이를 분석한 연구가 부족하다. 본 연구의 목적은 PCA를 통한 분광 차원축소가 CNN에 미치는 영향을 정량적으로 분석하여 효율적인 초분광 영상 분류를 위한 적절한 PCA의 적용 방법을 제안하는 데에 있다. 이를 위해 초분광 영상을 다양한 크기의 차원으로 축소해가며 CNN에 적용하였다. 또한, 컨볼루션(convolution) 연산 방식에 따른 PCA의 민감도를 분석 하기 위해 2D-CNN과 3D-CNN, 두 가지 모델을 적용하였다. 본 논문은 다음과 같은 순서로 구성되어 있다. 2장 에서는 PCA와 CNN의 배경적 이론에 대해 설명한다. 3 장에서는 실험에 사용된 데이터와 방법론을 포함한 실험 설계를 설명하고 4장에서 실험결과 및 결과 해석을 수행한다. 마지막 5장에서는 본 연구의 결론과 함께 한계점 및 향후 연구 방향을 제안한다.
2. 배경이론
1) PCA
PCA는 데이터를 작고 이해하기 쉬우며, 독립적인 정보를 가진 변수들의 집합으로 바꿔주는 기법으로 초분광 영상 분석에 있어 차원을 줄이는 데 효과적이다(Jensen and Lulla, 1987). 초분광 영상에서의 PCA 적용은 공분산 행렬의 고유분해에 따른 수학적 특성에 근거한다. 원 영상으로부터 주성분으로의 변환은 다음과 같은 고유분해 Eq. (1)에 근거한다.
\(\Sigma=A \Lambda A^{T}\) (1)
Eq (1)에서 A=(a1, a2, …, aN)는 고유벡터 행렬을 의미하며, and Λ는 고유값의 대각 행렬을 의미한다. 원 영상의 I번째 픽셀 벡터(xi)는 고유벡터 행렬을 통해 K번째 주성분까지의 픽셀 벡터(zi)로 변환된다(Eq. (2)).
\(z_{i}=\left[\begin{array}{c} z_{1} \\ z_{2} \\ \vdots \\ z_{k} \end{array}\right]=\left[\begin{array}{ccc} a_{11} & \ldots & a_{1 N} \\ \vdots & \ddots & \vdots \\ a_{k 1} & \ldots & a_{k N} \end{array}\right]\left[\begin{array}{c} x_{1} \\ \vdots \\ x_{N} \end{array}\right]\) (2)
변환된 주성분 밴드들(PC bands)의 축은 고유벡터의 성질에 의해 서로 독립적이다. 초분광 데이터는 연속적인 분광 응답 함수를 가지기 때문에, 주변 분광 정보가 중복되는 문제(redundancy problem)를 내포하고 있는데, PCA의 특성은 이러한 중복을 제거해 줄 수 있다. 처음 K번째 주성분까지의 변환된 데이터로 설명되는 분산 비율(explained variance ratio)은 Eq. (3)을 통해 계산될 수 있다. 이때, 가장 처음의 주성분 밴드가 가장 많은 정보량을 가지며 그 비율은 점점 감소하게 된다. 효율적인 초분광 영상의 차원축소를 위해서는 적절한 주성분 밴드를 선택하는 것이 중요하다.
\(\frac{\sum_{i=1}^{K} \lambda_{i}}{\lambda_{1}+\lambda_{2}+\ldots+\lambda_{N}}\) (3)
2) CNN
CNN은 대표적인 딥러닝 알고리즘 중 하나로 그리드 형태의 위상(grid-like topology)을 가진 데이터를 처리하는데 널리 사용된다(Goodfellow et al., 2016). 영상 분류의 맥락에서 CNN은 컨볼루션 커널(convolution kernel) 를 통해 공간적 특성을 고려할 수 있게 해준다. 컨볼루션 필터 연산의 모수는 필터의 크기와 개수로 결정되는데, 일반적으로 모수의 수가 많고 레이어(layer)가 깊으면 모델의 복잡도가 높다고 한다. 초분광 영상의 경우 필터의 크기, 특히 채널을 증가시켜 모델의 복잡도를 높일 우려가 있다. 모델의 복잡도가 높아지면, 연산 시간이 오래 걸리며, 학습시킬 모수가 많아져 학습 표본의 상대적 부족을 초래할 수 있다.
한편, 비디오와 같은 3차원 데이터 큐브를 효과적으로 분석하기 위해 3차원 컨볼루션 필터가 적용된 3DCNN이 발전해왔다(Ji et al., 2013; Tran et al., 2015). 3차원 컨볼루션 필터는 모수의 수를 더욱 증가시켜 모델의 복잡도를 향상시키지만, 분광 정보를 공간 정보와 함께 유의미하게 추출할 수 있어 초분광 영상 분류에 3D-CNN 을 적용하기도 한다. 2차원 컨볼루션 커널과 3차원 컨볼루션 커널의 차이점은 Eq. (4)와 Eq. (5)를 통해 확인할 수 있다.
\(v_{l i}^{x y}=\mathrm{f}\left(\sum_{m} \sum_{h=0}^{H_{i}{ }^{1}} \sum_{w=0}^{W_{i}-1} k_{l i m}^{h w} v_{(l-1) m}^{(x+h)(y+w)}+b_{l i}\right)\) (4)
\(v_{l i}^{x y z}=f\left(\sum_{m} \sum_{h=0}^{H_{e} 1} \sum_{w=0}^{W_{i}-1} \sum_{r=0}^{R_{f}-1} k_{l i m}^{h w} v_{(l-1) m}^{(x+h)(y+w)}+b_{l i}\right)\) (5)
여기에서 \(v_{li} ^{xy}\)는 l번째 레이어, i번째 특징맵(feature map)에서 (x, y)에서의 출력값을 의미하며, k와 f는 각각 커널 값과 활성함수(activation function)을 의미한다. bli는 바이어스(bias value)를 의미하며, H, W, R는 각각 커널의 높이와 너비, 채널을 의미한다.
3. 실험설계
본 연구에서는, 2개의 서로 다른 토지 피복을 가지는 초분광 데이터셋(dataset)을 사용하였다. 첫 번째 데이터는 AVIRIS(Airbornes Visible Infrared Imaging Spectrometer)를 통해 촬영된 IP(Indian Pines) 초분광 영상이다 (Fig. 1(a) and Fig. 1(b)).IP 영상은 145×145픽셀과 0.4~2.5 µm 구간의 220개의 분광 밴드로 이루어져 있다. IP의 토지 피복은 주로 식생으로 이루어져 있으며 총 16개의 클래스를 가진다. 두 번째 데이터는 ROSIS(ReflectiveOptics System Imaging Spectrometer)를 통해 촬영된 PU(Pavia University) 초분광 영상으로 610×340픽셀과 0.43~0.86 µm 범위의 104개의 분광 밴드로 구성되어 있다(Fig. 2(a) and Fig. 2(b)). PU는 도로, 건물과 같은 인공물의 토지 피복을 포함하고 있으며 총 9개의 클래스를 갖는다.
Fig. 1. Indian Pines hyperspectral dataset (a) true color image, (b) ground-truth image, (c) transformed image through PCA.
Fig. 2. Pavia University hyperspectral dataset (a) true color image, (b) ground-truth image, (c) transformed image through PCA.
먼저 차원축소를 위해 PCA를 두 데이터셋에 적용하였다. Fig. 1(c)와 Fig. 2(c)는 PCA를 통해 분광 차원이 축소된 IP와 PU 영상으로, 첫 번째 주성분을 false color로 나타내었다. 첫 번째 주성분에 대상 지역 주요 물질의 개략적 구분이 가능할 정도의 정보량이 포함되었음을 시각적으로 확인할 수 있다. PCA를 통해 축소된 데이터는 2D-CNN과 3D-CNN 모델을 학습시키는 데에 사용된다. 이를 위해 각각의 데이터를 학습표본(training sample), 검정표본(validation sample) 그리고 시험표본 (test sample)으로 분할하였으며, 정량적 비교를 위해 학습표본과 검정표본을 모든 실험에 대해서 각각 2400개, 600개로 고정하였다. 이후 PCA의 영향을 분석하기 위해 주성분의 개수를 바꿔가며 적용하였고, 분류 결과를 비교 분석하였다. 샘플링(sampling)과 학습의 무작위성 (randomness)을 배제하기 위하여 동일한 조건의 학습을 20번 반복한 뒤 상 하위 10%의 이상치를 제외한 나머지의 평균값을 사용하였다. 추가로, PCA를 거치지 않은 원 영상으로도 CNN 모델을 학습시켰으며 PCA-CNN의 분류 결과와 비교하였다.
본 연구에서 사용된 CNN 모델은 Table 1과 같다. 모델은 두 개의 컨볼루션 레이어(convolutional layer)만으로 구성되었는데, 컴퓨터 비전(computer vision)에서 유명한 GoogLeNet(Szegedy et al., 2015), VGGNet(Simonyan and Zisserman, 2014)과 같은 CNN 모델과 비교하면 그 깊이가 매우 얕다. 이는 사용된 입력레이어의 크기 차이 때문이다. 유명한 CNN 모델들은 전체 영상을 입력 레이어(input layer)로 사용하는 것과 달리, 본 연구에서 사용된 모델의 입력레이어는 한 픽셀과 주변 몇 개의 픽셀을 포함하는 패치 형태의 작은 데이터로 이를 학습 하기 위해서는 여러 층으로 깊게 쌓인 네트워크가 불필요하다. 따라서 두 개의 컨볼루션 레이어를 가지는 얕은 모델을 설계하였고 컨볼루션 필터도 (3×3)의 작은 크기로 구성하였다. 필터의 개수와 모델의 초모수 (hyperparameter)는 초기 실험을 통해 최적값으로 설정되었다. 컨볼루션 레이어 뒤에는 batch normalization layer(Loffe and Szegedy, 2015)가 이어지는데, 이 레이어는 출력값을 정규화하여 편차가 커지는 것을 방지하는 역할을 한다. 컨볼루션 과정을 통해 학습된 특징 (feature)은 전 연결 레이어를 통해 적절한 클래스로 분류된다. 전 연결 레이어에서 과적합(overfitting)을 방지 하기 위한 dropout 기법(Srivastava et al., 2014)을 추가로 적용하였다. 설계된 2D-CNN 모델은 결과의 정량적 비교를 위하여 모든 실험에 동일한 조건으로 적용되었다.
Table 1. 2D-CNN model architecture
본 연구에서는 3D-CNN의 적용을 통해 PCA 기반의 분광 차원축소가 컨볼루션 연산에 미치는 영향을 비교 분석하였다. Table 2는 본 연구에서 사용된 3D-CNN의 모델을 보여준다. 필터의 크기와 모델의 깊이는 초기 실험을 통해 적절하게 설정되었으며 2D-CNN과 마찬가지로 각 실험에서 모두 동일한 모델이 적용되어 정량적 비교가 가능하도록 하였다.
Table 2. 3D-CNN model architecture
4. 실험결과 및 논의
1) 실험결과
Tables 3 and 4는 본 연구의 실험결과를 보여주며, 각 실험의 시험정확도(test accuracy)와 학습시간(training time)을 나타낸다.
Table 3. Experimental results of 2D-CNN
Table 4. Experimental results of 3D-CNN
2) 학습시간과 분류 정확도
먼저, 학습시간의 경우 IP, PU에서 모두 PCA를 적용하였을 때 8~9초가 소요되었지만, 원 영상을 활용하였을 때에는 25초(IP)와 16초(PU)가 소요되어 학습시간이 약 2~3배 증가함을 알 수 있다. 본 연구에서 사용된 영상의 크기가 비교적 작으며 표본을 3000개의 적은 개수로 설정한 점을 고려하면 경우에 따라서 학습 시간의 차이는 더욱 증가될 우려가 있다. Fig. 3은 두 영상에서의 2D-CNN 분류정확도를 시각적으로 보여준다. 특정 주성분 밴드부터는 원 영상을 활용하였을 때보다도 높은 정확도를 보였으며 그 때의 주성분 개수는 각각 IP 50개, PU 10개이다. Table 5는 각 영상에 대해서 처음 부터 해당 주성분까지의 데이터로 설명되는 분산 비율 (explained variance ratio)을 보여준다. 원 영상 정확도를 넘는 주성분에서의 분산 비율은 각각 99.72%(IP), 99.81%(PU)로 유사한 값을 보인다. 즉, 누적정보량이 99.7~8% 이상이 될 때의 주성분에서부터는 원 영상과 비교해도 충분한 분류 성능을 보일 수 있다는 것을 의미한다. 주성분의 개수에 따른 시험정확도 그래프는 두 영상에서 유사한 양상을 보인다. 처음에는 주성분의 개수가 증가함에 따라 시험정확도도 함께 증가하지만, 일정 수준부터는 유의미한 정확도 상승을 관찰하기 어렵다. 시험정확도가 수렴할 때의 주성분 개수는 각각 IP 에서 50~60개, PU에서 10~12개로, 앞서 원 영상만큼의 분류 성능을 보일 수 있는 주성분의 개수와 유사한 것 을알수 있다. 즉, PCA를 통해 99.7~8%의 분산 비율을 포함하는 주성분으로 차원을 축소하면, 학습시간을 1/2~1/3까지 단축함과 동시에 높은 시험정확도를 유지할 수 있어 효율적인 영상 분류를 수행할 수 있다.
Fig. 3. Result graphs of test accuracy in 2D-CNN (a) Indian Pines, (b) Pavia University
Table 5. Explained variance ratio according to the number of PC bands in Indian Pines and Pavia University dataset
3) CNN의 분류 성능
Fig. 4는 주성분 개수에 따른 2D-CNN과 다른 기존 전통적인 분류 기법들의 결과를 보여준다. 사용된 기법은 초분광 영상 분류에 사용되는 대표적인 감독분류 기법들로 최대우도분류(MLC: Maximum Likelihood Classification)와 결정 트리(DT: Decision Tree) 기법이다. Fig. 4 를 통해 2D-CNN이 모든 경우에서 MLC와 DT보다 분류 정확도가 높다는 것을 확인할 수 있다. 2D-CNN은 분류 정확도가 95% 이상에서 수렴하는 반면, MLC와 DT는 70~80%의 정확도에서 수렴한다. 따라서, 본 연구에서 사용된 CNN 모델의 우수한 분류 성능을 기존 기법과 비교하여 증명할 수 있었다.
Fig. 4. Result graphs of test accuracy in 2D-CNN, MLC, DT (a) Indian Pines, (b) Pavia University.
4) 분류 결과 영상
Fig. 5는 분류 결과의 정성적 평가를 위한 분류 결과 영상을 나타내며, 각각 첫 번째 주성분을 적용한 경우, 10번째까지의 주성분을 적용한 경우, 30번째까지의 주성분을 적용한 경우, 50번째까지의 주성분을 적용한 경우, 원 영상을 적용한 경우의 결과를 보여준다. 첫 번째 주성분만을 사용한 경우에는 ground-truth의 클래스와 색이 다른 다수의 오분류 픽셀을 관찰할 수 있다. IP 결과 영상에서는 주성분의 개수가 늘어남에 따라 오분류 픽셀들이 점차 감소하는 것을 확인할 수 있는 반면, PU 결과 영상의 경우 10 PC bands 이후로는 눈에 띄는 변화를 확인하기 어렵다. 이러한 양상은 정량적으로 분류 정확도가 각각 10~15 PC bands(PU)와 50~60 PC bands (IP)에서 수렴한다는 점과 일치하는 결과이다.
Fig. 5. Classification Images of 2D-CNN in IP and PU.
5) 분류결과의 안정성
원 영상과 비교했을 때 PCA의 영향은 모델의 학습 과정을 통해서도 확인할 수 있다. Fig. 6는 IP에서의 2D-CNN 학습 과정을 나타내며, 각각 첫 번째 주성분 밴드를 적용할 경우(Fig. 6(a)), 50번째 주성분 밴드까지 적용 할 경우(Fig. 6(b)), 원 영상을 적용할 경우(Fig. 6(c))의 학습 과정을 보여준다. 붉은색 그래프와 녹색 그래프는 각각 반복 횟수(epoch)에 따른 검정표본의 손실과 정확도를 보여주며, 노란색 그래프와 파란색 그래프는 각각 시험표본의 손실과 정확도를 보여준다. Fig. 6(a)는 1 PC band에서 검정정확도가 60~70% 수준으로 머물며 더이상 상승하지 않는 것을 보여준다. 실제 1 PC band의 시험정확도는 68.5%(Table 3)로, 검정표본과 유사하게 제대로 분류가 수행되지 않았으며 이는 부족한 분광 정보로 인해 충분한 학습이 이루지지 않았기 때문이다. 반면 50개까지의 주성분을 사용한 경우와 원 영상을 활용한 경우에서는 모두 시험정확도가 95% 수준으로 우수한 분류 성능을 보였다. 하지만 학습과정은 두 경우가 다른 양상을 보이고 있다. 50 PC bands에서는 검정정확도가 큰 변동없이 안정적인 분류 결과를 보이고 있으나, 원 영상을 활용한 경우에는 비교적 검정정확도의 변동 폭이 크고 불안정한 것을 확인할 수 있다(Fig. 6(b) and 6(c)). 검정정확도의 폭이 커진다는 것은 훈련 표본을 통해 학습된 모델이 다른 분포를 가진 표본에 적용되었을 때 안정적인 성능을 보장하기 어렵다는 것을 의미한다. 즉, 원 영상을 활용한 경우 분류 결과의 안정성이 떨어진다고 할 수 있는데, 이는 원 영상의 차원이 매우 높으며 또한 다수의 정보량이 중복되어 상대적으로 부족한 학습 표본에 모델이 과적합되었기 때문이다. 반면 PCA 를 적용한 경우에는 이러한 중복도를 줄여주고 차원을 축소시켰기 때문에 안정적인 분류 성능을 보여줄 수 있었다.
Fig. 6. Training process of 2D-CNN in Indian Pines (a) first PC band, (b) 50 PC bands (c) Original-CNN.
Fig. 7는 IP에서의 PCA50-2D-CNN과 Original-2D-CNN의 중간레이어의 활성화 값을 시각화하여 보여준다. Fig. 7(a)와 Fig. 7(c)는 첫 번째 컨볼루션 레이어(convolution layer)의 활성화 값이며, Fig. 7(b)와 Fig. 7(d)는 마지막 컨볼루션 레이어의 활성화 값을 보여준다. 각각의 패치들은 하나의 패치가 해당 레이어의 각 필터를 거친 결과를 보여준다. 밝은 값은 해당 필터가 설명하는 특징이 활성화된 것을 의미하며, 이는 최종 분류 수행에 영향을 미치는 특징이 된다. Fig. 7에 사용된 패치 기반 픽셀의 경우 첫 번째 레이어에서는 활성화 정도가 유사하지만, 분류 결과에 직접적인 영향을 미치는 마지막 레이어의 경우 PCA에서 활성화된 패치가 원 영상에서보다 많은 것을 확인할 수 있다.
Fig. 7. Activation results of the convolution layer of 2D-CNN in Indian Pines (a) first convolution layer of PCA-CNN, (b) last convolution layer of PCA-CNN, (c) first convolution layer of Original-CNN, (d) last convolution layer of Original-CNN.
6) 3D-CNN과의 비교
전술한대로 3차원 컨볼루션 연산이 포함된 3D-CNN은 공간 정보와 함께 초분광 영상의 풍부한 분광 정보를 유의미하게 추출할 수 있다. 실제 원 영상의 분류 정확도(Table 4)는 각각 IP에서 96.704%, PU에서 97.584%로 2D-CNN의 원 영상 정확도보다 높은 값을 기록했다. 하지만 PCA를 적용하였을 때에는 이러한 경향이 유지 되지 않는 것을 확인할 수 있다. Fig. 8은 주성분 개수에 따른 2D-CNN과 3D-CNN의 시험정확도를 보여준다. IP의 경우에는 PCA를 적용하여도 3D-CNN이 2D-CNN 보다 높은 정확도를 보인 반면, PU에서는 처음 몇 개의 주성분을 제외하고는 2D-CNN의 정확도가 3D-CNN보 다 높은 것을 확인할 수 있다. 두 그래프의 양상이 다른 것은 각각의 주성분 밴드가 포함하고 있는 누적정보량의 차이에서 기인한 것으로 분석된다. IP의 60개의 주성분이 포함하고 있는 누적정보량은 PU에서는 10~15개의 주성분에 충분히 포함된다. 즉, IP의 그래프 양상은 PU 그래프의 초반 부분인 10~15개 주성분 부분에 해당 한다고 할 수 있다. 결론적으로 3D-CNN에서는 PCA를 적용할 때 2D-CNN에 비해 분류 성능이 더욱 감소한다 고할수 있는데, 이는 3D 컨볼루션의 연산 방식과 PCA 의 특성에 의한 것으로 분석된다. 3D 컨볼루션 커널은 분광 차원의 위상 정보를 학습하게 되는데 PCA를 적용 할 경우 주성분 축이 물리적인 의미를 갖지 않기 때문에 주성분 밴드 간의 무의미한 위상 정보를 학습하게 된다. 또한 그러한 경향은 주성분의 개수가 많아질수록 증폭되어 분류 성능을 저하시킬 수 있다. 결론적으로, PCA를 적용하여 초분광 영상을 압축하는 방법은 3DCNN에서는 오히려 악영향을 미칠 가능성이 있으며, 3D 컨볼루션을 활용할 경우 원 영상을 사용하는 것이 유리하다. 학습시간의 관점에서는 원 영상에 3D-CNN을 적용한 경우가 학습시간이 80~100배 가량 늘지만 정확도는 1~2%가 향상된 점을 고려하면 비효율적이라고 할 수 있다.
Fig. 8. Test accuracy of 2D-CNn and 3D-CNN in Indian Pines and Pavia University.
5. 결론
본 논문에서는 효율적인 CNN 기반 초분광 영상 분류를 위한 PCA의 영향을 분석하였다. 이를 위해 IP, PU 두 초분광 영상에 CNN을 적용하였고 결과를 비교 분석하였다. 두 지역 모두에서 PCA를 기반으로 축소된 차원의 크기가 커짐에 따라 정확도도 증가하였지만, 특정 수준부터는 유의미한 증가가 없이 수렴했으며 이때의 주성분 개수는 설명되는 분산 비율이 99.7~8%인 구간이었다. 또한, 이때의 정확도는 원 영상을 활용한 CNN 분류 결과보다 높은 수치를 기록하였으며, 학습시간 역 시 PCA를 적용하였을 때가 더욱 적었다. 따라서 CNN 기반 초분광 영상 분류 시, 99.7~8%의 분산비율을 포함 하는 주성분으로 PCA를 적용하는 것이 시간과 정확도 측면에서 효율적일 수 있다. 또한, 분류 결과의 안정성 은 학습 과정을 통해 시각적으로 확인할 수 있었는데, 원 영상의 학습 과정이 PCA를 기반으로 축소된 데이터의 학습 과정에 비해 더욱 불안정한 것을 관찰할 수 있 었다. 한편, 3D-CNN의 경우, 원 영상을 활용하면 높은 정확도를 얻을 수 있지만, PCA가 적용된 영상을 활용하면 오히려 2D-CNN보다 낮은 정확도를 얻어 PCA의 적용 효과가 미미한 것으로 분석되었다.
향후 연구로는, 본 연구의 한계점인 한정적인 데이터에 착안하여, 더욱 다양한 데이터셋 활용을 통한 실험 결과의 신뢰도 확충이 진행될 수 있다. 본 연구에서는 CNN 기반 초분광 영상의 차원축소 기법으로 가장 대표적인 PCA를 선정하여 CNN의 성능에 미치는 영향을 분석하였으나, 이외에도 ICA(Independent Component Analysis), feature selection, MNF(Minimum Noise Fraction) 와 같은 다양한 차원축소 기법들이 CNN 기반 분류에 미치는 영향도 분석할 수 있다. 마지막으로 CNN 이외에도 최근 다양하게 제안되고 있는 초분광 영상 분류 딥러닝 네트워크에서 역시 PCA가 효율적으로 적용될 수 있는지에 관한 연구도 진행될 수 있다.
사사
본 연구는 2019년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업(NRF2019R1I1A2A01058144)과 행정안전부 재난안전 산업육성지원 사업(2019-MOIS32-015)의 지원을 받아 수행되었습니다.
참고문헌
- Chen, Y., H. Jiang, C. Li, X. Jia, and P. Ghamisi, 2016. Deep feature extraction and classification of hyperspectral images based on convolutional neural networks, IEEE Transactions on Geoscience and Remote Sensing, 54(10): 6232-6251. https://doi.org/10.1109/TGRS.2016.2584107
- Cheng, Q., P.-K. Varshney, and M.-K. Arora, 2006. Logistic regression for feature selection and soft classification of remote sensing data, IEEE Geoscience and Remote Sensing Letters, 3(4): 491-494. https://doi.org/10.1109/LGRS.2006.877949
- Rodarmel, C. and J. Shan, 2002. Principal component analysis for hyperspectral image classification, Surveying and Land Information Science, 62(2): 115-122.
- Fauvel, M., J.-A. Benediktsson, J. Chanussot, and J.-R. Sveinsson, 2008. Spectral and spatial classification of hyperspectral data using SVMs and morphological profiles, IEEE Transactions on Geoscience and Remote Sensing, 46(11): 3804-3814. https://doi.org/10.1109/TGRS.2008.922034
- Goodfellow, I., Y. Bengio, and A. Courville, 2016. Deep learning, MIT press, Cambridge, MA, USA.
- He, M., B. Li, and H. Chen, 2017. Multi-scale 3d deep convolutional neural network for hyperspectral image classification, Proc. of 2017 IEEE International Conference on Image Processing, Beijing, China, Sep. 17-20, pp. 3904-3908.
- Hu, W., Y. Huang, L. Wei, F. Zhang, and H. Li, 2015. Deep convolutional neural networks for hyperspectral image classification, Journal of Sensors, 2015(258619): 12.
- Jensen, J. R. and K. Lulla, 1987. Introductory digital image processing: a remote sensing perspective, Prentice hall press, Bergen, NJ, USA.
- Ji, S., W. Xu, M. Yang, and K. Yu, 2012. 3D convolutional neural networks for human action recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(1): 221-231. https://doi.org/10.1109/TPAMI.2012.59
- Li, Y., H. Zhang, and Q. Shen, 2017. Spectral-spatial classification of hyperspectral imagery with 3D convolutional neural network, Remote Sensing, 9(1): 67. https://doi.org/10.3390/rs9010067
- Liang, H. and Q. Li, 2016. Hyperspectral imagery classification using sparse representations of convolutional neural network features, Remote Sensing, 8(2): 99. https://doi.org/10.3390/rs8020099
- Lillesand, T., R.-W. Kiefer, and J. Chipman, 2015. Remote sensing and image interpretation, John Wiley & Sons, Hoboken, NJ, USA.
- Lim, S., K.-H. Sohn, and C. Lee, 2001. Principal component analysis for compression of hyperspectral images, Proc. of IEEE 2001 International Geoscience and Remote Sensing Symposium, Sydney, NSW, Jul. 9-13, vol. 1, pp. 97-99.
- Loffe, S. and C. Szegedy, 2015. Batch normalization: Accelerating deep network training by reducing internal covariate shift, arXiv preprint arXiv:1502.03167.
- Makantasis, K., K. Karantzalos, A. Doulamis, and N. Doulamis, 2015. Deep supervised learning for hyperspectral data classification through convolutional neural networks, Proc. of 2015 IEEE International Geoscience and Remote Sensing Symposium, Milan, Italy, Jul. 26-31, pp. 4959-4962.
- Mei, X., E. Pan, Y. Ma, X. Dai, J. Huang, F. Fan, and J. Ma, 2019. Spectral-spatial attention networks for hyperspectral image classification, Remote Sensing, 11(8): 963. https://doi.org/10.3390/rs11080963
- Rodarmel, C. and J. Shan, 2002. Principal component analysis for hyperspectral image classification, Surveying and Land Information Science, 62(2): 115-122.
- Samaniego, L., A. Bárdossy, and K. Schulz, 2008. Supervised classification of remotely sensed imagery using a modified k-NN technique, IEEE Transactions on Geoscience and Remote Sensing, 46(7): 2112-2125. https://doi.org/10.1109/TGRS.2008.916629
- Simonyan, K. and A. Zisserman, 2014. Very deep convolutional networks for large-scale image recognition, arXiv preprint arXiv: 1409.1556.
- Slavkovikj, V., S. Verstockt, W. De Neve, S. Van Hoecke, and R. Van de Walle, 2015. Hyperspectral image classification with convolutional neural networks, Proc. of 23rd ACM International Conference on Multimedia, Brisbane, Australia, Oct. 26-30, pp. 1159-1162.
- Srivastava, N., G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, 2014. Dropout: a simple way to prevent neural networks from overfitting, The Journal of Machine Learning Research, 15(1): 1929-1958.
- Szegedy, C., W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, and A. Rabinovich, 2015. Going deeper with convolutions, Proc. of 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, MA, Jun. 7-12, pp. 1-9.
- Tarabalka, Y., J.-A. Benediktsson, and J. Chanussot, 2009. Spectral-spatial classification of hyperspectral imagery based on partitional clustering techniques, IEEE Transactions on Geoscience and Remote Sensing, 47(8): 2973-2987. https://doi.org/10.1109/TGRS.2009.2016214
- Tran, D., L. Bourdev, R. Fergus, L. Torresani, and M. Paluri, 2015. Learning spatiotemporal features with 3d convolutional networks, Proc. of 2015 IEEE International Conference on Computer Vision, Santiago, Chile, Dec. 7-13, pp. 4489-4497.
- Zhang, H., Y. Li, Y. Zhang, and Q. Shen, 2017. Spectral-spatial classification of hyperspectral imagery using a dual-channel convolutional neural network, Remote Sensing Letters, 8(5): 438-447. https://doi.org/10.1080/2150704X.2017.1280200
- Zhao, W. and S. Du, 2016. Spectral?spatial feature extraction for hyperspectral image classification: A dimension reduction and deep learning approach, IEEE Transactions on Geoscience and Remote Sensing, 54(8): 4544-4554. https://doi.org/10.1109/TGRS.2016.2543748