DOI QR코드

DOI QR Code

Segmenting Layers of Retinal OCT Images using cGAN

cGAN을 이용한 OCT 이미지의 층 분할

  • Kwon, Oh-Heum (Dept. of IT Convergence and Application Engineering, Pukyong National University) ;
  • Kwon, Ki-Ryong (Dept. of IT Convergence and Application Engineering, Pukyong National University) ;
  • Song, Ha-Joo (Dept. of IT Convergence and Application Engineering, Pukyong National University)
  • Received : 2020.09.18
  • Accepted : 2020.11.23
  • Published : 2020.12.31

Abstract

Segmenting OCT retinal images into layers is important to diagnose and understand the progression of retinal diseases or identify potential symptoms. The task of manually identifying these layers is a difficult task that requires a lot of time and effort even for medical professionals, and therefore, various studies are being conducted to automate this using deep learning technologies. In this paper, we use cGAN-based neural network to automatically segmenting OCT retinal images into seven terrain-type regions defined by six layer boundaries. The network is composed of a Segnet-based generator model and a discriminator model. We also proposed a dynamic programming algorithm for refining the outputs of the network. We performed experiments using public OCT image data set and compared its performance with the Segnet-only version of the network. The experimental results show that the cGAN-based network outperforms Segnet-only version.

Keywords

1. 서론

인간의 망막(retina)은 조직 구성의 차이에 따라 여러 층(layer)으로 나누어진다. 당뇨성 망막증(dia-beticretinopathy)이나 AMD(Age-relatedMacular Degeneration)등과 같은 안과 질환은 망막에 위축(atrophy), 출혈, 부종(edema), 결정체(drusen) 등을 초래하고 이로 인해 망막을 구성하는 층들의 두께와 형태에 변형이 가해진다. Fig.1은 각각 건강한 망막과 비출혈성 AMD가 있는 경우에 망막 층의 형태 변형의 예를 보여준다. 망막에서 이러한 층들을 식별하고 두께를 측정하거나 출혈부위 등을 탐지해내는 것은 질병을 진단하고 진행과정을 이해하거나 혹은 질병의 잠재적인 징후를 파악하는데 있어서 매우 중요하다[1]. 망막 층들은 매우 미세하고 층들 간의 구분은 시각적으로 모호한 부분도 많아서 수작업으로 이러한 층들을 식별하는 작업은 의료 전문가의 경우에도 상당히 많은 시간과 노력이 필요한 까다롭고 어려운 일이다. 따라서 이를 자동화하려는 연구가 꾸준히 진행되고 있다.

MTMDCW_2020_v23n12_1476_f0001.png 이미지

Fig. 1. Sample OCT retinal images: (a) healthy, (b) AMD patient.

망막 층을 자동으로 분할하려는 연구는 크게 두 가지 부류로 분류할 수 있다. 첫 번째는 망막 층의 구조에 대한 수학적 모델을 수립하여 이용하는 방법이다[2,3]. 망막 구조에 대한 사전 지식을 이용하여 수학적 모델을 수립하고 수학적 최적화 알고리즘을 적용하여 이미지를 층들로 분할하는 것이다[4,5]. 일반적으로 이러한 모델은 층간 간격의 상한과 하한값, 층 경계선의 곡률 등에 대한 값들을 이용한다. 하지만 이러한 접근은 개인, 인종, 질병의 종류 및 진행정도에 따른 차이를 표현하기 어렵고, 이를 극복하기 위해서는 각각의 경우마다 서로 다른 모델을 수립해야하는 문제가 있다.

최근에 심층 기계학습(deep machine learning)분야의 급속한 기술적 발전에 힘입어 의료 이미지의 분석에 기계학습 기술을 적용하는 사례가 급증하고 있으며 기계학습을 이용하여 망막 층의 형태와 두께를 분석하는 것에 관한 연구들이 이루지고 있다. 기계학습에 기반한 방법은 학습 데이터로부터 필요한 특성들을 학습하여 스스로 규칙과 기준을 생성한다는 점에서 효율적이다.

Vermeer 등[6]과 Lang 등[7]은 SVM(Support VectorMachine)이나 랜덤 포리스트 모델(random forestmodel)을 사용하여 정상인과 녹내장 환자의 망막층을 분할하는 문제를 다루었다. 이 연구들은 10명 정도의 환자의 데이터에 대해서 수행되었고, 성능에 있어서도 신경망을 이용하는 이후의 연구들에 미치지 못하였다. Venhuizen등[8]은 컨볼루션 신경망(convolutional neural network: CNN)을 사용하여 망막에 심한 병변이 있는 경우에도 전체 망막 영역을 분할할 수 있음을 보였다. Roy등[9]은 CNN을 사용하여 망막 층에서 수액(fluid)영역을 분리하는 문제를 다루었다. 최근 구글 딥마인드 연구진은 망막 층을 분할하고 그 결과에 근거하여 여러 가지 안과 질환을 진단하는 것에 관한 연구 결과를 발표하였다[10]. 이러한 연구들은 망막을 구성하는 세부 층들을 식별하는 대신 망막 전체를 하나의 영역으로 분할한다는 점에서 본 논문에서 다루는 문제와는 다르다.

Fang 등[11]은 망막 이미지를 일정한 크기의 패치(patch)들로 잘라내고, 이들을 이용하여 CNN을 학습함으로써 각각의 픽셀이 층 경계선에 위치할 확률을 계산하고 그 결과에 그래프(graph)탐색 알고리즘을 적용하여 경계선을 식별하는 복합적인 기법을 제안하였다. Shah 등[12]은 층 분할 문제를 픽셀들을 영역으로 분류하는 대신 직접적으로 분할선 궤적의 좌표를 찾는 방식으로 접근하였다. 한편 망막 층을 식별하는 것은 일종의 이미지 분할(segmentation)문제이다. 즉 이미지를 구성하는 픽셀(pixel)들을 지정된 개수의 클래스로 분류하는 문제이며, 이미지 분할 문제를 다루는 대표적인 신경망인 Unet[13]이나 Segnet[14]과 같은 건너뛰는 연결(skipconnection)을 가진 인코더-디코더(encoder-decoder)네트워크를 이용하여 망막 층을 분할하고 성능을 비교하는 연구들이 이루어져 왔다[15,16].

한편 GAN(generative adversarial network)과 cGAN(conditionalGAN)은 생성자(generator)와 적대적 감별자(adversarial discriminator)를 동시에 학습하는 최소최대(minmax) 게임이론에 기반한 신경망 구조이다[17,18]. 감별자는 입력 데이터가 생성자에 의해서 생성된 위조 데이터인지 아니면 진짜 데이터인지 감별하도록 학습되고, 생성자는 자신이 생성한 위조 데이터가 감별자에 의해서 진짜 데이터와 구분되지 못하도록 학습된다. 두 모델은 경쟁관계를 형성하면서 스스로를 갱신해나간다. 이런 구조의 네트워크들은 패션, 상업예술, 광고 등의 분야에서 이미지의 생성이나 변환 등의 목적으로 널리 활용되고 있다[19].

cGAN의 경우 GAN과 달리 그럴듯한 가짜 이미지의 생성이나 스타일의 변환 등의 목적에 한정되지 않고 전통적인 지도학습(supervisedlearning)을 수행할 수 있다. 지도학습에서 입력 데이터는 특성(feature)과 라벨(label)로 구성되며, cGAN을 구성하는 생성자는 특성으로부터 예측 라벨(predictedla- bel)을 생성하고, 감별자는 입력된 특성과 라벨의 쌍은 True로, 그리고 입력된 특성과 예측 라벨의 쌍은 False로 판별하도록 훈련된다. 이때 손실함수는 2가지 손실, 즉 라벨과 예측 라벨의 차이에 의해서 정의되는 전통적인 손실과 감별 모델의 감별 실패율에 의해서 정의되는 손실의 가중합으로 정의된다. 후자의 손실을 편의상 “GAN손실”이라고 부르자. 즉, 이는 전형적인 지도학습을 위한 신경망에 새로운 손실 함수인 GAN손실을 추가한 것이라고 볼 수 있다. 전통적인 손실함수인 L2-손실함수나 크로스엔트로피(cross-entropy)등과 달리 GAN손실은 사람에 의해서 정의된 것이 아니라 데이터로부터 스스로 학습한 손실함수이며 일정정도 지도학습을 보조하고 개선하는 역할을 하게 된다.cGAN은 이러한 특성으로 인해서 다양한 분야에서 유용성이 입증되고 있으 며, 의료 이미지 처리 분야에서도 이미지의 초고해상도 재건(super-resolution reconstruction)[20,21], 명시야 홀로그래피(bright-fieldholography)[22,23]등의 문제에 사용되고 있다.

본 논문에서는 cGAN에 기반한 신경망을 망막 OCT 이미지에서의 층분할 문제에 적용하였다.OCT망 막 이미지에서 Fig.2에 표시된 Bruch의 상피(Bruch’s membrane: BM), 망막 색소 상피(retinal pigment epithelium: RPE), 내부광수용체영역(inner photo-receptorsegment: IPS)과 외부광수용체영역(outer photoreceptor segment: OPS)의 경계, 외부얼기층 (outerplexiformlayer:OPL)과 외부핵층(outernu-clear layer:ONL)의 경계, 신경섬유층(nerve fiber layer: NFL)과 신경절세포층(ganglion cell layer: GCL)의 경계, 그리고 내부 경계막(innerlimitingmem- brane: ILM)의 총 6개의 층 분할선을 식별하는 문제를 고려하였다.Segnet을 부분적으로 수정하여 생성자 모델을 구성하였고, PatchedGAN기법[24]을 적용한 감별자를 사용하였다. 생성자는 이미지를 6개의 분할선에 의해서 정의되는 7개의 영역으로 분할하는 역할을 하며, 감별자는 이러한 분할 결과의 진위를 감별한다.

MTMDCW_2020_v23n12_1476_f0002.png 이미지

Fig. 2. Retinal layers.

생성자는 단지 픽셀 각각을 6개의 분할선에 의해서 정의되는 7개의 영역중 하나로 분류하는 것이므로 같은 영역으로 분류된 픽셀들이 Fig.2에서와 같이 이미지를 수평으로 가로지는 터레인(terrain)형 태의 연결된 영역을 이룬다는 보장은 없다. 비정형적인(irregular)형태를 가지기도 하고 하나의 영역이 분리된(isolated) 여러 개의 작은 영역들로 분할될 수도 있다. 따라서 생성자의 결과에 대한 적절한 후 처리가 필요하다. 본 논문에서는 생성자에 의해 분할된 결과를 정제(refine)하는 동적계획법 알고리즘을 제시하였다. 후처리 알고리즘은 이미지의 각각의 열 (column)을 지정된 개수의 연속된 구간들로 최적 분할함으로써 생성자의 출력을 최대한 존중하면서 이미지를 터레인 형태의 영역들로 분할한다. 공개 데이터 셋을 사용하여 네트워크의 성능을 분석하고 기존의 방법인 Segnet을 단독으로 사용하였을 경우[15,16]와 비교하였다. 비교 결과 cGAN기반의 네트워크는 Segnet만을 단독으로 사용한 경우에 대해서 상당한 성능의 개선을 달성함을 확인하였다.

본 논문의 구성은 다음과 같다. 2장에서는 먼저 신경망의 구조와 층분할 선의 궤적을 찾기 위한 후 처리 알고리즘을 기술한다. 3장에서는 실험의 환경과 데이터 셋에 대해서 기술하고 성능 평가의 결과를 기술한다. 4장에서는 결론을 제시한다.

2. 신경망의 구조

2.1 네트워크 구조

네트워크는 생성자와 감별자로 구성된다. 생성자는 망막 이미지를 지정된 개수의 영역으로 분할하는 역할을 수행하며 Segnet을 기반으로 구성하였다. Segnet은 Fig.3에서 보여주는 것과 같이 인코더-디코더 네트워크 형태를 가진다.Fig.3에서 왼쪽의 인코더 부분은 연속적인 컨볼루션 층, 배치정규화 (Batch Normalization) 층, 그리고 맥스풀링(max- pooling)층으로 구성되며, 입력 이미지를 다운(down) 샘플링하면서 이미지의 전체적인(global)맥락에 관 한 정보를 포착하는 역할을 한다.Fig.3의 오른쪽 디코더 부분은 인코더와 대칭적인 구조를 가지며 이미지를 원래의 크기로 업(up)샘플링 한다. 그리고 인코더와 디코더의 서로 대응하는 층들끼리 연결하는 건너뛰는 연결(skipconnection)은 인코더 상의 각층의 정보를 디코더 상의 대응하는 층에 공급하여 업 샘플링을 수행할 때 지역적(local)정보가 고려되도록 하는 역할을 한다.Segnet의 경우 인코더에서 실행된 맥스풀링(maxpooling)연산의 인덱스(index) 정보를 디코더의 대응하는 층에 전달하고, 그 인덱스 정보가 역으로 적용되어 업 샘플링이 수행된다[14]. Segnet의 인코더 층들은 잘 알려진 VGG16네트 워크와 동일한 구조를 가지므로[25], 미리 학습된 VGG16 네트워크의 가중치를 적용하여 전이학습(transferlearning)을 수행하였다. 원래의 Segnet과 는 달리 디코더의 첫 두 번의 컨볼루션 층에 드랍아웃 (dropout)층을 추가하였다. 이 드랍아웃 층은 cGAN 에서 생성자에 입력되는 랜덤 벡터 z를 대신하는 역할을 한다. 즉, 명시적으로 랜덤 벡터를 생성하여 입력하는 대신 드랍아웃 층이 동일한 역할을 하도록 하였다. 디코더의 마지막 컨볼루션 층은 \(K=7\)개의 필터를 사용하며 Softmax활성함수를 사용하였다. 즉, 생성자는 이미지의 모든 픽셀에 대해서 \(K\)개의 분할 영역 각각에 속할 확률을 출력한다.

MTMDCW_2020_v23n12_1476_f0003.png 이미지

Fig. 3. Generator structure.

Fig.4는 감별자의 구조이다. 감별자의 입력으로는 입력 이미지 \(x\)와 함께 \(y\)에 대한 생성자의 출력 \(\tilde{y}=G(x, z) \)혹은 원-핫 인코딩(one-hotencoding)된 라벨 \(y\)가 제공된다. 즉, \((x, \tilde{y})\) 혹은 \((x, y)\)가 감별자의 입력이다. 여기서 \(x\)는 1채널 이미지이고 \(\tilde{y}\)\(y\)\(K\)채널 이미지로 볼 수 있으므로 \((x, \tilde{y})\)\((x, y)\)는 하나의 \(K+1\)채널 이미지로 다룰 수 있다. 감별자는 연속적인 5개의 컨볼루션 층으로 구성되며 이중 스트라이드(stride)가 2인 3개의 컨볼루션 층을 통해 이미지의 크기가 축약된다. 각 컨볼루션 층에는 배치 정규 화(Batch Normalization)층과 LeakyRelu활성함수 가 적용된다[26,27]. 또한 PatchedGAN기법을 사용한다[24]. PatchedGAN은 입력이미지 전체에 대해서 하나의 판별값을 출력하는 대신 이미지를 구성하는 작은 크기의 패치(patch)들에 대해서 개별적으로 판별값을 계산하고 그것을 합산하여 손실함수 값을 계산하는 기법이다. PatchedGAN은 감별자가 이미지의 전체적인 맥락이 아닌 세부적인 디테일에 집중하도록 함으로써 좀 더 정교한 디테일을 생성하는 효과가 있음이 알려져 있다[24].

MTMDCW_2020_v23n12_1476_f0004.png 이미지

Fig. 4. Discriminator structure.

손실(loss)함수는 감별자에 대한 손실함수 \(L_{c G A N}\)과 입력이미지 \(x\)에 대한 생성자의 출력 \(G(x, z)\)을 정답 분할 결과인 \(y\)와 직접 비교하는 손실함수 \(L_{c G A N}\)로 구성된다. 생성자 \(G\)와 감별자 \(D\)에 대해서 손실함수 \(L_{c G A N}\)은 다음과 같다.

\(L_{c G A N}(G, D)=E_{x, y}[\log D(x, y)]+E_{x, \tilde{y}}[\log (1-D(x, \tilde{y})]\)

감별자는 이 손실함수를 최대화하도록 학습되고, 생성자는 이 손실함수와 아래에서 정의되는 \(L_{S e g}\)의 가중합이 최소화되도록 경쟁적으로 학습된다. 타겟 분할 결과와 생성된 분할을 직접 비교하는 손실함수는 다음과 같이 이진 크로스 엔트로피(binarycross-entropy) 손실함수를 사용한다.

\(L_{S e g}(G)=-E_{x, y}[y \log \tilde{y}]\)

생성자 \(G\)는 이 목적함수 \(L_{c G A N}(G, D)\)를 최대화하 려는 적대적 감별자 \(D\)에 대해서 목적함수 \(L_{c G A N}(G, D)+\lambda L_{S e g}(G)\)를 최소화한다. 즉, 최적의 생성자는 다음과 같이 표현될 수 있다.

\(G^{*}=\operatorname{argmin}_{G} \max _{D} L_{c G A N}(G, D)+\lambda L_{S e g}(G)\)

2.2 후처리(post-processing)

망막 이미지에서 층 분할된 각각의 영역은 일반적으로 터레인의 형태를 가진다. 이것은 이미지의 각 열(column)이 \(K\)개의 구간(interval)들로 분할되어 각 구간이 순서대로 \(K\)개의 영역에 속해야 한다는 의 미이다. 하지만 생성자의 출력은 단지 각 픽셀을 \(K\)개 의 영역 중 하나로 분류하는 것이므로 Fig.6의 왼쪽 이미지들에서 보여주듯이 때때로 비정형적인 형태를 가지게 된다. 그림에서 보여주듯이 고립된(isolated)영역이 있거나, 층 분할선이 지그재그 형태를 가지기도 한다. 따라서 적절한 후처리를 통해서 분할 결과를 개선하는 절차가 필요하다. 본 논문에서는 동적계획법을 사용하는 후처리 알고리즘을 제시한다. 생성자에 의해서 생성된 이미지의 임의의 한 열은 다음과 같이 표현할 수 있다.

\(V=\left[v_{0}, v_{1}, \ldots, v_{H-1}\right], v_{i} \in\{0,1, \cdots, K-1 R I G H T\)

MTMDCW_2020_v23n12_1476_f0006.png 이미지

Fig. 6. Postprocessing results.

즉, \(H\)개의 픽셀로 구성되며 픽셀 \(i\)는 Segnet에 의해서 클래스 \(v_i\)로 분류되었음을 의미한다. 여기서 \(H\)는 입력 이미지의 높이(height)이다. 후처리의 목적은 이 열을 \(K\)개의 구간(interval)으로 분할하는 것이다.하나의 분할은 다음과 같이 각 구간의 시작 인덱스에 의해서 정의된다.

\(p=\left[b_{0}, b_{1}, \cdots, b_{K-1}\right], b_{0}=0, b_{i} \leqq b_{i+1}, i=0, \cdots, k-2\)

여기서 \(b_{i} \in\{0,1, \cdots, H-1\}\)는 클래스 \(i\)로 분류될 구간의 시작 인덱스이다. 즉, 픽셀 \(b_{i}, b_{i}+1, \cdots, b_{i+1}-1\)은 클래스 \(i\)로, 그리고 마지막으로 픽셀들 \(b_{K-1}, \cdots, H-1\)은 클래스 \(i\)로 분류한다는 의미이다. 분할 \(p\)를 따르는 열의 분할을 \(V(p)\)라고 표시하자. 이때 분할 \(V(p)\)는 생성자의 출력 \(V\)와 가능한 한 많이 일치해야 할 것이다. Fig.5에서 빨간색으로 표시된 원소들이 \(V\) 와 일치하지 않는 원소들이다. 임의의 분할 \(p\)에 대해서 분할 \(V(p)\)\(V\)와 일치하지 않는 원소의 개수를 \(h(V, p)\)라고 하고 이 값이 최소화되도록 분할하는 것을 최적 분할이라고 하자. 즉 최적 분할은 다음과 같다.

\(p_{o p t}=\operatorname{argmin}_{p} h(V, p)\)

MTMDCW_2020_v23n12_1476_f0005.png 이미지

Fig. 5. Example of optimal partition when H=12 and K=5.

최적분할 \(p_{o p t}\)를 구하는 것은 동적계획법으로 해결 할 수 있다. \(f(i, k)\)를 부분(partial)열 \(V_i =[v_o,v_1, ..., v_{i-1}]\)\(k \leqq K\)개의 영역 0,1,...,k-1으로 최적으로 분할했을 때 위반되는 원소의 개수라고 정의하자. 그러면 다음과 같은 순환식이 성립한다.

\( f(i, k)=\left\{\begin{array}{ll} 0, & \text { if } i=0 \\ i, & \text { if } k=0 \\ \min _{0 \leq j \leq i} f(j, k-1)+g([j, i-1], k-1), & \text { other wise } \end{array}\right.\)

여기서 \(g([j, i-1], k-1)\)은 픽셀 \(j\)에서 \(i-1\)까지를 \(k-1\)번 클래스로 분류했을 때 이 중 \(V\)와 일치하지 않는 픽셀의 개수이다. 이 순환식을 푸는 동적 계획법 알고리즘으로 최적 분할에서의 위반된 원소의 개수를 계산할 수 있으며 최적 분할 \(P_{opt}\)는 이 순환식을 계산하는 과정에서 위의 수식을 최소로 만드는 인덱스 \(j\)를 저장함으로써 찾아질 수 있다.

Fig.6의 오른쪽 이미지들이 생성자의 출력인 왼쪽 이미지들에 대응하는 후처리 결과들이다. Fig.6 의 두 번째 예에서 보여주듯이 부드러운 연속적인 곡선 대신 계단식의 분할선이 만들어질 수 있다. 이 점에서 완만한 곡선을 형성하는 경향이 있는 최단 경로[16]를 이용하는 방법이나 보간법을 이용하는 방법과는 차이가 있지만 생성자에 의한 분할 결과를 훼손하지 않고 최대한 반영한다는 특징이 있다.

3. 성능 평가

3.1 데이터 셋과 학습과정

실험에 사용된 데이터 셋은 Duke대학 VIP연구 실이 공개한 것이다[28]. 데이터 셋은 비출혈성 AMD환자 269명과 정상인 115명에 대한 총 384개의 OCT이미지로 이루어진다. 각 이미지에서 층 경계선 정보가 포함되어 있는 512×640 크기의 중앙부만을 잘라내어 사용하였다. 이미지의 각 픽셀은 가로와 세로가 각각 6.55μm와 3.19μm인 망막 단면에 해당한다. 데이터를 8:2의 비율로 분할하여 학습 데이터와 테스트 데이터로 사용하였다. 학습 데이터 셋의 증가(augmentation)를 위해서 각각의 학습 이미지를 좌우 대칭 변환 및 상하 평행이동하여 2개의 새로운 이미지를 추가하였다.

신경망은 Tensorflow2.0으로 구현하였으며 GE ForceITX1080TiGPU에서 실행하였다. Fig.7은 학습 진행과정에서 손실함수의 변화를 보여준다. 가로축은 에포크(epoch)를 나타내며, 세로축은 왼쪽 그림부터 순서대로 \(L_{Seg}\), \(L_{cGAN}\) 그리고 통합 손실함수인 \(L_{c G A N}+\lambda L_{S e g}\)를 표시하며, 대략 30에포크 정도에서 더 이상 학습이 진전되지 않는 것을 알 수 있다.

MTMDCW_2020_v23n12_1476_f0007.png 이미지

Fig. 7. Losses during training.

3.3 실험 결과

본 연구에서는 기존 연구의 Segnet만을 이용하는 방법[15,16]과 cGAN을 이용하는 경우에 대해서 분할선 위치의 정확성과 또한 망막 층의 두께 오차를 비교한다.Fig.8의 왼쪽 차트는 두 네트워크의 층 분 할선의 위치 오류를 각각의 분할선에 대해서 비교한 것이며 오른쪽은 분할선에 의해서 정의되는 망막 층의 두께 오차를 비교한 것이다.분할선 BM의 위치 오차와 RPE∼BM층의 두께 오차에 대해서는 Segnet이 미세하게 우수한 결과를 보였으며 나머지 모든 경우에 대해서는 cGAN이 Segnet에 비해 우수한 정확도를 보여준다.

MTMDCW_2020_v23n12_1476_f0008.png 이미지

Fig. 8. Boundary position and layer thickness errors for all patients.

Table1은 층 경계선들에 대해서 두 네트워크의 평균 위치 오류와 표준편차를 정상 환자와 AMD 환자로 나누어서 나타낸 것이다.cGAN은 정상 환자 군의 RPE와 BM위치 오류에서만 미세하게 Segnet 보다 큰 오차를 보여주며, 나머지 모든 경우들에 대해서 우수한 정확도를 보여준다. 또한 표에서 ↑기호로 표시된 항목들인 AMD환자의 NFL/GDL과 전체 환자의 NFL/GDL및 OPL/ONL에 대해서는 p<0.05 로 유의미한 성능의 차이를 보였다.

Table 1. Mean errors with standard deviations (±value) for layer boundary positions

MTMDCW_2020_v23n12_1476_t0001.png 이미지

(The cGAN outperforms Segnet forall layer boundaries except RPE and BM of normal patients. The shadow cell sare the categories for which cGAN performs better. The symbol ↑ indicates that cGAN outperforms with statistical significance of p<0.05).

Table2는 5개의 층 두께에 대해서 두 네트워크의 평균 오류와 표준편차를 정상 환자와 AMD환자로 나누어서 나타낸 것이다.cGAN은 RPE-BM층의 두께 오류에서만 미세하게 Segnet보다 큰 오차를 보여 주며, 나머지 모든 경우들에 대해서 우수한 정확도를 보여준다. 또한 AMD환자의 경우와 모든 환자의 경우에 대해서 NFL, GDL∼OPL, 및 ONL∼IPS층에 대해서는 p<0.05로 유의미한 성능의 차이를 보였다.

Table 2. Mean errors with standard deviations (±value) for layer thickness

MTMDCW_2020_v23n12_1476_t0002.png 이미지

(The cGAN outperforms Segnet for all layer boundaries except the last layer(RPE~BM). The symbol indicates that cGAN outperforms with statistical significance of p<0.05).

4. 결론

본 논문에서는 cGAN을 이용하여 망막을 구성하는 층들을 분할하고 경계선을 찾는 문제를 다루었으 며 공개 데이터 셋을 이용하여 Segnet에 기반한 기존의 연구와 성능을 비교하였다. 또한 cGAN이나 Segnet이 출력하는 픽셀 분류로부터 층분할 경계선을 획정하는 동적계획법 알고리즘을 제시하였다. 성능 평가의 결과는 전반적으로 cGAN이 Segnet에 비하여 우수한 성능을 나타냄을 보여주었다. 이 연구는 정상인과 비출혈성 AMD환자라는 오직 두 부류에 속한 환자들의 한정된 데이터를 사용하였다는 점에서 한계가 있다. 이 분야의 연구에서 가장 중요한 점은 충분한 양의 학습 데이터를 확보하는 것인데 이런 점에서 현실적으로 많은 어려움이 있는 것이 사실이다. 추후 의료계와의 협력을 포함하는 사회적인 제도의 개선과 노력이 필요할 것으로 보이며 추후 연구과제는 추가적인 학습 데이터를 확보하여 성능을 개선하고 좀 더 다양한 부류의 환자들을 포괄하도록 일반화하는 것이다.

This research was supported by Pukyong National University Research Grant CD20190676.

References

  1. G. Staurenghi, S. Sadda, U. Chakravarthy, and R.F. Spaide, "Proposed Lexicon for Anatomic Landmarks in Normal Posterior Segment Spectral-domain Optical Coherence Tomography: The Inoct Consensus," Ophthalmology, Vol. 121, No. 8, pp. 1572-1578, 2014. https://doi.org/10.1016/j.ophtha.2014.02.023
  2. D.C. DeBuc, "A Review of Algorithms for Segmentation of Retinal Image Data Using Optical Coherence Tomography," Image Segmentation, pp. 15-54, 2011.
  3. R. Kafieh, H. Rabbani, M.D. Abramoff, and M. Sonka, "Intra-retinal Layer Segmentation of 3D Optical Coherence Tomography Using Coarse Grained Diffusion Map," Medical Image Analysis, Vol. 17, No. 8, pp. 907-928, 2013. https://doi.org/10.1016/j.media.2013.05.006
  4. S.J. Chiu, C.A. Toth, C.B. Rickman, J.A. Izatt, and S. Farsiu, "Automatic Segmentation of Closed-contour Features in Ophthalmic Images Using Graph Theory and Dynamic Programming," Biomedical Optics Express, Vol. 3, No. 5, pp. 1127-1140, 2012. https://doi.org/10.1364/BOE.3.001127
  5. F. LaRocca, S.J. Chiu, R.P. McNabb, A.N. Kuo, J.A. Izatt, S. Farsiu, et al., "Robust Automatic Segmentation of Corneal Layer Boundaries in SDOCT Images Using Graph Theory and Dynamic Programming," Biomedical Optics Express, Vol. 2, No. 6, pp. 1524-1538, 2011. https://doi.org/10.1364/BOE.2.001524
  6. K. Vermeer, J.V.D. Schoot, H. Lemij, and J.D. Boer, "Automated Segmentation by Pixel Classification of Retinal Layers in Ophthalmic OCT Images," Biomedical Optics Express, Vol. 2, No. 6, pp. 1743-1756, 2011. https://doi.org/10.1364/BOE.2.001743
  7. A. Lang, A. Carass, M. Hauser, E.S. Sotirchos, P.A. Calabresi, H.S. Ying, et al., "Retinal Layer Segmentation of Macular OCT Images Using Boundary Classification," Biomedical Optics Express, Vol. 4, No. 7, pp. 1133-1152, 2013. https://doi.org/10.1364/BOE.4.001133
  8. F.G. Venhuizen, B.V. Ginneken, B. Liefers M.J.V. Grinsven, S. Fauser, C. Hoyng, et al., "Robust Total Retina Thickness Segmentation in Optical Coherence Tomography Images Using Convolutional Neural Networks," Biomedical Optics Express, Vol. 8, No. 7, pp. 3292-3316, 2017. https://doi.org/10.1364/BOE.8.003292
  9. A.G. Roy, S. Conjeti, S.P.K. Karri, D. Sheet, A. Katouzian, C. Wachinger, et al., "Relaynet: Retinal Layer and Fluid Segmentation of Macular Optical Coherence Tomography Using Fully Convolutional Networks," Biomedical Optics Express, Vol. 8, No. 8, pp. 3627-3642, 2017. https://doi.org/10.1364/BOE.8.003627
  10. J.D. Fauw, J.R. Ledsam, B.R. Paredes, S. Nikolov, N. Tomasev, S. Blackwell, et al., "Clinically Applicable Deep Learning for Diagnosis and Referral in Retinal Disease," Nature Medicine, Vol. 24, No. 9, pp. 1342-1350, 2018. https://doi.org/10.1038/s41591-018-0107-6
  11. L. Fang, D. Cunefare, C. Wang, R.H. Guymer, S. Li, and S. Farsiu, "Automatic Segmentation of Nine Retinal Layer Boundaries in OCT Images of Non-exudative AMD Patients Using Deep Learning and Graph Search," Biomedical Optics Express, Vol. 8, No. 5, pp. 2732-2744, 2017. https://doi.org/10.1364/BOE.8.002732
  12. A. Shah, L. Zhou, M.D. Abramoff, and X. Wu, "Multiple Surface Segmentation Using Convolution Neural Nets: Application to Retinal Layer Segmentation in OCT Images," Biomedical Optics Express, Vol. 9, No. 9, pp. 4509-4526, 2018. https://doi.org/10.1364/BOE.9.004509
  13. O. Ronneberger, P. Fischer, and T. Brox, "Unet: Convolutional Networks for Biomedical Image Segmentation," Proceeding of International Conference on Medical Image Computing and Computer-assisted Intervention, pp. 234-241, 2015.
  14. V. Badrinarayanan, A. Kendall, and R. Cipolla, "SegNet: A Deep Convolutional EncoderDecoder Architecture for Image Segmentation," IEEE Transactions on P attern Analysis and Machine Intelligence, Vol. 39, No. 12, pp. 2481-2495, 2017. https://doi.org/10.1109/TPAMI.2016.2644615
  15. C. Kamphuis, Automatic Segmentation of Retinal Layers in Optical Coherence Tomography Using Deep Learning Techniques, Master's Thesis of Radboud University, 2018.
  16. O.H. Kwon, M.G. Song, H.J. Song, and K.R. Kwon, "Layer Segmentation of Retinal OCT Images Using Deep Convolutional Encoder-Decoder Network," Journal of Korea Multimedia Society, Vol. 22, No. 11, pp. 101-111, 2019.
  17. I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, et al., "Generative Adversarial Networks," Proceeding of Advances in Neural Information Processing Systems, pp. 2672-2680, 2014.
  18. P. Isola, J.Y. Zhu, T.H. Zhou, and A.A. Efros, "Image-to-Image Translation with Conditional Adversarial Networks," Proceeding of Conference on Computer Vision and P attern Recognition Workshops, pp. 1125-1134, 2017.
  19. J.Y. Kim, S.A. Hong, and H.M. Kim, "A StyleGAN Image Detection Model Based on Convolutional Neural Network," Journal of Korea Multimedia Society, Vol. 22, No. 12, pp. 1447-1456, 2019. https://doi.org/10.9717/KMMS.2019.22.12.1447
  20. H.D. Wang, Y. Rivenson, Y. Jin, Z. Wei, R. Gao, H. Gunaydin, et al., "Deep Learning Enables Cross-modality Super-resolution in FluoreScence Microscopy," Nature Methods, pp. 103-110, 2019.
  21. W. Ouyang, A. Aristov, M. Lelek, X. Hao, and C. Zimmer, "Deep Learning Massively Accelerates Super-resolution Localization Microscopy," Nature Biotechnology, Vol. 36, No. 5, pp. 460-468, 2018. https://doi.org/10.1038/nbt.4106
  22. Y. Wu, Y. Luo, G. Chaudhari, Y. Rivenson, A, Calis, K. de Haan, et al., "Bright-field Holography: Cross-modality Deep Learning Enables Snapshot 3D Imaging with Bright-field Contrast Using a Single Hologram," Light Science and Applications, Vol. 8, No. 25, 2019.
  23. Y. Rivenson, H. Wang, Z. Wei, K. de Haan, Y. Zhang, Y. Wu, et al., "Virtual Histological Staining of Unlabelled Tissue-autofluorescence Images via Deep Learning," Nature Biomedical Engineering, Vol. 3, No. 6, pp. 466-477, 2019. https://doi.org/10.1038/s41551-019-0362-y
  24. U. Demir and G. Unal, "Patch-based Image Inpainting with Generative Adversarial Networks," arXiv:1803.07422 [cs.CV], https://arxiv.org/abs/1803.07422, 2018.
  25. K. Simonyan and A. Zisserman, "Very Deep Convolutional Networks for Large-scale Image Recognition," Proceeding of International Conference on Learning Representations, 2015.
  26. I. Sergey and S. Christian, "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift," Proceeding of International Conference on Machine Learning, pp. 448-456, 2015.
  27. A.L. Maas, A.Y. Hannun, and A.Y. Ng, "Rectifier Nonlinearities Improve Neural Network Acoustic Models," https://awnihannun.com/papers/relu_hybrid_icml2013_final.pdf, 2013.
  28. S. Farsiu, S.J. Chiu, R.V. O'Connell, F.A. Folgar, E. Yuan, J.A. Izatt, et al., "Quantitative Classification of Eyes with and without Intermediate Age-related Macular Degeneration Using Optical Coherence Tomography," Ophthalmology, Vol. 121, No. 1, pp. 162-172, 2014. https://doi.org/10.1016/j.ophtha.2013.07.013