DOI QR코드

DOI QR Code

A Study on Lung Cancer Segmentation Algorithm using Weighted Integration Loss on Volumetric Chest CT Image

흉부 볼륨 CT영상에서 Weighted Integration Loss을 이용한 폐암 분할 알고리즘 연구

  • Received : 2020.02.14
  • Accepted : 2020.04.20
  • Published : 2020.05.31

Abstract

In the diagnosis of lung cancer, the tumor size is measured by the longest diameter of the tumor in the entire slice of the CT. In order to accurately estimate the size of the tumor, it is better to measure the volume, but there are some limitations in calculating the volume in the clinic. In this study, we propose an algorithm to segment lung cancer by applying a custom loss function that combines focal loss and dice loss to a U-Net model that shows high performance in segmentation problems in chest CT images. The combination of values of the various parameters in custom loss function was compared to the results of the model learned. The purposed loss function showed F1 score of 88.77%, precision of 87.31%, recall of 90.30% and average precision of 0.827 at α=0.25, γ=4, β=0.7. The performance of the proposed custom loss function showed good performance in lung cancer segmentation.

Keywords

1. 서론

폐암은 미국에서 가장 높은 암 사망률을 보이며 2006년 미국 통계 결과에 따르면 폐암으로 인한 사망자수는 대장암, 유방암 및 전립선암에 의한 사망자보다 많은 158,000명이었다[1]. 폐암 환자 전체의 5년 생존율은 15%정도 이며 암 전이 환자들의 5년 생존율은 2%에 미치지 않는다[2]. 폐암은 컴퓨터 단층촬영(Computed Tomography, CT)과 같은 영상 진단 장치로 얻은 영상으로 폐암 부위의 직경을 측정하고 향후 직경의 변화를 통해 치료 효과를 관찰한다[3]. 폐암 부위의 직경을 측정할 때 이상적인 방법은 폐암의 체적을 구하여 직경을 측정하는 것이다. 폐암의 볼륨을 구하기 위해서는 환자의 CT 영상 단면 영상을 하나씩 폐암 부위를 분할하여 볼륨을 만드는데 이는 영상의학 전문가의 과도한 노동과 많은 시간이 필요하게 된다.[4] 또한, 폐암의 변연부는 불규칙하거나 명확하지 않아 정확한 분할이 어려워 판독자에 따라 분할 결과가 달라지는 경향이 있다[5]. 이를 보완하기 위해 영상처리 및 기계학습(machine learning)을 통해 분할하는 방법 등이 있다. 하지만 기존의 영상처리 및 기계 학습을 통한 분할은 영상에서 일반화하여 결과를 도출하기 위해 특징(feature)을 선택하는데 어떤 특징을 선택하는지에 따라 결과가 달라질 수 있고 단층 구조 신경망으로는 불규칙한 폐암의 변연부를 분할하는 문제를 해결 할 수 없다[6,7]. 따라서 폐암과 같이 불규칙한 형태나 경계가 명확하지 않은 데이터에서 분할하기 위한 연구가 필요하다.

2018년 Hossain 등은 Recurrent 3D-Dense U-Net모델을 이용하여 폐암 영역을 분할하고자 하였다. 그들은 260명의 환자 데이터를 사용하여 폐암 분할에 대한 연구 결과는 0.74의 다이스 유사계수를 나타냈다[8]. 2018년 Jason 등은 Multiple Resolution Residual Network(MRRN)모델을 이용하여 폐암 영역을 분할하고자 하였다. 그들은 Non-Small-Cell Lung Carcinoma(NSCLC), Memorial Sloan Kettering Cancer Center(MSKCC), Lung Image Database Consortium(LIDC)의 1018명의 환자의 오픈 데이터를 사용하였다. 그 결과 NSCLC 데이터 셋에서 0.74, MSKCC 데이터 셋에서 0.75, LIDC 데이터 셋에서 0.68의 다이스 유사계수를 보였다[9]. 2019년 Hossain 등은 LungNet 모델과 U-Net 모델을 이용하여 폐암영역을 분할하고자 하였다. 그들은 300명의 환자 데이터를 랜덤하게 260명의 학습데이터, 40명의 테스트 데이터로 나누어 학습하였다. LungNet을 이용하여 영상에서 특징을 추출하고 이를 U-Net 모델의 인풋으로 사용하여 폐암 영역을 분할하고자 하였다. 그 결과 0.65의 다이스 유사계수를 보였다[10]. 이와 같이 폐암 분할에 대한 연구 결과들이 보고되고 있으며, 모델의 구조를 변경하거나 다른 모델의 구조를 결합한 연구들은 많이 보고되었다. 하지만 loss function을 변경하며 학습을 하거나 다른 두 loss function을 결합하여 폐암을 분할하는 연구는 아직까지 많이 진행되지 않았다. 또한, 폐암 분할에서 폐암의 영역은 폐 영역에 비해 적은 영역의 화소(pixel) 개수를 가지기 때문에 화소 개수의 불균형을 고려한 학습이 필요하다. 이를 고려한 학습을 위해 적절한 loss function을 사용해야한다.

따라서 본 논문은 흉부 볼륨 CT영상에서 U-Net 모델에 dice loss function과 focal loss function을 결합한 custom loss function을 적용하여 폐암을 정확하게 분할하는데 가능성을 보고자 진행하였다. Focal loss function의 파라미터와 두 loss function의 균형을 이루어 주는 파라미터를 이용하여 폐암 분할의 정확도를 향상시키려 하였으며, 파라미터들의 설정값에 따른 모델의 폐암 분할 결과를 비교하였다.

2. 재료 및 방법

2.1 개발 환경

본 논문에서는 실험에 사용된 데이터의 전 후처리에 대한 영상처리를 위해 MATLAB을 사용하였다. 딥러닝 학습을 위한 시스템은 4개의 NVIDIA RTX 2080TI 그래픽 처리 장치, 128GB RAM으로 구성하였으며, 딥러닝 학습은 Ubuntu 14.04 운영체제에서 Python 3.6.9 및 Keras 2.2.4 프레임 워크를 통해 수행되었다.

2.2 데이터 셋

본 논문에서 사용된 데이터 셋은 가천대길병원에서 폐암환자 80명(남자 49명, 여자 31명, 나이: 43-79세)의 환자들을 대상으로 CT 데이터를 수집하였다. 수집된 CT 데이터는 512x512 크기의 16-bit Digital Imaging and Communications in Medicine(DICOM)포맷으로 구성되었으며, mediastinal window(width:350, level: 50)에 맞춰 8-bit 영상으로 변환하여 실험에 사용하였다[11]. 또, 제안한 모델의 정확성을 평가하기 위해 폐암 관련 전문가에 의해 수동 분할한 결과를 ground truth로 사용하였다. Fig. 1은 폐암이 흉벽에 붙어있는 경우와 폐 영역 내부에서 관찰되는 경우의 원본 CT영상과 ground truth이다. Fig. 1에 ground truth영상은 0과1로 나누어져 있는데 실제 폐암 부위는 전체 이미지에서 5%이내의 화소 개수를 가지기 때문에 불균일하다는 것을 알 수 있다.

MTMDCW_2020_v23n5_625_f0001.png 이미지

Fig. 1. Data set CT image and ground truth image. (a), (c) Original CT image, (b), (d) Ground truth.

2.3 U-Net

폐암을 분할하기 위해 U-Net 모델을 사용했으며, Fig. 2는 U-Net의 아키텍쳐(architecture.)이다[12]. U-Net의 네트워크 구조는 U자형으로 생겼으며 contracting path와 expanding path로 구성되어있다. Contracting path에서는 3×3 컨볼루션(convolution)이 사용되었고, 활성화 함수는 ReLU가 사용되었다. 또, 각 pooling 계층에서는 2×2 max pooling을 사용하여 다운 샘플링(down sampling)시에 특징 맵을 2배로 키우도록 한다. Expanding path에서는 업 샘플링(up sampling)을 하기 위해 2×2 컨볼루션을 하게  되면 채널이 1/2로 감소한다. Max-pooling을 수행하기 전의 feature map을 crop하여 up-convolution을 할 때 concatenation을 하고 contraction path와 같이 3×3 컨볼루션을 반복하고 ReLU를 사용한다. 마지막 layer에서는 1x1 컨볼루션을 사용하여 2개의 클래스로 분류한다. U-Net과 기존 컨볼루션 뉴럴 네트워크(convolution neural network)들의 차이점은 U자형으로 생긴 아키텍쳐와 concatenation이며, concatenation은 max pooling으로 인한 손실의 영향을 줄이기 위해 input이 output에 영향을 미치게 만들어 성능을 높이고자 하는데 있다.

MTMDCW_2020_v23n5_625_f0002.png 이미지

Fig. 2. U-Net architecture.

2.4 Custom loss function

Focal loss는 foreground와 background의 비율이 1:1000과 같이 클래스간의 불균형이 극도로 심한 상황을 해결하기 위해 디자인 되었다[13]. 보편적으로 사용되는 loss function인 cross entropy는 loss가 커지면 정답이 아닌 클래스들의 loss가 작아지게 되어 결과 값에 미치는 영향이 미미해지고, 이는 좋지 않은 학습 결과를 나타낼 수 있다. Cross entropy의 식은 다음과 같이 정의된다. 여기서 pt는 값이 1인 클래스에 대한 모델의 추정 확률을 나타낸다.

\(C E\left(p_{t}\right)=-\log \left(p_{t}\right)\)       (1)

Cross entropy의 단점을 보완하기 위해 balanced cross entropy가 발표되었다. 이는 클래스간의 불균형을 해결하는 일반적인 방법 중 하나인 0과1사이의 가중치 α를 사용하는 것이며, 클래스 1에는 α를 곱해주고 클래스 0에는 1-α를 곱하여 정답이 아닌 클래스들의 loss를 무시하지 않고 학습을 진행할 수 있다. Balanced cross entropy의 식은 다음과 같이 정의된다.

\(B C E\left(p_{t}\right)=-\alpha_{t} \log \left(p_{t}\right)\)       (2)

하지만 balanced cross entropy의 파라미터(parameter)인 α는 easy 샘플(sample)과 hard 샘플에 대한 loss에 차등을 두는 것이 불가능한 단점이 있다. focal loss에서는 modulating factor (1-pt)γ를 사용하여 각 샘플에 대해 다른 weight를 부여한다. 이를 통해 easy 샘플의 중요도를 down-weight 시켜 hard 샘플에 대해 학습을 집중하게 만든다. Focal loss의 식은 다음과 같이 정의된다.

\(F L\left(p_{t}\right)=-\alpha\left(1-p_{t}\right)^{\gamma} \log \left(p_{t}\right)\)       (3)

Dice loss는 다이스 계수(dice coefficient)를 기초로 만들어진 loss function인데 다이스 계수는 영상분할 모델의 성능 평가에 쓰이는 대표적인 지표이다. Dice loss의 식은 다음과 같이 정의된다.

\(D C L\left(p_{t}\right)=1-\frac{2 T P}{2 T P+F P+F N}\)       (4)

여기서 TP, FP, FN는 ground truth와 모델의 예측 결과에 대한 화소 단위로 비교하여 산출된 값이며, True Positive (TP), False Negative (FN), False Positive (FP)의 계산 값을 나타낸다.

본 논문에서는 폐암의 변연부는 불규칙하고 불분명하기 때문에 focal loss의 장점인 easy 샘플의 중요도를 낮추고 hard 샘플에 대해 학습을 집중하면서 두 loss function의 장점인 클래스간의 불균형을 해결하여 더 좋은 학습이 진행 할 수 있도록 하였다. 또, 둘 중 하나의 loss function에 편향되지 않기 위해 파라미터 β를 이용하여 두 loss function의 균형을 맞추어 주었다. 본 논문에서 사용한 custom loss function의 식은 다음과 같다.

\(L_{\text {custom }}=(1-\beta) L_{\text {Focal }}+\beta L_{\text {Dice }}\)       (5)

3. 결과

본 논문에서는 U-Net모델에 custom loss function을 적용하여 폐암을 분할하기 위해 학습시켰으며, 비교 실험을 위해 Adam optimizer, 학습률(learning rate)는 0.001, 배치 사이즈(batch size)는 30, 에폭(epoch)을 100으로 동일하게 설정했다[14]. Fig. 3에서는 ground truth 이미지와 각 loss function에 따라 학습된 모델을 통해 추출한 결과를 비교하여 보여준다.

MTMDCW_2020_v23n5_625_f0003.png 이미지

Fig. 3. Results of lung cancer segmentation using U-Net. (a),(f),(k),(p) Original, (b),(g),(l),(q) Ground truth, (c),(h),(m),(r) Balanced loss function, (d),(i),(n),(s) Focal loss function, (e),(j),(o),(t) Custom loss function.

학습 모델에 대한 성능은 F1-score, precision, recall, average precision(AP)을 통해 검증하였다. 딥러닝 방법을 통해 분할된 폐암 영역의 위치를 화소단위로 비교하여 True Positive (TP), True Negative (TN), False Positive (FP), False Negative (FN)를 각각 산출하고, 아래의 수식에 따라 계산하였다. Table 1은 SegNet, E-Net, U-Net 모델에 각 loss function들의 파라미터 값에 따른 결과를 나타냈다. Average precision은 precision-recall 그래프에서 선 아래쪽의 면적을 나타내며, 이는 데이터가 불균형할 때 모델의 성능을 정확하게 평가 할 수 있다[15].

Table 1. Ablation experiments for custom loss function

MTMDCW_2020_v23n5_625_t0001.png 이미지

BL, Balanced loss function; FL, Focal loss function; CL, Custom loss function;

\(\text { Recall }=\frac{T P}{T P+F N}\)       (6)

\(\text { Precision }=\frac{T P}{T P+F P}\)       (7)

\(F 1-\text { score }=\frac{2 T P}{2 T P+F P+F N}\)       (8)

Balanced loss function에서 가장 좋은 성능을 낸 파라미터 α의 값은 0.25이며, recall은 76.49%, precision은 88.91%, F1-score는 83.35%를 나타냈다. Focal loss function은 balanced loss function에서 높은 성능을 보인 파라미터 α와 focal loss function에 파라미터 γ값을 조합하여 높은 성능을 보인 파라미터 γ의 값은 4이며, recall은 89.15%, precision은 87.70%, F1-score는 88.39%를 나타냈다. Custom loss function은 balanced loss function과 focal loss function에서 높은 성능을 낸 파라미터들과 dice loss function과 focal loss function의 균형을 위한 파라미터 β값을 조합하여 높은 성능을 보인 파라미터 β의 값은 0.7이며, recall은 90.30%, precision은 87.31%, F1-score는 88.77%를 나타냈다. Table 1은 SegNet, E-Net, U-Net에서의 loss function의 파라미터 값에 따른 결과를 나타냈다.

또한, ROC curve는 데이터가 불균형할 때 모델의 성능을 판단하기 어려워 precision-recall curve를 사용하여 높은 성능을 보인 각 loss function들을 비교하기 위한 precision-recall curve를 Fig. 4에 나타냈다.

MTMDCW_2020_v23n5_625_f0004.png 이미지

Fig. 4. Comparison of each loss function precision-recall curve.

4. 결론

본 연구에서는 흉부 볼륨 CT 영상에서 폐암을 분할하기 위해 U-Net 모델에 focal loss function과 dice loss function을 결합한 custom loss function에서 최적의 성능을 내는 파라미터를 찾고 전문의가 수동으로 분할 결과와 학습한 모델의 폐암 분할 결과 이미지를 비교하여 모델의 성능을 검증 하였다. 그 결과, U-Net 모델에서 α=0.25,γ=4,β=0.7의 파라미터 조합으로 학습을 한 경우, 테스트 데이터에서 88.39%의 F1-score, 87.70%의 precision, 89.15%의 recall, 0.813의 average precision으로 우수한 성능의 분할 결과를 보였다.

본 연구에서 학습된 모델을 통해 분할한 결과는 정밀한 결과를 보였으며, 폐암이 폐 영역 안에 존재할 경우 각 loss function을 적용하여 학습한 모델 모두 우수한 분할 결과를 보였다. 그러나 폐암이 흉벽에 붙어 있는 경우에는 custom loss function을 적용하여 학습한 모델에서 가장 우수한 분할 결과를 보였다. 이는 focal loss의 장점인 easy 샘플의 중요도를 낮추고 hard 샘플에 대해 학습을 집중하도록하여 흉벽에 붙어있는 데이터에 학습을 집중했을 것으로 보인다.

본 연구에서 80명의 폐암 환자 데이터에서도 우수한 폐암 분할 결과를 얻었음에도 불구하고, 폐암 환자의 CT 데이터를 추가적으로 수집하고 기존의 U-Net모델의 구조를 개선하여 폐암 분할에 최적화된 모델을 구축하여 학습한다면, 폐암 영역을 보다 정확하게 분할할 수 있을 것으로 판단된다.

결론적으로, custom loss function을 U-Net 모델에 적용하여 학습하고 검증한 결과, 우수한 분할 결과를 확인하였으며, 향후 폐암 분할을 위한 추가 학습과 개선 연구가 진행된다면, 폐암 영역을 더 정확한 분할 결과를 얻을 수 있을 것이다. 또한, 학습한 모델을 통해 얻은 폐암 분할 결과를 이용하여 폐암의 볼륨에서 직경의 자동 측정을 통해 재현성을 높일 수 있을 것으로 기대된다.

References

  1. L.G. Collins, C. Haines, R. Perkel, and R.E. Enck, “Lung Cancer: Diagnosis and Management,” Journal of American Family Physician, Vol. 75, No. 1, pp. 56-63, 2007.
  2. W. Sun, B. Zheng, and W. Qian, "Automatic Feature Learning Using Multichannel ROI Based on Deep Structured Algorithms for Computerized Lung Cancer Diagnosis," Journal of Computers in Biology and Medicine, Vol. 89(1), pp. 530-539, 2017. https://doi.org/10.1016/j.compbiomed.2017.04.006
  3. N.A. Memon, A.M. Mirza, and S.A.M. Gilani, "Segmentation of Lungs from CT Scan Images for Early Diagnosis of Lung Cancer," Proceeding of International Conference on World Academy of Science, Engineering and Technology, Vol, 14, pp.228-233, 2006.
  4. S.H Lim, Y.J Kim, and K.G Kim, "Three-dimensional Visualization of Medical Image Using Image Segmentation Algorithm Based on Deep Learning," Journal of Korea Multimedia Society, Vol. 23(3), pp. 468-475, 2020.
  5. W. Sun, B. Zheng, and W. Qian, "Computer Aided Lung Cancer Diagnosis with Deep Learning Algorithms," Proceeding of International Conference Medical Imaging, Vol. 9785, 2016.
  6. N.J. Kwak and C.H. Choi, "Input Feature Selection for Classification Problems," Journal of IEEE Transactions on Neural Networks, Vol. 13(1), pp. 143-159, 2002. https://doi.org/10.1109/72.977291
  7. G. Jothi and H.H. Indarani, "Soft Set Based Feature Selection Approach for Lung Cancer Images," arXiv Preprint arXiv :1212.5391, 2012.
  8. S. Hossain, S. Najeeb, A. Shahriyar, Z.R. Abdullah, and M.A. Haque, "Lung Cancer Tumor Region Segmentation Using Recurrent 3D-DenseU-Net," arXiv Preprint arXiv:1812.01951, 2018.
  9. J. Jiang, Y. Hu, C.J. Liu, D. Halpenny, M.D. Hellmann, J.O. Deasy, et al., "Multiple Resolution Residually Connected Feature Streams for Automatic Lung Tumor Segmentation from CT Images," Journal of IEEE Transactions on Medical Imaging, Vol. 38(1), pp. 134-144, 2018.
  10. S. Hossain, S. Najeeb, A. Shahriyar, Z.R. Abdullah, and M.A. Haque, "A Pipeline for Lung Tumor Detection and Segmentation from CT Scans Using Dilated Convolutional Neural Networks," Proceeding of International Conference on Acoustics, Speech and Signal Processing, pp. 1348-1352, 2019.
  11. M.J. Das and L.B. Mahanta, "Lung Segmentation from CT Images: Impact of Different Window Settings on the Accuracy of Segmentation," Journal of Emerging Technologies and Innovative Research, Vol. 5(12), pp. 189-193, 2018.
  12. O. Ronneberger, P. Fischer, and T. Brox, "U-Net: Convolutional Networks for Biomedical Image Segmentation," Proceeding of International Conference Medical Image Computing and Computer-assisted Intervention, pp. 234-241, 2015.
  13. T.Y Lin, P. Goyal, R. Girshick, K. He, and P. Dollar, "Focal Loss for Dence Object Detection," Proceeding of the IEEE International Conference on Computer Vision, pp. 2980-2988, 2017.
  14. D.P. Kingma and J.L. Ba, "ADAM: A Method for Stochastic Optimzation," arXiv Preprint arXiv:1412.6980, 2014.
  15. M. Sokiliva, N. Japkowicz, and S. Szpakowicz, "Beyond Accuracy, F-Score and ROC: A Family of Discriminant Measures for Performance Evaluation," Proceeding of the AI : Advances in Artificial Intelligence, pp. 1015-1021, 2006.