1. 서론
근육의 양이 줄어들고, 근력이 떨어져 신체 수행 능력이 줄어드는 근감소증이 동반된 암 환자는 생존율이 매우 낮은 것으로 보고되었다[1]. 또한, 근감소증은 암의 회복 여부, 또는 재발 가능성을 추정하는 지표로 활용되고 있다 [1]. 이에 따라 근감소증의 발병 여부와 정도를 측정하기 위해 체성분을 정확하게 측정하는 것은 매우 중요한 일이다. 기존 연구에 따르면 전신 골격근과 체지방은 제 3번 요추 (이하 L3)의 컴퓨터 단층 촬영 영상 데이터 (이하 CT) 내 근육 및 지방 면적과 비교하였을 때 가장 좋은 상관관계를 보여주었다[2]. 따라서, L3레벨의 CT 영상을 추출하는 것은 전신의 체성분을 추정하는 데에 매우 중요한 역할을 한다.
현재 환자의 L3 위치를 찾아내기 위해서는 전문가가 수작업으로 찾기 때문에 작업 수행 시간이 10분 이상 소요되는 것으로 제시되었다. 또한, 전문가마다 찾는 방법이 달라 주관적이며 정량화가 어렵다는 문제가 있다. 따라서, 최근 다양한 인공지능 기법을 활용하여 L3 자동 검출 방법이 제시되고 있다[3-5]. Belharbi 등은 전체 CT에서 관상면과 시상면으로 최대 강도 투영(MIP)을 적용하였다[4]. 그러나, 최대 강도 투영을 적용하여 L3 부분을 찾으면 체내 기관의 모양과 위치에 대한 중요한 정보가 포함되지 않는다는 한계점이 존재한다. 또 다른 연구에서는 원본 CT 2D 슬라이드를 그대로 컨벌루션 신경망에 적용하였고,[5] 그로 인해 L3가 몸 전체에 차지하는 비중이 매우 적어 데이터 불균형 문제가 발생하였다. 이러한 문제를 해결하기 위하여 다른 환자의 L3 부분 영상만을 추가하여 학습모델을 구성하였다. 하지만, 이러한 방식은 학습 데이터 불균형에 대한 근본적 대책이 될 수 없으며, 추가 데이터를 확보할 수 없는 상황에서는 모델 성능이 저하될 수 있는 문제가 발생한다.
그러므로, 본 연구의 목적은 전신 CT 영상에서 L3 슬라이스를 검출할 수 있는 딥러닝 모델을 제안하는 것이다. 특히, 전신 CT 영상 내 L3 슬라이스의 데이터 비중이 매우 적어 발생하는 불균형 문제를 해결하기 위하여 데이터 오버 샘플링 비율과 클래스 가중치를 설계변수로 하는 최적화 기반 딥러닝 모델을 제안하는 것을 목적으로 한다.
2. 방법
2.1 L3 슬라이스 검출 방법
기존 연구에서는 척추 전체가 포함되어야 하며, 척추 만곡 장애가 있을 경우 이 방법을 적용하는 데 어려움이 있다. 이에 제안하는 L3 부분 분류 방법은 각 척추의 고유한 구성을 고려하여 2D 축 슬라이스 이미지를 그대로 활용하였다. 따라서 L3 부분은 1로 레이블을 지정하고, L3가 아닌 부분은 0으로 지정하여 이진 분류를 수행하였다. 이 과정을 통해 척추 전체를 고려하지 않고도 L3 부분의 특징을 학습할 수 있으며, 입력된 CT 이미지가 학습된 특징의 유무에 따라 분류를 수행하였다.
2.2 최적화 알고리즘
베이지안 최적화는 일부 입력값(x)의 범위에서 목적 함수 f(x)의 최솟값을 찾는 것이다[6]. 다양한 최적화 방법과 가장 큰 차이점은 목적함수에 대한 확률 모델을 구성한 다음, 이 모델을 활용하여 x에서 다음 함수를 평가할 위치를 결정하면서 불확실성을 통합한다. 기존의 최적화 방식에 비해 적은 수의 평가로도 다양한 값을 도출해 내어 최솟값을 찾을 수 있는 절차가 만들어지지만, 다음 시도점을 찾기 위해 목적함수를 통한 계산이 이루어져 시간이 많이 소요될 수 있다.
최적화의 설계변수로는 학습 모델의 하이퍼파리미터 5종과 데이터 불균형을 줄이기 위한 오버샘플링 비율 및 클래스 가중치로 선정하였다. 하이퍼파라미터는 딥러닝 모델에서 일반적으로 활용되는 L2regulatization, Initial learning rate, Minibatch size, Gradient threshold, 및 Gradient threshold method로 선정하였다. 데이터 불균형 문제를 해결하기 위해 오버 샘플링 비율을 설계변수로 추가하였다. 오버 샘플링에는 영상 회전, 이동, 비틀기 및 반사 기법을 적용하였으며, 최적화 시 랜덤하게 선택될 수 있게 설정하였다. 또한, 데이터가 상대적으로 적은 클래스에 가중치를 부여할 수 있도록 설계변수를 추가하였다. 초기 모델은 클래스 가중치가 1로서 동일한 값으로 설정되어 있지만, 최적화 과정을 통하여 가중치를 변경할 수 있도록 하였다. 최적화 목적함수로는 f-1 score의 역수가 활용되었다. 표 1은 최적화 설계변수를 정리한 결과를 나타낸다.
표 1. 딥러닝 모델의 설계변수
Table 1. Design parameters of deep learning model
2.3 딥러닝 모델
본 연구에서 활용된 학습 모델은 컨볼루션 신경망의 대표적인 ResNet50 모델이다[7]. 그림 1은 ResNet50 모델의 아키텍처를 나타내고 있다. 본 모델의 특성은 각 계층의 입력을 해당 계층 이후의 출력에 직접 연결함으로써 그래디언트 소실 문제를 완화할 수 있다.
그림 1. 전신 CT 슬라이스 중 L3 슬라이스 위치 파악
Fig. 1. Localization of the L3 slice among a whole body CT slices
그림 2. ResNet50 모델 구조
Fig. 2. ResNet50 model architecture
이는 네트워크를 효과적으로 훈련할 수 있게 한다. 첫 번째 계층에는 커널 크기가 7×7인 64개의 필터가 있으며, 그 다음에는 3×3 크기의 최대 풀링 계층이 있다. 첫 번째 계층 그룹은 세 개의 동일한 블록으로 구성된다. 같은 방식으로 그룹 2, 그룹 3 및 그룹 4에는 각각 들여쓰기 블록 4개, 동일한 블록 4개 및 들여쓰기 블록 3개가 있다. 일부 그룹 사이에는 크기가 다른 두개의 계층을 연결하는 블록이 있다. 이 모든 블록을 거쳐 완전히 연결된 총 38개의 계층이 분류 작업을 담당한다.
3. 실험
3.1 데이터세트
L3 슬라이스 검출을 위하여 전립선암 환자 104명, 방광암 환자 46명의 데이터가 사용되었다. 총 150명의 데이터 모두 횡단면 CT 영상으로 구성되었다. 본 데이터는 강릉아산병원에서 수집되었으며, Institutional review board의 승인을 받았다. 비뇨의학과 임상의가 ITK-SNAP v3.8 소프트웨어를 사용하여 L3 슬라이스를 수동으로 분할하였으며, 학습모델의 출력 정보로 활용되었다.
3.2 데이터 전처리
DICOM 형식으로 저장된 CT 영상을 딥러닝 모델에 적용하기 위하여 전처리 과정을 수행하였다. 근육, 지방 및 뼈를 선명하게 하기 위해 CT의 Hounsfield unit (HU)을 [-200 1500] 범위에 있도록 설정하였다. 또한, 히스토그램 스트레치를 통하여 픽셀의 특정 범위에 몰리는 강도값의 범위를 늘려주었다. 이미지의 크기는 512 x 512지만 ResNet50 모델에 사용되는 크기는 224 x 224이기에 이미지 크기를 조절하였다. 또한, 모든 이미지는 픽셀 값이 [0 1] 범위에 있도록 표준화되었다.
3.3 L3 분류 네트워크 훈련 및 검증
L3 부분 분류 딥러닝 모델은 L3와 L3가 아닌 이미지로 분류하도록 훈련되었다. 모델 성능을 평가하기 위하여 Leave-one out 교차 검증을 수행하였다. 전립선암 및 방광암 환자 150명의 데이터 중에서 랜덤으로 30명 (L3 부분 2746장, L3 아닌 부분 96장)씩 5분할로 나뉘었으며, 이를 테스트 데이터로 활용하였다. 또한, 선택되지 않은 120명 (L3 부분 10984장, L3 아닌 부분 380장)의 데이터가 모델 훈련에 활용되었다.
4. 결과
그림 3은 ResNet50 모델의 데이터불균형 조정 설계변수 (CDPs) 적용 여부에 따른 훈련 및 손실 값을 그래프로 나타내고 있다. 모델은 총 10 epochs를 기준으로 학습되었으며, 두 학습모델 모두 Epoch 단계가 증가할수록 학습 정확도가 높아지고 loss는 줄어드는 경향을 나타냈다. 특히, CDPs를 적용한 최적화 모델은 Epoch 6이 지나면서 거의 100% 수준의 학습 정확도를 보였으며, CDPs를 적용하지 않은 모델에서는 Epoch 10까지도 학습 정확도의 진동 현상이 계속 발생하였다.
그림 3. Correction 설계변수를 활용한 최적화 유무에 따른 ResNet50 훈련 정확도 및 손실
Fig. 3. Taring accuarcy and loss of ResNet50 models with and without optimization using correction design parameters (CDPs)
표 2는 L3 슬라이스 추출에 대한 교차 검증을 기존 연구와 비교한 결과이다. 기존 연구에서는 L3 슬라이스 검출을 위하여 CT 영상을 관상면 또는 횡단면을 활용하였으며, 오차는 평균 0.87에서 2.04 수준으로 나타났다. 특히, 기존 연구에서 가장 우수한 성능을 나타낸 결과는 오차 약 0.87 수준 [5]으로서 L3 슬라이스를 추가적으로 학습모델에 더함으로써 데이터를 균형으로 맞춘 결과이다. 본 연구에서 활용된 ResNet50 모델의 하이퍼파라미터만 최적화한 결과는 슬라이스 오차가 평균 1.68로서 기존 연구와 유사한 수준으로 나타났다. 하지만, 데이터 불균형을 조정할 수 있는 설계변수를 포함한 최적화 결과에서는 슬라이스 오차가 약 0.68, 표준편차가 1.26 수준으로 가장 우수한 성능을 나타내었다.
표 2. L3 레벨 분류 결과
Table 2. Result of L3 level detection
그림 4는 CDPs 적용 유무에 따른 L3 슬라이스 예측 성능을 제시하고 있다. CDPs를 적용하였을 때 결정계수는 0.98 수준으로 적용하지 않았을 때와 비교하여 약 0.02 이상 높아졌다. 또한, 예측 회귀식의 기울기와 y절편 값이 1에 더 가까워져 L3 슬라이스를 더욱 정확하게 검출하는 것으로 확인되었다.
그림 4. L3 레벨의 실제 및 예측 CT 번호로 구성된 산포도
Fig. 4. Scatter plots of the actual and predicted CT number at L3 level
5. 결론
본 연구에서는 CT 슬라이스에서 L3 슬라이스를 자동으로 추출하기 위한 최적화 기반 딥러닝 모델을 제안하였다. 본 결과는 데이터 증강을 통한 오버 샘플링과 클래스 가중치 조절을 통해 데이터 불균형 문제를 효과적으로 해결할 수 있는 가능성을 제시하였으며, 다른 환자의 데이터를 추가로 수집하지 않고도 향상된 정확도를 가지는 L3 슬라이스의 자동 검출이 가능함을 보였다. 추가적으로 본 연구에서 제안한 접근 방식은 다양한 분야에서 데이터 불균형 문제를 해결하는데 적용될 수 있다는 가능성을 보여준다. 본 연구의 한계점으로는 전립선 및 방광암 환자의 CT 영상만을 활용하였다는 점이다. 향후에는 더 다양한 환자의 데이터를 활용하여 제안된 방법론 검증이 필요할 것으로 생각되며, 추출된 L3 슬라이스를 활용하여 근육 및 체지방 등의 면적과 부피를 자동으로 연산할 수 있는 알고리즘 개발이 필요할 것으로 사료된다.
References
- S. S. Shachar, G. R. Williams,, H. B. Muss, and Nishijima, T. F, "Prognostic value of sarcopenia in adults with solid tumours: a meta-analysis and systematic review," European journal of cancer, vol. 57, pp. 58-67, 2016. https://doi.org/10.1016/j.ejca.2015.12.030
- M.. Mourtzakis, C. M. Prado, J. R. Lieffers, T. Reiman, L. J. McCargar, and V. E. Baracos, "A practical and precise approach to quantification of body composition in cancer patients using computed tomography images acquired during routine care," Applied Physiology, Nutrition, and Metabolism, vol. 33, no. 5, pp. 997-1006, 2008. https://doi.org/10.1139/H08-075
- F. Kanavati, S. Islam, E. O. Aboagye, and A. Rockall, Automatic L3 slice detection in 3D CT images using fully-convolutional networks, arXiv preprint arXiv:1811.09244, 2018.
- S. Belharbi, C. Chatelain, R. Herault, S. Adam, S. Thureau, M. Chastan, and R. Modzelewski, "Spotting L3 slice in CT scans using deep convolutional network and transfer learning," Computers in biology and medicine, vol. 87, pp. 95-103, 2017. https://doi.org/10.1016/j.compbiomed.2017.05.018
- S. Dabiri, K. Popuri, C. Ma, V. Chow, E. Feliciano, B. J. Caan, V. Baracos, M. F. Beg, "Deep learning method for localization and segmentation of abdominal CT," Computerized Medical Imaging and Graphics, vol. 85, 101776, 2020.
- J. Wu, X. Y. Chen, H. Zhang, L. Xiong, H. Lei, S. H. Deng, "Hyperparameter optimization for machine learning models based on Bayesian optimization," Journal of Electronic Science and Technology, vol. 17 no. 1, pp. 26-40, 2019.
- H. Kaiming, X. Zhang, S. Ren, J. Sun, "Deep residual learning for image recognition," In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770-778, 2016.
- S. Islam, F. Kanavati, Z. Arain, O. Fadeeva Da Costa, W. Crum, E.O. Aboagye, A.G. Rockall, "Fully automated deep-learning section-based muscle segmentation from CT images for sarcopenia assessment," Clinical Radiology, vol. 77, pp. 363-371, 2022 https://doi.org/10.1016/j.crad.2022.01.036