I. Introduction
오늘날 MRI(Magnetic Resonance Imaging, 자기공명 영상), CT(Computed Tomography, 컴퓨터 단층촬영)와 같은 영상진단 장비로부터 얻은 의료영상은 중요한 의료 영상 시스템(Medical Imaging System)의 한 축으로 자리잡고 있다. 의료영상 시스템은 의료영상 정보를 디지털 상태로 획득·저장하고, 판독해 질병을 진단하는 시스템으로 정확한 진단 결과를 얻기 위해서는 방대한 양의 원시 영상 데이터를 적합하게 처리, 해석해야 한다. 하지만 데이터를 디지털화하거나 전송하는 과정에서 잡음(Noise)이 추가되어 영상의 품질이 저하되는 경우가 발생할 수 있다. 의료 영상에서 관찰되는 잡음은 환자 진단의 정확성에 부정적인 영향을 끼치기 때문에 오진 확률을 증가시킨다. 따라서, 의료영상의 정확한 분석과 판독을 위해 효과적인 잡음 제거는 영상복원 분야에서 매우 중요하고 필수적인 처리 과정이다[1-2].
의료영상에 존재하는 대표적인 잡음에는 가우시안 잡음(Gaussian Noise), 포아송 잡음(Poisson Noise), 그리고 스펙클 잡음(Speckle Noise) 등이 있다[3-4]. 영상복원 분야에서 기존에 흔하게 사용하는 평균 필터(Mean Filter), 가우시안 필터 (Gaussian Filter), 중앙값 필터(Median Filter) 등은 국부적인 필터(Local Filter)로 분류되며, 이는 잡음을 제거함과 동시에 경계 부근에 흐릿(Blurring) 현상을 일으키기 때문에 이를 해결하기 위하여 비지역적 평균(Non-Local Means) 기반의 전역적인 필터(Global Filter)가 많이 사용되고 있다. 그중 BM3D(Block-Matching and 3D Filtering) 방법은 비지역적 평균 방법의 확장형으로 픽셀 주변 블록의 구조적인 유사도에 따라서 가중치를 계산함으로써 영상의 기하학적인 모양을 최대한 유지하면서 잡음을 제거하는 방법이다[5].
최근, 의료영상 분석의 발전을 가능하게 만든 핵심 요소는 영상처리 기술에 딥러닝(Deep Learning)의 도입이다. 현재 잡음제거에 가장 많이 사용되는 딥러닝 모형은 CNN(Convolution Neural Network)과 AE(AutoEncoder, 오토인코더) 모형이다[6-9]. CNN 모형은 원래 영상인식에 특화된 모형으로 다수의 컨볼루션 층(Convolution Layer)과 풀링 층(Pooling Layer)을 거쳐 차원 축소와 영상의 특징을 추출하여 잡음을 제거한다. 그 중 대표적인 DnCNN(Denoising Convolutional Neural Network) 모형은 잔차 학습(Residual Learning)과 배치 정규화(Batch Normalization, BN)를 통해 잡음제거 성능을 향상시켰다. 또한, CDAE(Convolution Denoising AutoEncoder) 모형은 CNN과 AE 모형의 강점들을 결합한 형태로 디테일을 보존하면서 효과적으로 잡음제거를 위한 좋은 성능을 보인다[10].
영상에서 잡음과 원래 신호를 분리하여 잡음만을 제거하는 것은 한계가 있기 때문에, 영상을 공간적 영역이 아닌 주파수 대역(Frequency Domain)으로 분해하여 잡음을 제거하려는 연구가 이루어져 왔다[11-14]. 웨이블릿 변환(Wavelet Transform)은 기저 함수들의 집합으로 신호를 분해하여 표현하는 방법으로, 영상을 다양한 스케일에서 여러 주파수 대역으로 분해하여 분석할 수 있다.
본 논문에서는 웨이블렛 변환 기반 CNN 모형, 여기서는 DnCNN 모형을 통해 잡음제거 성능을 높이고자 한다. 우리는 이런 모형은 WT-DnCNN 모형이라 부르고, 이는 잡음 영상에 웨이블렛 변환을 사용하여 잡음과 에지를 주파수 대역별로 구분하여 일차적으로 잡음을 제거하고, 해당 주파수 대역에서 기존 DnCNN 모형을 적용하여 최종적으로 잡음을 제거한다.
본 논문에서 제안된 WT-DnCNN 모형의 성능평가를 위해 MRI 뇌 영상과 COVID-19 흉부 CT 영상 데이터를 가지고 여러 잡음 하에서 고전적인 BM3D 방법, 기존 딥러닝의 CDAE, DnCNN 모형과 비교하였다. 성능 실험에서 비교척도로서 직접 눈으로 평가하는 정성적인 평가와 PSNR(Peak Signal-to-Noise Ratio), SSIM(Structural Similarity Index Measure)을 통한 정량적인 평가, 그리고 모형의 실행시간을 평가한다[15-16].
본 논문의 주요 기여 포인트(Contribution Points)는 다음과 같다.
● 기존의 DnCNN 모형은 학습하는 과정에서 영상 내 디테일한 부분이 손실될 수 있는 문제점이 있다. 이러한 문제점을 해결하기 위해 웨이블렛 변환 기반 DnCNN 모형을 제안한다.
● 기존의 DnCNN 모형은 특정 잡음, 즉 가우시안 잡음만 고려하였으나, 제안된 WT-DnCNN 모형은 의료 영상에 흔히 존재하는 가우시안 잡음 이외의 포아송 잡음과 스펙클 잠음도 고려하여 여러 잡음 모형 하에서 좋은 성능을 보임을 제시한다.
● 제안된 WT-DnCNN 모형의 우수성을 입증하기 위해 다양한 특성을 가진 MRI 영상과 CT 영상을 이용하여 전통적인 방법과 기존 딥러닝 모형과 성능 비교한다.
본 논문은 다음과 같이 구성되어 있다. 제2장에서는 예비 연구로써 잡음 모형, 웨이블렛 변환 그리고 DnCNN 모형에 대해 논의하고, 제3장에서는 본 연구와 관련 내용에 대해 논의하고, 제4장에서는 제안된 WT-DnCNN 모형을 이용한 잡음제거 방법에 대해 논의한다. 제5장에서는 여러 영상실험을 통해 모형 평가하고, 제6장에서 결론을 맺는다.
II. Preliminaries
1. Noise Model
X∈RN와 Y∈RN을 각각 원 영상(Original Image)과 잡음 영상(Noisy Image)이라 할 때 가우시안 잡음은 자연 현상이나 전자 장비에서 발생하는 잡음 중 가장 일반적인 잡음이다. 가우시안 잡음 모형을 수식으로 표현하면 식 (1)과 같다.
Y = X + σ × Z, (1)
여기서 Z∈RN는 표준정규분포를 갖는 확률변수이고 σ는 잡음의 정도를 뜻한다. 그리고 기호 +, ×는 행렬의 덧셈과 상수 σ의 상수 배(Scalar Multiplication)를 나타낸다.
포아송 잡음은 광학 장치의 광자나 전자 회로의 전자들이 검출되는 과정에서 발생하는 잡음이다. 잡음 정도가 σ인 포아송 잡음 모형을 수식으로 나타내면 식 (2)와 같다.
Y = X + σ × P(λ), (2)
여기서 P(λ)는 평균이 λ인 포아송 분포를 갖는 확률변수를 나타낸다.
스펙클 잡음은 주로 환자의 조직과 기관의 비균일성으로 인해 발생한다. 스펙클 잡음 모형을 수식으로 나타내면 식 (3)과 같다.
Y = X + n × X, (3)
여기서 n은 평균이 0, 분산이 σ2인 균일 분포(Uniform Distribution) 확률변수이고 잡음 정도는 분산 σ2에 의해 결정된다[17].
2. Wavelet Transform
웨이블렛 변환은 임의의 신호를 웨이블렛으로 정의되는 함수들로 분해하는 방법이다. 웨이블렛 변환의 기저 함수를 모 웨이블렛(Mother Wavelet)이라 하며, 모 웨이블렛의 척도 변환(Scaling) 및 전이(Transition)를 통해 시간 도메인에 있는 신호가 주파수 영역으로 변환된다. 웨이블렛 변환을 디지털 영상에 적용하기 위한 이산 웨이블렛 변환(Discrete Wavelet Transform, DWT)에서 Ψ(t)을 시간 t에서 모 웨이블릿 함수라 할 때 웨이블렛 Ψj,k(t)은 식 (4)와 같이 나타낼 수 있다.
\(\begin{align}\Psi_{j, k}(t)=2^{-\frac{j}{2}} \psi\left(2^{-j} t-k\right)\end{align}\), (4)
여기서 j는 크기 조정을 담당하는 파라미터(Scale Parameter)이고, k는 시간 축을 따라 이동하는 파라미터(Shift Parameter)이다. 따라서 임의의 신호 f(t)는 식 (5)와 같이 웨이블렛 Ψj,k(t)과 웨이블렛 계수 cj,k들의 선형결합으로 표현할 수 있다.
\(\begin{align}f(t)=\sum_{j, k} c_{j, k} \Psi_{j, k}(t)\end{align}\). (5)
식 (5)의 cj,k들은 각각 저역 통과 필터(Low-Pass Filter)와 고역 통과 필터(High-Pass Filter)를 거쳐 얻어진 결괏값으로, 식 (6)과 (7)과 같이 근사 계수(Approximation)와 상세 계수(Detail Coefficient)로 분해된다.
\(\begin{align}c_{k}(j)=\sum_{n} h(n-2 k) c_{n}(j-1)\end{align}\), (6)
\(\begin{align}d_{k}(j)=\sum_{n} g(n-2 k) c_{n}(j-1)\end{align}\), (7)
여기서 ck(j), dk(j)는 j단계에서 각각 근사 계수와 상세 계수를 나타낸다. 이는 cn(j - 1)에 저역 통과 필터 h(∙)와 고역 통과 필터 g(∙)을 각각 적용하여 얻어진다.
역 이산 웨이블렛 변환(Inverse Discrete Wavelet Transform, IDWT)은 위 과정의 반대로 분해된 신호의 서브 밴드에서 다시 역 저역 통과 필터(Inverse Low-Pass Filter)와 역 고역 통과 필터(Inverse High-Pass Filter)를 적용하여 합성하면 이전 신호로 재구성할 수 있다. 식 (8)은 분해된 j 단계에서 신호 cn(j)들로부터 이전 j - 1단계에서 신호를 합성하는 것을 나타내고 있다.
\(\begin{align}c_{n}(j-1)=\sum_{k} \tilde{h}(n-2 k) c_{k}(j)+\sum_{k} \tilde{g}(n-2 k) d_{k}(j)\end{align}\), (8)
여기서 \(\begin{align}\bar{h}({\cdot})\end{align}\), \(\begin{align}\bar{g}({\cdot})\end{align}\)는 각각 역 저역 통과 필터와 역고역 통과 필터를 나타낸다[18-20].
3. DnCNN Model
DnCNN 모형은 잡음 영상으로부터 원 영상과의 차이 영상인 잔차 영상(Residual Image)을 예측하기 위해 설계된 CNN 모형이다[5]. DnCNN 모형은 Fig. 1과 같이 여러 개의 컨볼루션 층(Convolution Layer, Conv), 배치 정규화, 그리고 ReLU(Rectified Linear Unit) 함수로 구성되어 있다.
Fig. 1. DnCNN architecture
Fig. 1의 DnCNN 구조를 살펴보면 3가지 종류의 층이 있다. 첫 번째 층은 Conv + ReLU이고, 이것은 64개 특징 맵 생성과 비선형(Nonlinearity)을 위해 사용된다. 두 번째층은 Conv + BN+ ReLU이고, 세 번째 층은 Conv이고, 이것은 출력 영상을 재구성하기 위해 사용된다. 먼저 잡음 영상을 입력 영상으로 받고, 컨볼루션 층을 통해 입력받은 영상에 대한 특징을 자동으로 추출한다. 그리고 배치 정규화를 통해 컨볼루션 층과 ReLU 함수 사이에서 배치 별로 분포가 평균이 0, 분산이 1이 되도록 정규화한다. 다음으로 활성화 함수인 ReLU 함수를 거치면서 입력이 0을 넘으면 그 입력을 그대로 출력하고, 0 이하이면 0을 출력한다. 이 과정을 반복하면서 마지막으로 잔차 영상을 얻는다.
DnCNN 모형의 입력 영상을 식 (9)와 같이 표현할 수 있다.
Y = X + V, (9)
여기서 Y는 잡음 영상이고, X은 원 영상이고, 그리고 V는 잡음이다. Fig. 1의 잔차 학습을 위한 잔차 매핑(Residual Mapping)을 수식으로 표현하면 식 (10)과 같다.
R(Y) ≈ V. (10)
그러면, X = Y - R(Y)이 된다. 여기서 사용된 손실 함수는 L2 손실함수(L2 Loss Function)로 식 (11)과 같이 평균제곱오차(Mean Squared Error, MSE)를 사용하여 표현할 수 있다.
\(\begin{align}\ell(\theta)=\frac{1}{2 N} \sum_{i=1}^{N}\left\|R\left(Y_{i} ; \theta\right)-\left(Y_{i}-X_{i}\right)\right\|^{2}\end{align}\), (11)
여기서 ||∙||2는 L2 놈(Norm)을 나타내고, {(Yi, Xi)}Ni=1은 잡음 영상 Yi와 원 영상 Xi과의 N개의 패치 쌍을 나타내고, θ는 학습될 모형 파라미터를 나타낸다. 따라서 손실함수 ℓ(θ)을 최소화하는 DnCNN 모형의 파라미터 θ을 찾는다[21-23].
III. Related Works
지금까지 웨이블렛 변환은 영상처리의 잡음제거를 위한 강력한 변환 방법으로 간주되고 있다. 예를 들어, [24]는 가우시안 잡음이 혼재된 멀리 모달 의료영상(Multi-Modal Medical Images)에서 여러 종류의 웨이블렛 즉, Harr, Daubechies, Symlet, Biorthogonal 그리고 Meyer를 사용하여 잡음제거 성능을 비교하였고, [25]는 웨이블렛 변환 중 가장자리가 날카로운 영상을 분석하는데 유용한 릿지렛 변환(Ridgelet Transform)과 개선된 웨이블렛 임곗값 처리(Improved Wavelet Thresholding)을 결합하여 잡음제거 성능을 개선시켰다. [26]은 기존 DWT의 변이-불변성(Translation-Invariance)의 단점을 보완하기 위해 SWT(Stationary Wavelet Transform) 영역에서 잡음 제거를 수행하였다. 여기서 DWT는 영상을 분해할 때마다 다운 샘플링(Down-Sampling)을 통해 신호의 길이를 반으로 줄임으로 역변환을 할 때 정보의 손실이 발생하는 것에 비해 SWT는 다운 샘플링 과정 없이 영상을 그대로 보존한다.
최근, 기존 웨이블렛 변환을 딥러닝 기술, 특히 CNN과 접목시켜 잡음제거 과정에서 손실되는 디테일한 정보를 보존하는 방법들이 개발되고 있다. [27]은 DWT을 통해 여러 스케일에서 영상특징을 추출하고, CNN을 통해 복잡하고 비선형 관계를 학습함으로써 효과적인 잡음제거 모형을 제안하였고, [28]은 기존의 DWT보다 방향성을 개선한 DTCWT(Dual-Tree Complex Wavelet Transform)와 CNN과의 결합모형을 제안하였다. 여기서 DTCWT은 이동 불변(Shift Invariance) 성질을 만족하며, 기존 DWT보다 많은 방향성 정보를 포함한다. [29]는 SED-Net(Sequential Encoding-Decoding Network)이라고 부르는 CNN 기반 웨이블렛 모형을 제안하여 적은 계산 비용과 성능을 동시에 향상시키고자 하였다. 참고로, 기존 CNN은 계산 효율성과 성능을 조화롭게 균형 잡을 수 없었다.
IV. WT-DnCNN Model for Image Denoising
1. WT-DnCNN Model Structure
본 논문에서 잡음제거를 위해 제안된 WT-DnCNN 모형의 구조를 도식화하면 Fig. 2과 같다.
Fig. 2. WT-DnCNN architecture
Fig. 2를 보면, WT-DnCNN 모형의 구조는 크게 웨이블렛 변환과 DnCNN 구조로 이루어져 있다. 웨이블렛 변환은 웨이블렛 분해와 웨이블렛 복원 과정으로 구성된다. 웨이블렛 분해에서는 다운 샘플링 과정을 거쳐 총 4개의 주파수 대역(LL1, LH1, HL1, HH1)이 얻어진다. 여기서 LL1은 저주파 영역, LH1는 수직 방향, HL1은 수평 방향, HH1는 고주파 영역의 서브 밴드를 나타낸다. 영상에서 잡음은 주로 고주파 영역에 존재하므로 저주파 영역인 LL1 서브 밴드를 제외하고 나머지 LH1 서브 밴드, HL1 서브 밴드, HH1 서브 밴드에 임곗값 처리(Thresholding)를 수행한다. 본 논문에서는 웨이블렛 분해를 2번 진행하여 첫 웨이블렛 분해 과정에서 얻어진 LL1 서브 밴드가 다음 단계의 입력으로 들어가고 다시 동일한 방식으로 분해 과정을 거쳐 4개의 주파수 대역(LL2, LH2, HL2, HH2)이 얻어진다. 웨이블렛 복원에서는 웨이블렛 분해와 임곗값 처리과정을 통해 얻은 분해된 영상의 서브밴드를 업 샘플링(Up-Sampling) 과정을 거쳐 고주파 필터, 저주파 필터를 역으로 적용한 후 합성하여 일차적으로 잡음이 제거된 영상을 얻는다.
다음으로, DnCNN 모형의 잔차 학습에서는 웨이블렛 변환을 거쳐 얻어진 영상과 원 영상과의 차이인 잔차 영상을 생성하도록 학습한다. 여기서 잔차 학습은 CNN에서 영상의 특징을 추출하는 과정에서 네트워크의 층이 깊은 경우 기울기 소실 문제(Vanishing Gradient Problem)를 해결하기 위해 숏컷 연결 (Shortcut Connection) 형태를 추가한다. 여기서 숏컷 연결은 스킵 연결(Skip Connections)이라고도 부르는데, 입력 데이터가 네트워크의 여러 층을 건너뛰어 출력층에 직접 연결되는 방식을 말한다. 기존 CNN 모형은 Y에서 X로의 매핑 함수(Mapping Function) 즉,F : Y → X을 최적으로 학습하는 대신 잔차 학습은 Y에서 V로의 매핑 함수 즉, R : Y → V을 최적으로 학습하는 것을 목표로 한다. 따라서 이런 구조를 사용하면 기존 방법보다 최적화가 더 쉽고 안정적인 학습이 가능하여 층이 깊은 경우 성능 저하 문제를 해결할 수 있다.
2. WT-DnCNN Model Implementation
WT-DnCNN 모형은 딥러닝 프레임워크인 파이토치(PyTorch)를 이용하여 구현하고자 한다. 모형 구현은 nn.Module 모듈을 상속한 클래스를 기반으로 모형을 생성한다.
Algorithm 1은 제안된 WT-DnCNN 모형에서 웨이블렛 변환에 대한 의사코드(Pseudo Code)를 나타내고 있다.
Algorithm 1. Wavelet Transform
라인 1에서 입력 영상에 대해 기저 웨이블렛 함수로서 Daubechies 4(db4)를 사용하여 신호의 2-레벨 DWT 반환값은 다음과 같다.
[cAn, (cHn, cVn, cDn), ..., (cH1, cV1, cD1)],
여기서 n은 분해 수준(Decomposition Level)(여기서는 n=2)을 나타내고 cA, cH, cV 그리고 cD는 각각 근사계수, 수평 상세 계수(Horizontal Detail), 수직 상세 계수(Vertical Detail) 그리고 대각 상세 계수(Diagonal Detail Coefficients)를 나타낸다.
라인 2-4에서 임곗값 처리는 웨이블릿 계수를 0을 향해 T만큼 축소시키는 소프트 임곗값 처리(Soft Thresholding)를 사용한다. 이를 수식으로 표현하면 식 (12)와 같다.
\(\begin{align}\Theta(x)=T^{s o f t}(x, \lambda)=\left\{\begin{array}{ll}x-\operatorname{sgn}(x) T & \text { if }|x| \geq T \\ 0 & \text { if }|x|<T\end{array}\right.\end{align}\), (12)
여기서 sgn(x)는 x가 양수이면 1이고 음수이면 –1인 함수이고, 임곗값 T는 관측값(Signal Energy) 뿐만 아니라 잡음의 분산에 따라 결정된다. 여기서는 T = 0.01로 설정하였다.
라인 5에서 IDWT의 반환값은 다음과 같다.
[cAn, (cHn, cVn, cDn), ..., (cH1, cV1, cD1)]
Algorithm 2는 Algorithm 1에서 얻어진 결과 영상에 DnCNN 모형 적용에 대한 의사코드를 나타내고 있다.
Algorithm 2. DnCNN model
라인 1에서 데이터 전처리 과정으로 영상의 픽셀값을 (0, 1) 사이로 정규화한다. 라인 2는 Conv + ReLU을 구현하고, 라인 3-5는 Conv + BN+ ReLU을 구현하고, 라인 6은 Conv를 구현한다. 여기서 첫 번째 층은 배치 정규화 층이 없고, 마지막 층은 배치 정규화 층과 ReLU 활성화 함수가 없다. 여기서 보면, 일반적인 CNN 모형과는 다르게 풀링 층은 모형에 포함되지 않는다. 라인 7에서 모형 학습 과정에서 손실함수는 잡음 영상과 잡음제거 영상 간의 차이 영상에 대한 평균제곱오차에 의해 계산하고, 모형 학습은 라인 8에서 라인 13에 걸쳐 Adam 최적화 알고리즘에 의해 이루어진다. 라인 9의 데이터 로더(DataLoader)는 파이토치에서 데이터 세트(Dataset)를 읽어와서 배치 단위로 데이터 로딩을 효율적으로 처리하는데 중요한 역할을 한다. 여기서 사용된 파라미터 ⍺ = 2 × 10-3, β1 = 0.5, β2 = 0.999이다. 이때 ⍺는 학습률, β1, β2 ∈ [0, 1)는 지수 이동 평균에서 지수적 감쇠(Exponential Decay)를 조정하는 파라미터이다.
V. Performance Experiment and Results
1. Performance Experiment
본 논문에서 제안된 WT-DnCNN 모형의 잡음제거 성능을 평가하기 위해 기존의 잡음제거 방법인 BM3D와 기존 딥러닝 모형인 CDAE, DnCNN 모형과 비교하고자 한다. 여기서 두 딥러닝 모형 모두 최적화 알고리즘으로 Adam을 사용하였으며 에포크(Epoch)는 100으로 설정하였다.
실험 환경으로는 NVIDIA GPU인 GeForce RTX 3090을 사용하였으며 성능 실험에 사용된 데이터 세트는 두 가지로, 하나는 MRI 영상 데이터 세트이고, 다른 하나는 CT 영상 데이터 세트이다. MRI 영상 데이터 세트는 캐글의 뇌종양(Brain Tumor) MRI 데이터 세트이고[30-31], CT 영상 데이터 세트는 캐글의 COVID-19 흉부(Chest) CT 데이터 세트이다[32-33]. 두 가지 데이터 세트에서 각각 5,711개, 10,192개 영상을 사용하여 실험하였고 모형 학습을 위해 학습(Train) 영상과 테스트(Test) 영상의 비율을 80% : 20%로 분할하였다.
Fig. 3은 뇌종양 MRI 데이터 세트에서 원 영상과 여러 잡음 영상 즉, 가우시안 잡음 영상, 포아송 잡음 영상 그리고 스펙클 잡음 영상들을 나타낸다. 여기서 잡음 비율은 0.1이다.
Fig. 3. Original image and noisy images from Brain Tumor MRI Dataset
Fig. 4는 COVID-19 흉부 CT 데이터 세트에서 원 영상과 여러 잡음 영상 즉, 가우시안 잡음 영상, 포아송 잡음 영상 그리고 스펙클 잡음 영상들을 나타낸다. 여기서 잡음 비율은 0.1이다.
Fig. 4. Original image and noisy images from COVID-19 Chest CT Dataset
학습 영상과 테스트 영상에서 제안된 WT-DnCNN 모형이 최적화 과정에서 학습 상태를 손실함수 그래프를 통해 확인하고자 한다. Fig. 5는 뇌종양 MRI 데이터 세트에서 학습 반복 수가 증가함에 따라 WT-DnCNN 모형의 손실 함수 그래프를 보여주고 있다.
Fig. 5. Loss functions for WT-DnCNN model in noisy Brain Tumor MRI images
Fig. 5에서 보면, 모든 잡음 영상에서 손실함수 그래프가 비슷한 형태를 보이면서 작은 값으로 수렴하는 것을 알 수 있다. 이는 WT-DnCNN 모형의 안정성을 보여준다.
Fig. 6은 COVID-19 흉부 CT 데이터 세트에서 학습 반복 수가 증가함에 따라 WT-DnCNN 모형의 손실함수 그래프를 보여주고 있다.
Fig. 6. Loss functions for WT-DnCNN model in noisy COVID-19 Chest CT images
Fig. 6에서 보면, Fig. 5과 비슷한 결과를 얻었다. 이는 학습 데이터와 테스트 데이터 모두에서 WT-DnCNN 모형이 안정적으로 학습이 이루어짐을 의미한다.
2. Experiment Results
2.1 Quantitative Evaluation
영상실험에서 모형의 정량적인 평가를 위해 PSNR과 SSIM을 사용하였다. 여기서 PSNR은 잡음제거 영상과 원 영상 간의 전체적인 차이를 측정하는 척도로써 PSNR 값이 클수록 영상의 잡음제거력이 우수하다고 말할 수 있다. Xi∈RN을 원 영상, \(\begin{align}\widehat{Y}_{i} \in R^{N}\end{align}\)을 잡음제거 영상이라 할 때, PSNR을 수식으로 표현하면 식 (13)과 같이 나타낼 수 있다.
\(\begin{align}P S N R=10 \times \log \left(\frac{M A X^{2}}{M S E}\right)\end{align}\), (13)
여기서 MAX는 영상의 최대 픽셀값(1 또는 255)을 말하고, MSE는 평균제곱오차로 두 영상의 픽셀값 차이를 의미한다. MSE를 식으로 나타내면 아래의 식 (14)와 같다.
\(\begin{align}M S E=\frac{1}{N} \sum_{i \in N}\left\{X_{i}-\widehat{Y}_{i}\right\}^{2}\end{align}\). (14)
다음으로, SSIM은 PSNR과 달리 원 영상과 잡음제거 영상 사이의 구조적 유사도를 측정한 척도로서 수식은 식 (15)와 같다.
\(\begin{align}SSIM=\frac{\left(2 \mu_{X}^{2} \mu_{\hat{Y}}^{2}+C_{1}\right)\left(2 \sigma_{X \hat{Y}}+C_{2}\right)}{\left(\mu_{X}^{2}+\mu_{\hat{Y}}^{2}+C_{1}\right)\left(\sigma_{X}^{2}+\sigma_{\hat{Y}}^{2}+C_{2}\right)}\end{align}\), (15)
여기서 μX와 \(\begin{align}\mu_{\hat{Y}}\end{align}\)는 각각 Xi, \(\begin{align}\hat {Y}_i\end{align}\)의 픽셀값에 대한 평균, σ2X와 \(\begin{align}\sigma_{\hat{Y}}^{2}\end{align}\)는 픽셀값의 분산, 그리고 \(\begin{align}\sigma_{X \hat{Y}}\end{align}\)는 공분산을 의미하며, C1과 C2는 분모가 0이 되는 것을 방지하기 위해 사용하는 안정화 변수이다. SSIM 값이 1에 가까울수록 원영상과 완전한 구조적 유사도를 가진다고 볼 수 있다. 즉, SSIM 값이 클수록 잡음제거 영상이 원 영상과 가깝다고 할 수 있다.
본 실험에서는 각각의 모형에 대하여 테스트 데이터에서 10회 반복 실험하여 도출된 PSNR, SSIM의 평균값으로 나타내었다.
Table 1은 두 개의 데이터 세트 각각에 대해 Fig. 3(b)과 Fig. 4(b)의 가우시안 잡음 영상에서 여러 방법을 적용하여 얻은 성능 수치이다.
Table 1. Performance comparison of denoising methods for Gaussian noisy images in Fig. 3(b) and Fig. 4(b)
Table 1로부터 두 데이터 세트에서 WT-DnCNN 모형 이 모든 척도 하에서 가장 뛰어난 수치를 보였음을 알 수 있고 다음으로 DnCNN 모형, CDAE 모형, BM3D 순으로 나타났다.
Table 2는 두 개의 데이터 세트 각각에 대해 Fig. 3(c) 과 Fig. 4(c)의 포아송 잡음 영상에서 여러 방법을 적용하 여 얻은 성능 수치이다.
Table 2. Performance comparison of denoising methods for Poisson noisy images in Fig. 3(c) and Fig. 4(c)
Table 2의 결과를 보면, 뇌종양 MRI 데이터 세트인 경우 WT-DnCNN 모형이 모든 척도에 대해 가장 좋은 성능을 보였고, COVID-19 흉부 CT 데이터 세트인 경우 모든 척도에 대해 DnCNN 모형, WT-DnCNN 모형 순으로 좋은 성능을 보였다. 여기서 DnCNN 모형과 WT-DnCNN 모형의 수치를 비교해 보면, 두 데이터 세트 모두 큰 차이가 나지 않는 것을 알 수 있다.
Table 3은 두 개의 데이터 세트 각각에 대해 Fig. 3(d)과 Fig. 4(d)의 스펙클 잡음 영상에서 여러 방법을 적용하여 얻은 성능 수치이다.
Table 3. Performance comparison of denoising methods for Speckle noisy images in Fig. 3(d) and Fig. 4(d)
Table 3의 결과를 보면, 두 데이터 세트에서 WT-DnCNN 모형이 모든 척도에 대해 가장 뛰어난 성능을 보였고 다음으로 DnCNN 모형 순으로 좋은 성능을 보이는 것을 확인할 수 있다.
결론적으로 Table 1, Table 2, 그리고 Table 3으로부터 전반적으로 제안된 WT-DnCNN 모형이 가장 좋은 수치를 보였고, 다음으로 DnCNN, CDAE, BM3D 순으로 나타났다. 특히, WT-DnCNN 모형과 DnCNN 모형과의 비교에서 WT-DnCNN 모형의 우위는 웨이블렛 변환에 의한 일차적인 잡음제거 영향에 기인한다고 볼 수 있다.
2.2 Qualitative Evaluation
지금까지 정량평가는 인간의 시각 특성을 제대로 반영하지 못하며 낮은 PSNR과 SSIM 값을 갖는 영상이 인간 눈에 더 좋게 보일 수 있는 문제점이 있다. 여기서는 이를 보완하기 위해 모형의 잡음제거 성능을 육안으로 비교하는 정성적인 평가를 수행하고자 한다.
Fig. 7은 뇌종양 MRI 데이터 세트에서 여러 잡음제거 방법들을 Fig. 3(b)의 가우시안 잡음 영상에 적용하여 얻은 실험 결과이다.
Fig. 7. Experiment results for Gaussian noisy image in Fig. 3(b)
Fig. 7에서 보면, BM3D는 잡음은 제거되었지만 디테일한 부분이 심하게 훼손된 결과를 보였고, CDAE 모형은 BM3D보다 디테일은 보존되었지만 다른 딥러닝 모형 DnCNN, WT-DnCNN 모형보다 흐릿한 결과를 보였다. DnCNN과 WT-DnCNN 모형은 Fig. 3(a)의 원 영상과 비슷한 결과를 얻었다.
Fig. 8은 뇌종양 MRI 데이터 세트에서 Fig. 3(c)의 포아송 잡음 영상에 적용하여 얻은 실험 결과이다.
Fig. 8. Experiment results for Poisson noisy image in Fig. 3(c)
Fig. 8에서 보면, BM3D, CDAE 모형의 경우 Fig. 7과 비슷한 잡음제거 결과를 얻었다. WT-DnCNN 모형은 DnCNN 모형과 비슷한 결과를 보였으며, BM3D와 CDAE 모형보다 좋은 잡음제거 영상을 얻었다.
Fig. 9는 뇌종양 MRI 데이터 세트에서 Fig. 3(d)의 스펙클 잡음 영상에 적용하여 얻은 실험 결과이다.
Fig. 9. Experiment results for Speckle noisy image in Fig. 3(d)
Fig. 9로부터, WT-DnCNN 모형은 DnCNN 모형과 함께 Fig. 3(a)의 원 영상과 가까운 영상을 얻었고, 다음으로는 CDAE 모형, BM3D 모형 순으로 잡음제거 결과를 보였다.
Fig. 10은 COVID-19 흉부 CT 데이터 세트에서 잡음제거 방법들을 Fig. 4(b)의 가우시안 잡음 영상에 적용하여 얻은 실험 결과이다.
Fig. 10. Experiment results for Gaussian noisy image in Fig. 4(b)
Fig. 10에서 보면, BM3D는 폐의 질병을 진단할 수 없을 정도로 동공이 관찰되고, CDAE는 흉곽에서 DnCNN과 WT-DnCNN 보다 희미한 결과를 보였다.
Fig. 11은 COVID-19 흉부 CT 데이터 세트에서 Fig. 4(c)의 포아송 잡음 영상에 적용하여 얻은 실험 결과이다.
Fig. 11. Experiment results for Poisson noisy image in Fig. 4(c)
Fig. 11에서 보면, WT-DnCNN 모형은 DnCNN 모형과 눈으로 비교할 수 없을 정도로 여전히 좋은 영상 결과를 보였다.
Fig. 12는 COVID-19 흉부 CT 데이터 세트에서 Fig. 4(d)의 스펙클 잡음 영상에 적용하여 얻은 실험 결과이다.
Fig. 12. Experiment results for Speckle noisy image in Fig. 4(d)
Fig. 12에서 BM3D는 너무 까맣게 음영이 보였고, CDAE는 DnCNN과 WT-DnCNN 모형보다 약간 흐릿한 결과 영상을 보였고 DnCNN과 WT-DnCNN 모형은 비슷한 영상의 결과를 보였다.
2.3 Execution Time Evaluation
MRI 데이터 세트와 CT 데이터 세트에서 여러 잡음 영상을 사용하여 모형의 실행시간(단위:초)을 비교하고자 한다. 여기서는 학습 영상에 대해 1 에포크의 학습 시간을 측정하였다.
Table 4는 두 개의 데이터 세트 각각에 대해 Fig. 3(b)과 Fig. 4(b)의 가우시안 잡음 영상에서 여러 모형의 실행 시간 측정한 수치이다.
Table 4. Execution time(in seconds) of denoising methods for Gaussian noisy images in Fig. 3(b) and Fig. 4(b)
Table 4에서 보면, BM3D 모형이 예상한 것처럼 다른 딥러링 모형보다 실행시간이 오래 걸리는 것으로 나타났다[34-35]. 딥러링 모형 중에서는 CDAE 모형이 가장 짧고 다음으로 DnCNN 모형, WT-DnCNN 모형 순으로 나타났다[36]. WT-DnCNN 모형은 DnCNN 모형과의 비교에서 Fig. 2에서 보듯이 웨이블렛 변환 추가로 인해 MRI 데이터 세트와 CT 데이터 세트에서 각각 약 9초, 15초 실행시간이 더 걸렸다.
Table 5는 두 개의 데이터 세트 각각에 대해 Fig. 3(c)과 Fig. 4(c)의 포아송 잡음 영상에서 여러 모형의 실행시간 측정한 수치이다.
Table 5. Execution time(in seconds) of denoising methods for Poisson noisy images in Fig. 3(d) and Fig. 4(d)
Table 5에서 보면, Table 4와 비슷한 결과를 얻었다. WT-DnCNN 모형은 BM3D 모형보다는 훨씬 적은 실행시간이 걸렸지만 CDAE 모형, DnCNN 모형보다는 많은 실행시간을 보였다.
Table 6은 두 개의 데이터 세트 각각에 대해 Fig. 3(d)과 Fig. 4(d)의 스펙클 잡음 영상에서 여러 모형의 실행시간 측정한 수치이다.
Table 6. Execution time(in seconds) of denoising methods for Speckle noisy images in Fig. 3(d) and Fig. 4(d)
Table 6에서 보면, Table 4, 5와 비슷한 결과를 얻었다. 딥러닝 모형 중에는 CDAE 모형이 가장 짧고, WT-DnCNN 모형을 포함한 모든 딥러링 모형이 전통적인 BM3D 모형보다는 시간이 적게 걸림을 알 수 있었다.
VI. Conclusions
본 논문에서는 의료영상에서 웨이블렛 기반 CNN 모형을 사용하여 잡음제거하는 WT-DnCNN 모형을 제안하였다. 이 방법은 웨이블렛 변환을 통해 영상을 주파수 대역으로 분해한 다음 일차적으로 잡음을 제거하고, CNN 모형 여기서는 DnCNN 모형을 적용하여 최종적으로 잡음을 제거하는 방법이다. 제안된 WT-DnCNN 모형의 우수성을 입증하기 위해 다양한 특성을 가진 의료영상 데이터 세트를 가지고 여러 잡음 모형하에서 전통적인 방법과 기존의 딥러닝 모형들과 성능 비교하였다. 성능 실험 결과, 정성적이고 정량적인 평가에서 원 영상에 가까우면서 좋은 성능 수치를 보였으나, 추가적인 웨이블렛 변환으로 인해 모형의 실행시간 증가가 있었다. 향후 연구에서는 웨이블렛 변환 방법을 개선하여 잡음제거 성능과 학습 시간을 동시에 고려한 효율적인 모형을 제시하고자 한다.
ACKNOWLEDGEMENT
This work was supported by the National Research Foundation of Korea(NRF) grant funded by the Korea government(MSIT) (No. NRF-2022R1A2C1011140).
References
- M. Ameen, and S. A. Ahmed, "An Extensive Review of Medical Image Denoising Techniques," International Journal of Electronics and Communication Engineering and Technology, Vol. 7, No. 6, pp. 85-90, December 2016.
- S. M. Boby, and S. Sharmin, "Medical Image Denoising Techniques against Hazardous Noises: An IQA Metrics Based Comparative Analysis," International Journal of Image, Graphics and Signal Processing, Vol. 14, No. 2, pp. 25-43, April 2021. DOI: 10.5815/ijigsp.2021.02.03.
- S. Anitha, L. Kola, P. Sushma, and S. Archana, "Analysis of filtering and novel technique for noise removal in MRI and CT images," Proceedings of the 2017 International Conference on Electrical, Electronics, Communication, Computer, and Optimization Techniques, pp. 815-827, February 2017, DOI: 10.1109/ICEECCOT.2017.8284618.
- K. Dabov, A. Foi, V. Katkovnik, and K. Egiazarian, "Image denoising by sparse 3-D transform-domain collaborative filtering," IEEE Transactions on Image Processing, Vol. 16, No. 8, pp. 2080-2095, July 2007, DOI: 10.1109/TIP.2007.901238.
- L. Fan, F. Zhang, H. Fan, and C. Zhang, "Brief review of image denoising techniques," Visual Computing for Industry, Biomedicine, and Art, Vol. 2, No. 7, pp 1-12, July 2019, DOI: 10.1186/s42492-019-0016-7.
- K. Zhang, W. Zuo, Y. Chen, D. Meng, and L. Zhang, "Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising," IEEE Transactions on Image Processing, Vol. 26, No. 7, pp 3142-3155, July 2017, DOI: 10.1109/TIP.2017.2662206.
- W. H. Lee, M. Ozger, U. Challita, and K. W. Sung, "Noise Learning-Based Denoising Autoencoder," IEEE Communications Letters, Vol. 25, No. 9, pp. 2983 - 2987, September 2021. DOI: 10.1109/LCOMM.2021.3091800.
- P. S. S. Prasad, K. S. V. Vamsi, M. Ameeruddin, A.Lakshmanarao, and M. Singampalli, "Image Denoising using CNN in Deep Learning," Proceedings of the 8th International Conference on Communication and Electronics Systems (ICCES), pp. 1343-1346, June 2023, DOI: 10.1109/ICCES57224.2023.10192784.
- C. Yang, J. Ye, Y. Wang, and C. Song, "X-Ray Breast Images Denoising Method Based on the Convolutional Autoencoder," Mathematical Problems in Engineering, Vol. 2022, pp. 1-10, November 2022, DOI: 10.1155/2022/2362851.
- Y. Farooq, and S. Savas, "Noise Removal from the Image Using Convolutional Neural Networks-Based Denoising Auto Encoder," Journal of Emerging Computer Technologies, Vol. 3, No. 1, pp. 21-28. December 2023, DOI: 10.57020/ject.1390428.
- S. Ruikar, and D. D. Doye, "Image Denoising using Wavelet Transform," Proceedings of the 2010 International Conference on Mechanical and Electrical Technology, pp. 509-515, September 2010, DOI: 10.1109/ICMET.2010.5598411.
- S. Khedkar, K. Akant, and M. M. Khanapurkar, "Image Denoising using Wavelet Transform," International Journal of Research in Engineering and Technology, Vol. 5, No. 4, pp. 206-212, April 2016. https://doi.org/10.15623/ijret.2016.0504040
- P. Hedaoo, and S. S. Godbole, "Wavelet Thresholding Approach For Image Denoising," International Journal of Network Security & Its Applications, Vol. 3, No. 4, pp. 16-21, July 2011, DOI: 10.5121/ijnsa.2011.3402.
- H. C. Jeong, and D. H. Lim, "An Efficient CT Image Denoising using WT-GAN Model," Journal of The Korea Society of Computer and Information, Vol. 29 No. 5, pp. 21-29, May 2024, DOI: 10.9708/jksci.2024.29.05.021.
- Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, "Image Quality Assessment: From Error Visibility to Structural Similarity," IEEE Transactions on Image Processing, Vol. 13, No. 4, pp. 600-612, April 2004, DOI: 10.1109/TIP.2003.819861.
- U. Sara, M. Akter, and M. Uddin, "Image Quality Assessment through FSIM, SSIM, MSE and PSNR-A Comparative Study," Journal of Computer and Communications, Vol. 7, No. 3, pp. 8-18, March 2019, DOI: 10.4236/jcc.2019.73002.
- A. Makandar, D. Mulimani, and M. Jevoor, "Comparative Study of Different Noise Models and Effective Filtering Techniques," International Journal of Science and Research, Vol. 3, pp. 458-464. August 2014.
- S. G. Mallat, "A Theory for Multiresolution Signal Decomposition: The Wavelet Representation," IEEE Transactions on Pattern Analysis & Machine Intelligence, Vol. 11, No. 4, pp. 674-693, July 1989, DOI: 10.1109/34.192463.
- A. Khmag, A. R. Ramli, S. A. R. Al-Haddad, and S. J. Hashim, "A Detailed Study on Image Denoising Algorithms by Using the Discrete Wavelet Transformation," International Journal of Computer Science And Technology, Vol. 5, pp. 17-24, March 2014, DOI: 10.1109/TIP.2003.819861.
- C. Tian, M. Zheng, W. Zuoc, B. Zhang, and Y. Zhang, "Multi-stage image denoising with the wavelet transform," Pattern Recognition, Vol. 134, pp. 1-12, February 2023, DOI: 10.1016/j.patcog.2022.109050.
- W. Wang, "An improved denoising model for convolutional neural network," Journal of Physics: Conference Series, Vol. 1982, pp. 1-7, March 2021, DOI: 10.1088/1742-6596/1982/1/012169.
- G. Y. Chen, W. Xie, and A. Krzyzak, "Improved Blind Image Denoising with DnCNN," Advanced Intelligent Computing Technology and Applications, pp. 263-271, August 2023, DOI: 10.1007/978-981-99-4742-3-21.
- L. Cheplanov, S. Avidan, D. J. Bonfil, and I. Klapp, "Hyperspectral image dynamic range reconstruction using deep neural network-based denoising methods," Machine Vision and Applications, Vol. 35, No. 39, pp. 1-14, March 2024, DOI: 10.1007/s00138-024-01523-5.
- R. Patil and S. Bhosale, "Multi-Modal Medical Image Denoising using Wavelets: A Comparative Study," Biomedical & Pharmacology Journal, Vol. 16, No. 4, pp. 2271-2281, December 2023, DOI: 10.13005/bpj/2803.
- B. Li, Y. Cong, and H. Mo, "Image denoising method integrating ridgelet transform and improved wavelet threshold," PLoS One, Vol. 19, No. 9, pp. 1-22, September 2024, DOI: 10.1371/journal.pone.0306706.
- M. Talbi, R. Baazaoui, and B. Nasraoui, "A novel method of image denoising based on 2D dual-tree DWT and SWT," International Journal of Wavelets, Multiresolution and Information Processing, Vol. 22, No. 04, pp. 1-20, July 2024, DOI: 10.1142/S0219691324500097.
- A. Shukla, K. Seethalakshmi, P. Hema, and J. C. Musale, "An Effective Approach for Image Denoising Using Wavelet Transform Involving Deep Learning Techniques," Proceedings of the 4th International Conference on Smart Electronics and Communication, pp. 1381-1386, September 2023, DOI: 10.1109/ICOSEC58147.2023.10275904.
- K. Liu, Y. Guo, and B. Su, "Image Denoising Network Based on Subband Information Sharing Using Dual-Tree Complex Wavelet," Neural Processing Letters, Vol. 55, No. 8, pp. 10975-10991, July, 2023, DOI: 10.1007/s11063-023-11359-1.
- R. Xu, Y. Xu, X. Yang, H. Huang, Z. Lei, and Y. Quan,"Wavelet analysis model inspired convolutional neural networks for image denoising," Applied Mathematical Modelling, Vol. 125, pp. 798-811, January 2024, DOI: 10.1016/j.apm.2023.10.023.
- P. Singh, E. Sizikova, and J. Cirrone, "CASS: Cross architectural self-supervision for medical image analysis," arXiv, pp. 1-16, 2022, DOI: 10.48550/arXiv.2206.04170.
- Y. Chen, Z. He, M. A. Ashraf, X. Chen, Y. Liu, X. Ding, B. Tong, and Y. Chen, "Performance evaluation of attention-deep hashing based medical image retrieval in brain MRI datasets," Journal of Radiation Research and Applied Sciences, Vol.17, No. 3, pp. 1-10, September 2024, DOI: 10.1016/j.jrras.2024.100968.
- M. Chetoui and M. A. Akhloufi, "Explainable vision transformers and radiomics for COVID-19 detection in chest X-rays," Journal of Clinical Medicine. Vol. 11, No. 11. pp. 1-11. May 2022, DOI: 10.3390/jcm11113013.
- I. Hamdi, M. Ridzuan, and M. Yaqub, "Hyperparameter optimization for COVID-19 chest X-ray classification," arXiv, pp. 1-15, January 2022, DOI: 10.48550/arXiv.2201.10885.
- C. Tian, Y. Xu, L. Fei, J. Wang, Wen, and N. Luo, "Enhanced CNN for image denoising," CAAI Transactions on Intelligence Technology, Vol. 4, No. 1, pp. 17-23, March, 2019, DOI: 10.1049/trit.2018.1054.
- C. Tian, L. Fei, W. Zheng, Y. Xu, W. Zuo, and C. W. Lin, "Deep learning on image denoising: An overview," Neural Networks, Vol. 131, pp. 251-275, November 2020, DOI: 10.1016/j.neunet.2020.07.025.
- W. Vickers, B. Milner, D. Risch, and R. Lee, "Robust North Atlantic Right Whale Detection using Deep Learning Models for Denoising," Journal of the Acoustical Society of America, Vol. 149, No. 6, pp. 3797-3812, June 2021, DOI: 10.1121/10.0005128.