DOI QR코드

DOI QR Code

Image Segmentation of Fuzzy Deep Learning using Fuzzy Logic

퍼지 논리를 이용한 퍼지 딥러닝 영상 분할

  • Jongjin Park (Dept. of Computer Engineering, Chungwoon University)
  • 박종진 (청운대학교 컴퓨터공학과)
  • Received : 2023.08.02
  • Accepted : 2023.10.06
  • Published : 2023.10.31

Abstract

In this paper, we propose a fuzzy U-Net, a fuzzy deep learning model that applies fuzzy logic to improve performance in image segmentation using deep learning. Fuzzy modules using fuzzy logic were combined with U-Net, a deep learning model that showed excellent performance in image segmentation, and various types of fuzzy modules were simulated. The fuzzy module of the proposed deep learning model learns intrinsic and complex rules between feature maps of images and corresponding segmentation results. To this end, the superiority of the proposed method was demonstrated by applying it to dental CBCT data. As a result of the simulation, it can be seen that the performance of the ADD-RELU fuzzy module structure of the model using the addition skip connection in the proposed fuzzy U-Net is 0.7928 for the test dataset and the best.

본 논문에서는 딥러닝을 이용한 영상 분할에서 성능을 향상하기 위해 퍼지 논리를 적용하는 퍼지 딥러닝 모델인 퍼지 U-Net을 제안한다. 퍼지 논리를 이용한 퍼지 모듈을 영상 분할에서 우수한 성능을 보이는 딥러닝 모델인 U-Net에 결합하여 다양한 형태의 퍼지 모듈을 시뮬레이션하였다. 제안된 딥러닝 모델의 퍼지 모듈은 이미지의 특징맵과 해당 분할 결과 사이의 본질적이고 복잡한 규칙을 학습다. 이를 위해 치아 CBCT 데이터에 적용하여 제안된 방법의 우수성을 입증하였다. 시뮬레이션 결과 제안된 퍼지 U-Net에서 더하기 스킵 연결을 사용한 모델의 ADD-RELU 퍼지 모듈 구조의 성능이 시험용 데이터에 대해 0.7928로 가장 우수한 것을 볼 수 있다.

Keywords

Ⅰ. 서론

인공지능(Artificial Intelligence, AI)은 인간의 삶과 관련된 모든 분야에 적용되어 많은 새로운 제품과 서비스가 개발되고 있다. 최근에는 챗GPT(ChatGPT)가 발표되면서 생성형 AI(Generative AI)의 열풍이 일고 있으며 이론적으로 분류되던 일반 인공지능(General AI)의 서막을 알리고 있다. 이러한 흐름과 별개로 인공지능이 가장 가장 많이 발전한 분야 중에 하나는 영상처리 및 인식 분야이다. 컴퓨터 관련 기술이 발전하면서 컴퓨터 비전의 한 영역으로 영상인식이 발전해왔는데 영상인식은 영상, 즉 이미지 데이터를 가지고 이미지 처리를 하거나 인공지능 등의 알고리즘을 사용하여 영상에 포함된 의미를 분석 및 해석해 가는 과정이라고 할 수 있다. 디지털 영상 처리에서의 영상 인식은 크게 객체 탐지, 객체 인식, 객체 추적, 객체 분류, 객체 분할이 있다. 영상에서 객체 분할은 의미론적 분할(Semantic Segmentation), 인스턴스 분할(Instance Segmentation), 팬옵틱 분할(Panoptic Segmentation) 및 경계 검출(Boundary Detection) 등이 있다. 객체 분할은 컴퓨터 비전의 다양한 응용 영역에서 사용되고 있다. 그중에는 자율주행, 객체 인식과 추적, 의료 영상 분할, 증강 현실(AR)과 가상현실(VR), 비디오 감시, 이미지 편집과 포렌식 분석, 로봇공학 등이 있다.

최근에는 하드웨어와 소프트웨어의 급속한 발전으로 전통적인 컴퓨터 영상 처리 기법에 더해 심층 신경망(Deep Neural Network)은 영상 처리와 컴퓨터 비전에서 우수한 성능을 보여왔다[1]. 이러한 심층 신경망은 영상(Image)에서 특징을 추출하여 처리하는 방법으로 딥러닝(Deep Learning)에 기반을 둔 학습 모델을 사용한다. 딥러닝은 학습 과정에서 데이터의 특징을 자체적으로 추출하는데, 영상 기기나 특정 부분에 상관없이 일관된 특징 추출 모델을 가진다. 영상의 객체 분할에서 많이 사용되는 딥러닝 모델 중 하나는 U-Net이다. U-Net은 기존의 CNN(Convolution Neural Network)의 단점을 개선하여 영상 분할의 성능을 높인 FCN(Fully Convolutional Network)에 기반하고 인코더(encoder)와 디코더(decoder) 구조를 가짐으로써 의미론적 분할에서 매우 우수한 결과를 보여준다[2,3].

인간의 지능을 컴퓨터에 구현하는 방법으로 신경회로망과 퍼지 이론이 연구되어왔다. 인간의 지능은 크게 학습 능력과 추론 및 의사 결정 능력으로 특징지어진다. 현실 세계에서 인간의 추론 및 의사 결정은 불확실하고 모호한 데이터를 사용하는 경우가 많다. 퍼지 이론 또는 퍼지 논리(Fuzzy logic)는 추론과 의사 결정에서 불확실성과 모호성을 다루기 위해 고전 집합 이론의 확장으로 소개되었으며, 정확한 경계와 명확한 구분이 적용되지 않는 불확실하거나 모호한 정보를 처리하는 데 유연하고 미세한 접근법을 제공한다. 신경회로망은 충분한 데이터가 주어질 때 우수한 학습 능력을 보여준다. 기존에 신경회로망과 퍼지 이론의 장점들을 합성하여 인간의 학습과 추론 및 의사 결정 능력을 구현하는 뉴로-퍼지 또는 퍼지-뉴로 기법이 연구되어왔다[4]. 퍼지-뉴로 시스템은 퍼지시스템을 자동적으로 설계하기 위해 신경회로망을 사용하는 방안이고, 뉴로-퍼지 시스템은 신경회로망의 자동적 설계를 위해 퍼지 이론을 사용하거나 신경회로망의 일부에 퍼지 이론을 사용하는 방법이다. 최근에는 신경회로망을 근간으로 하는 기계학습(Machine Learning), 딥러닝(Deep Learning)의 급속한 발전으로 머신러닝이나 딥러닝에 퍼지 이론을 모듈로 사용하는 방법들이 연구되고 있다[1].

Guan 등은 퍼지 논리의 장점을 이용하여 퍼지 논리를 입술 영상의 분할에 적용한 퍼지 CNN(Fuzzy Convolutional Neural Network)를 제안하였다. 입술 색상, 조명 조건, 특히 입을 벌리고 있는 복잡한 모양의 변화로 인해 정확한 입술 영역 분할은 어려운 작업이다. 이 문제를 해결하기 위해 Guan 등은 퍼지 유닛과 기존의 컨볼루션 유닛을 통합한 구조를 갖는 새로운 퍼지 심층 신경망을 제안하였다. 컨볼루션 유닛은 픽셀 수준의 입술 분할에 대한 포괄적인 정보를 제공하기 위해 다양한 스케일에서 구별되는 특징을 추출하는 데 사용되고, 퍼지 논리 모듈은 다양한 종류의 불확실성을 처리하고 보다 강력한 분할 결과를 제공하기 위해 사용된다[1].

본 논문에서는 딥러닝을 이용한 영상 분할에서 성능을 향상하기 위해 퍼지 논리를 적용하는 퍼지 딥러닝 모델인 퍼지 U-Net을 제안한다. 퍼지 논리를 이용한 퍼지 모듈을 영상 분할에서 우수한 성능을 보이는 딥러닝 모델인 U-Net에 결합하여 다양한 형태의 퍼지 딥러닝 결과를 보인다. 이를 위해 치아 CBCT(Cone Beam Computed Tomography) 데이터에 적용하여 제안된 방법의 우수성을 입증한다.

Ⅱ. 퍼지 U-Net

1. 퍼지 모듈(Fuzzy Module)

그림 1은 세 가지 형태의 퍼지추론 시스템을 나타낸다. 퍼지추론 시스템은 수행되는 퍼지 추론 및 사용되는 규칙의 형태에 따라 3가지로 구분될 수 있다. 퍼지시스템의 규칙은 전건부와 후건부로 나뉜다. 전건부는 입력되는 값을 퍼지 소속함수에 의해 퍼지화한다. 후건부는 전건부에서 결정된 퍼지화 값(적합도)을 이용하여 시스템의 전체 출력을 구한다. 전체 출력은 각 규칙에서 얻어진 값의 하중 평균으로 구한다.

OTNBBE_2023_v23n5_71_f0001.png 이미지

그림 1. 세 가지 형태의 퍼지추론 시스템[4]

Fig. 1. Three kinds of Fuzzy inference systems

Guan 등이 제안한 Fuzzy Convolutional Neural Network (FCNN)의 구조는 그림 2와 같다. FCNN의 심층 컨볼루션 서브넷의 구조는 FCN(Fully Convolutional Network)과 유사하고[2] 낮은 수준의 특징, 즉 미세한 이미지 특징과 높은 수준, 즉 거친 이미지 특징을 추출하는 계층적 특징 추출 구조로 되어 있다. 퍼지 학습 모듈(Fuzzy learning module)은 다양한 불확실성을 고려하며 높은 수준의 의미적 특징(semantic features)을 추출하기 위해 사용된다. 계층별로 추출된 다양한 해상도의 특징맵(F1~F4)은 퍼지 학습 모듈의 결과(Z1~Z~4)와 더해지고, 다양한 수준의 특징맵의 크기를 동일하게 하기 위해 디컨볼루션(deconvolution)되고 업샘플링(upsampling)된 결과와 다시 더해진다.

OTNBBE_2023_v23n5_71_f0002.png 이미지

그림 2. FCNN의 구조

Fig. 2. Structure of FCNN

그림 2의 퍼지 모듈은 특징맵과 상응되는 분할된 결과 간의 본질적이고 복잡한 규칙을 학습한다. F1~F4의 특징맵에 대응되는 퍼지 학습 모듈의 연산 과정과 구조는 그림 3과 같다. 퍼지 모듈에 입력되는 F를 크기가 H×W×C인 입력 특징맵이라고 가정하자. 여기서 H와 W는 각각 특징맵의 높이와 너비를 나타내고 C는 채널수이다. 그림 3에서 특정 채널 c에 대해 M개의 소속 함수가 채널의 각 특징점에 적용된다. M은 특징맵의 각 채널에 대해 동일하게 유지되며 다른 입력 특징맵 간에는 다를 수 있다. 각 소속함수는 특징맵의 각 점에 퍼지 언어 레이블을 할당하고 모든 소속함수는 식 (1)에 주어진 가우시안 함수 형태를 사용한다[1].

OTNBBE_2023_v23n5_71_f0003.png 이미지

그림 3. 퍼지 모듈의 연산 구조

Fig. 3. Structure of operation of Fuzzy module

\(\begin{aligned}Z_{x, y, k, c}=e^{-\left(\frac{F_{x, y, c}-\mu_{k, c}}{\sigma_{k, c}}\right)^{2}}\end{aligned}\),       (1)

x = 1...W, y = 1..H, k = 1..M

여기서, (x,y)는 채널 c에서 특징점의 좌표, μk,c와 σk,c는 k번째 가우시안 소속함수의 평균과 표준편차, Zx,y,k,c는 채널 c의 특징점의 k번째 출력의 퍼지 언어 레이블 값이다. μk,c와 σk,c는 학습에 의해 최적값이 얻어진다. Fx,y,c의 최종 퍼지 정도(Fuzzy degree)는 식 (2)에 의해 얻어진다.

Zx,y,c = ∏Mk=1Zx,y,k,c       (2)

여기서, ∏는 AND 연산을 의미한다.

퍼지 모듈의 최종 출력은 퍼지 정도 텐서 Z = Zx,y,c(x = 1..W, y = 1..H, c = 1..C)이다. 퍼지 정도 텐서는 디컨볼루션되고 업샘플링된 특징 맵과 결합한다.

2. U-Net

U-Net은 FCN의 단점을 보완하여 특정 이미지에 대한 단순한 레이블을 지정하는 것으로 이미지를 인식하지 않고 이미지 그 자체의 특정 영역을 레이블로 구현한다. 즉, 이미지 분할에 특화된 FCN을 활용해 이미지를 상세히 분할하고, 각 픽셀을 레이블링해 특정 영역을 자동으로 검출한다. 그림 4는 U-Net의 구조를 나타낸다. 그림과 같이 U자 형태를 가지므로 U-Net이라는 이름이 붙여졌다[3].

OTNBBE_2023_v23n5_71_f0004.png 이미지

그림 4. U-Net의 구조

Fig. 4. Structure of the U-Net

U-Net의 가운데를 중심으로 왼쪽 부분을 수축 경로(Contracting path) 또는 인코더(Encoder)라고 하고 오른쪽 부분을 팽창 경로(Expanding path) 또는 디코더(Decoder)라고 한다. 인코더는 이미지의 컨텍스트 정보를 얻고 디코더는 정확한 지역화(Localization) 정보를 추출한다. 인코더에서는 입력 이미지의 합성곱 연산이 연속해서 수행된 후 풀링 연산이 수행된다. 디코더는 인코더에서 얻어진 최종 특징맵으로부터 더 높은 해상도의 분할 결과를 얻기 위해 업샘플링(Upsampling)을 수행하며 수축 경로의 같은 수준의 특징맵을 확장 경로의 특징맵과 결합하여 합성곱(Convolution) 연산을 수행한다. 즉, 인코더에서 디코더로 정교한 정보를 넘겨주는 스킵(Skip) 연결을 통해 보다 더 선명한 분할 결과를 얻을 수 있다. 이를 통해 적은 수의 이미지로도 정확한 이미지 분할이 가능하게 되었다.

3. 퍼지 U-Net

본 논문에서는 FCNN에서 사용한 FCN 구조보다 영상 분할에서 더 우수한 성능을 보이는 U-Net을 사용하여 U-Net의 스킵 연결에 퍼지 모듈을 결합하여 사용한다. 퍼지 학습 모듈의 목적은 특징맵과 해당 분할 결과 사이의 본질적이고 복잡한 규칙을 학습하는 것이다. 기존의 U-Net의 스킵 연결은 같은 수준의 인코더의 특징맵과 디코더의 특징맵을 붙이기(concatenation)한 후 합성곱 연산을 수행한다.

본 논문에서는 퍼지 모듈을 다양한 형태로 스킵 연결에 적용하여 성능을 비교한다. 퍼지 모듈의 입력은 각 수준의 인코더에서 얻어진 특징맵이다. 다양한 퍼지 모듈의 적용 구조는 그림 5와 같다.

OTNBBE_2023_v23n5_71_f0005.png 이미지

그림 5. 다양한 퍼지 모듈의 구조

Fig. 5. Structure of various Fuzzy module

그림에서 퍼지 모듈을 우회하여 퍼지모듈의 출력과 연결된 연결은 잔차 연결(Residual connection)이다. 일반적으로 잔차 연결은 딥러닝 모델의 성능을 향상시키는 것으로 알려져 있다. U-Net의 각 수준별 인코더 출력은 퍼지모듈로 입력되고 퍼지모듈의 출력은 잔차 연결과 더해져서 배치 정규화(Batch normalization)와 ReLU 함수를 거쳐 인코더의 특징맵과 붙이거나 더해진다.

Ⅲ. 시뮬레이션 결과

제안된 퍼지 모듈을 이용한 퍼지 U-Net의 성능을 평가하기 위해 다양한 구조의 퍼지 모듈을 적용하여 시뮬레이션을 수행하였다. 제안된 퍼지 U-Net 모델을 교정 치료를 받는 환자의 치아 CBCT 데이터셋에 대해 잇몸뼈를 구분하여 각 치아를 자동적으로 분할하는 시뮬레이션을 수행했다. 시뮬레이션을 위해 환자 3명의 치아 CBCT 데이터에 적용하여 학습하고 평가하였다. 사용된 데이터는 모 치과병원에서 제공되는 환자 데이터를 비식별화하여 사용하였다. Cone Beam형 전산화 단층영상(CBCT)은 고해상도의 영상과 정확한 위치 정보를 제공하며, 이를 전시하는 다양한 다면 영상 재구성과 삼차원 영상화 소프트웨어의 사용으로 수술 전 시뮬레이션 및 수술 중 내비게이션 기능 등이 가능하게 되었으며, 높은 수술 전 진단과 치료 계획의 수립 등에 사용 가능하게 되었다.

학습에 사용되는 치아 데이터셋은 환자 2명(환자 1, 2)의 CBCT 데이터이고 하나의 CBCT는 280개의 슬라이스 이미지로 이루어져 있다. 나머지 환자 1명(환자 3)의 CT 데이터는 학습된 모델의 평가를 위한 시험용(test)으로 사용되었다. 학습용 데이터 총 560개의 슬라이스 이미지에서 무작위로 448장을 학습용(train)으로 나머지 112장 검증용(validation)으로 사용하였다. 학습에 사용하지 않은 CBCT 데이터에 대한 모델의 성능 시험용으로 환자 3의 슬라이스 이미지 150장을 사용하였다. 모델을 학습하기 위해 사용하는 평가지표인 손실함수(Loss function)는 Focal loss와 물체 검출 분야에서 평가지표로 많이 사용되는 IoU(Intersection over Union) Loss를 혼합하여 사용하였다. Focal loss는 부류 불균형이 심한 경우에 주로 사용한다. 영역 분할은 물체가 점유한 영역보다 배경 영역이 훨씬 넓기 때문에 부류 불균형이 심한 문제이다. 물체 분할은 물체와 배경을 구분하는 작업이므로 부류가 2개인 경우에 해당한다.

제안된 퍼지 U-Net 모델과 학습, 검증 및 시험 데이터 셋을 이용한 시뮬레이션 결과는 표 1, 표 2와 같다. 제안된 모델의 성능의 우수함을 보이기 위해 표 3의 U-Net의 결과와 비교하였다. 표 1은 기존 U-Net의 스킵 연결 부분에서 수행하는 붙이기(concatenation) 연산대신 각 특징맵의 픽셀 별로 더하기(add) 연산을 행한 결과이다. 표 2는 스킵 연결에서 기존의 방식대로 붙이기 연산을 수행했을 때의 손실함수 결과이다. 표 3은 퍼지 모듈을 사용하지 않은 U-Net에서 스킵 연결에 붙이기나 더하기 연산을 수행했을 때의 손실함수 결과를 나타낸다.

표 1. 더하기 스킵 연결을 사용한 퍼지 U-Net 결과

OTNBBE_2023_v23n5_71_t0001.png 이미지

Table 1. Results of Fuzzy U-Net by add skip connection

표 2. 붙이기 스킵 연결을 사용한 퍼지 U-Net 결과

OTNBBE_2023_v23n5_71_t0002.png 이미지

Table 2. Results of Fuzzy U-Net by concat skip connection

표 3. U-Net 결과

OTNBBE_2023_v23n5_71_t0003.png 이미지

Table 3. Results of U-Net

표 1에서 그림 5의 ADD-RELU 퍼지 모듈 구조의 성능이 가장 우수한 것을 볼 수 있다. 표 2에서도 ADD-RELU 퍼지 모듈 구조의 성능이 가장 우수한 것을 볼 수 있다. 표 3에서는 기존의 붙이기 연산을 사용한 스킵 연결보다 더하기 연산을 사용한 스킵 연결의 성능이 더 우수한 것을 볼 수 있다. 시뮬레이션 결과, 더하기 스킵 연결을 사용한 U-Net을 제외하면 제안된 퍼지 U-Net 모델의 성능이 학습용, 검증용, 시험용 데이터셋 모두에 대해 우수한 결과를 볼 수 있다. 시험용 데이터에 대해서는 모든 결과에서 더하기 스킵 연결을 사용한 ADD-RELU가 퍼지 모듈이 가장 우수했다. 학습용과 검증용 데이터에 대해서는 더하기 스킵 연결의 U-Net 학습 결과가 제안된 퍼지 U-Net의 결과보다 약간 우수했다.

Ⅳ. 결론

본 논문에서는 딥러닝을 이용한 영상 분할에서 성능을 향상하기 위해 퍼지 논리를 적용하는 퍼지 딥러닝 모델인 퍼지 U-Net을 제안한다. 퍼지 논리를 이용한 퍼지 모듈을 영상 분할에서 우수한 성능을 보이는 딥러닝 모델인 U-Net에 결합하여 다양한 형태의 퍼지 딥러닝 결과를 시뮬레이션하였다. 이를 위해 치아 CBCT 데이터에 적용하여 제안된 방법의 우수성을 입증하였다. 제안된 딥러닝 모델의 퍼지 모듈은 다양한 불확실성을 고려하며 높은 수준의 의미적 특징을 추출하기 위해 사용된다. 즉, 이미지의 특징맵과 해당 분할 결과 사이의 본질적이고 복잡한 규칙을 학습하는 것이다.

시뮬레이션 결과 제안된 퍼지 U-Net에서 더하기 스킵 연결을 사용한 모델의 ADD-RELU 퍼지 모듈 구조의 성능이 가장 우수한 것을 볼 수 있다. 시험용 데이터셋에 대해서는 기존의 U-Net을 포함한 모든 모델보다 우수했고, 학습용과 검증용 데이터에 대해서는 더하기 스킵 연결의 U-Net 학습 결과와 거의 같은 결과를 보였다. 향후 스킵 연결뿐만 아니라 심층학습 모델의 백본(Backbone)에 퍼지 모듈을 적용하여 모의실험한 결과의 성능 비교도 필요하다.

References

  1. C. Guan and S. Wang, A.W.C. Liew, "Lip image segmentation based on a fuzzy convolutional neural network,"IEEE Transactions on Fuzzy Systems, Vol. 28, no. 7, pp.1242-1251, July 2020. DOI:https://doi.org/10.1109/TFUZZ.2019.2957708
  2. J. Long, E. Shelhamer and T. Darrell, "Fully Convolutional Networks for Semantic Segmentation," The IEEE Conference on Computer Vision and Pattern Recognition, pp. 3431-3440, 2015.
  3. O. Ronneberger, P. Fischer, and T. Brox, "U-net: Convolutional networks for biomedical image segmentation," International Conference on Medical image computing and computer-assisted intervention, pp. 234-241. Springer, 2015.
  4. J.J. Park, G.S. Choi, Artificial Intelligence System, 21CenturySa, 2008.
  5. I.H. Jung, K.T. Hwang, J.M. Lee, "Implementation of Pet Management System including Deep Learning-based Breed and Emotion Recognition SNS," The Journal of The Institute of Internet, Broadcasting and Communication, Vol. 23, No. 3, pp.45-50, Jun. 30, 2023. DOI:https://doi.org/10.7236/JIIBC.2023.23.3.45
  6. S.K. Kim, J.G. Ahn, "Tomato Crop Diseases Classification Models Using Deep CNN-based Architectures," Journal of the Korea Academia-Industrial cooperation Society, Vol. 22, No. 5 pp. 7-14, 2021. DOI:https://doi.org/10.5762/KAIS.2021.22.5.7
  7. Y.G. Chung, "Effects of Spatio-temporal Features of Dynamic Hand Gestures on Learning Accuracy in 3D-CNN," The Journal of The Institute of Internet, Broadcasting and Communication, Vol. 23, No. 3, pp.145-151, Jun. 30, 2023. DOI:https://doi.org/10.7236/JIIBC.2023.23.3.145
  8. Kuan Huang, Yingtao Zhang, H.D. Cheng, Ping Xing, Boyu Zhang, "Semantic segmentation of breast ultrasound image with fuzzy deep learning network and breast anatomy constraints, "Neurocomputing, Vol. 450, pp. 319-335, August 2021. DOI:https://doi.org/10.1016/j.neucom.2021.04.012
  9. Tianyu Zhao, Jindong Xu, Rui Chen & Xiangyue Ma. "Remote sensing image segmentation based on the fuzzy deep convolutional neural network." International Journal of Remote Sensing, Vol. 42, pp. 6264-6283, Issue 16, 2021. https://doi.org/10.1080/01431161.2021.1938738
  10. Jang, W. S., Lee, K. W., Lee, S. D., Kim, Y. G., "Study on Production Management Efficiency Method using Supervised Learning based Image Cognition," The Journal of The Institute of Internet, Broadcasting and Communication, VOL. 21, NO. 5, pp. 47~52, October 2021.
  11. Eun-Gyu Ham, Chang-Bok Kim, "Model Implementation of Reinforcement Learning for Trading Prediction Using Deep Q Network," The Journal of KIIT, Vol. 17, No. 4, pp. 1-8, 2019.  https://doi.org/10.14801/jkiit.2019.17.4.1