DOI QR코드

DOI QR Code

Improved Performance of Image Semantic Segmentation using NASNet

NASNet을 이용한 이미지 시맨틱 분할 성능 개선

  • Kim, Hyoung Seok (Department of New Energy Engineering, Seoul National University of Science & Technology) ;
  • Yoo, Kee-Youn (Department of Chemical & Biomolecular Engineering, Seoul National University of Science & Technology) ;
  • Kim, Lae Hyun (Department of Chemical & Biomolecular Engineering, Seoul National University of Science & Technology)
  • 김형석 (서울과학기술대학교 신에너지공학과) ;
  • 류기윤 (서울과학기술대학교 화공생명공학과) ;
  • 김래현 (서울과학기술대학교 화공생명공학과)
  • Received : 2018.08.28
  • Accepted : 2019.01.14
  • Published : 2019.04.01

Abstract

In recent years, big data analysis has been expanded to include automatic control through reinforcement learning as well as prediction through modeling. Research on the utilization of image data is actively carried out in various industrial fields such as chemical, manufacturing, agriculture, and bio-industry. In this paper, we applied NASNet, which is an AutoML reinforced learning algorithm, to DeepU-Net neural network that modified U-Net to improve image semantic segmentation performance. We used BRATS2015 MRI data for performance verification. Simulation results show that DeepU-Net has more performance than the U-Net neural network. In order to improve the image segmentation performance, remove dropouts that are typically applied to neural networks, when the number of kernels and filters obtained through reinforcement learning in DeepU-Net was selected as a hyperparameter of neural network. The results show that the training accuracy is 0.5% and the verification accuracy is 0.3% better than DeepU-Net. The results of this study can be applied to various fields such as MRI brain imaging diagnosis, thermal imaging camera abnormality diagnosis, Nondestructive inspection diagnosis, chemical leakage monitoring, and monitoring forest fire through CCTV.

최근 빅데이터 과학은 사회현상 모델링을 통한 예측은 물론 강화학습과 결합하여 산업분야 자동제어까지 응용범위가 확대되고 있다. 이러한 추세 가운데 이미지 영상 데이터 활용연구는 화학, 제조, 농업, 바이오산업 등 다양한 산업분야에서 활발히 진행되고 있다. 본 논문은 신경망 기술을 활용하여 영상 데이터의 시맨틱 분할 성능을 개선하고자, U-Net의 계산효율성을 개선한 DeepU-Net 신경망에 AutoML 강화학습 알고리즘을 구현한 NASNet을 결합하였다. BRATS2015 MRI 데이터을 활용해 성능 검증을 수행하였다. 학습을 수행한 결과 DeepU-Net은 U-Net 신경망 구조보다 계산속도 향상 뿐 아니라 예측 정확도도 동등 이상의 성능이 있음을 확인하였다. 또한 이미지 시맨틱 분할 성능을 개선하기 위해서는 일반적으로 적용하는 드롭아웃 층을 빼고, DeepU-Net에 강화학습을 통해 구한 커널과 필터 수를 신경망의 하이퍼 파라미터로 선정했을 때 DeepU-Net보다 학습정확도는 0.5%, 검증정확도는 0.3% 시맨틱 분할 성능을 개선할 수 있었다. 향후 본 논문에서 시도한 자동화된 신경망을 활용해 MRI 뇌 영상진단은 물론, 열화상 카메라를 통한 이상진단, 비파괴 검사 진단, 화학물질 누출감시, CCTV를 통한 산불감시 등 다양한 분야에 응용될 수 있을 것으로 판단된다.

Keywords

1. 서론

최근 빅데이터 분석은 시스템 모델링을 통한 예측은 물론 강화학습(Reinforcement learning)을 통한 시스템 자동제어 분야까지 그 영역이 확대되고 있다. 과거 정형 데이터 분석 중심에서 텍스트데이터, 이미지데이터를 포함하는 멀티미디어 데이터 분석을 요구하는 프로젝트가 날로 증가하고 있다. 관련 연구소, 엔지니어링, 언론, 안전관련 국가기관 등에서는 업무수행 중 발생한 많은 텍스트와 이미지 데이터를 분석하여 업무 효율화 및 예측업무 추진을 계획하고 있다. 강화학습을 이용한 건물 에너지 최적 제어 등 학술논문[1]이 발표되고 있고, 생산현장에서도 강화학습을 적용한 용광로 용선온도 예측시스템 구축사례, 딥러닝과 강화학습을 적용한 스마트팩토리 프로젝트를 구축한 사례가 있다[2].

신경망 기술을 적용한 영상이미지 분할 기술은 십 수년 간의 답보 상태에서 벗어나 실제 산업계에서 직접 응용이 가능할 정도로 매우 급속히 발전하고 있다[3,4]. 이러한 기술의 하나로 최근 주목 받고 있는 U-Net 신경망은 특히 영상 진단기술에 널리 사용되고 있는데[5,6], 기존 CNN(Convolution neural network) 구조는 은닉층을 통해 데이터가 압축되고 특징이 추출되는 반면, U-Net은 압축과 확장 네트워크를 통해 이미지 특징이 추출된다. 그러나 U-Net은 메모리, CPU 등 컴퓨터 자원을 많이 소모하는 구조이기 때문에 위성 이미지와 같이 고해상도 및 원격감지에 직접 활용하기 어렵다.

이에 따라 Li 등은위성 이미지의 해상 분할 원격 감지를 위해 2017년 U-Net 구조를 개선한 DeepU-Net을 발표하였다[7]. DeepU-Net은 육지와 바다의 경계를 구분하는 해양 분야의 이미지 시맨틱 분할기술에 적용되었다. Zoph 등은 영상 인식 인공지능인 AutoML (Auto machine Learning)을 발표하면서[8], 하이퍼 파라미터(Hyper parameter)를 설정하는 과정에 강화학습을 적용하는 등 학습 모델 설계를 자동화했다. 실제로 신경망 구조에 사용되는 필터와 커널의 하이퍼 파라미터는 인간의 경험에 의해 설정하고 있는 실정이고, 이러한 변수 설정은 연구자의 경험에 따라 학습정확도와 검증정확도에 많은 성능 차이를 보이는 문제점이 있다.

본 연구에서는 인공 신경망 구조들의 장점들을 조합해 기존 신경망 성능을 개선했던 구글의 Rainbow 논문[11]과 같이 U-Net과 DeepU-Net을 비교하였고, DeepU-Net의 필터와 채널은 강화학습을 통해 찾은 하이퍼 파라미터를 적용하여, 이미지 시맨틱 분할 성능을 개선하고자 하였다.

2. 이론적 배경

2-1. U-Net

U-Net은 의료영상 이미지를 분류하기 위해 만들어진 변형된 합성곱 신경망(Convolutional network) 구조를 말한다. U-Net의 특징으로는 맥스풀링(Maxpooling)을 통해 이미지를 압축하고, 확장 합성곱(Up-convolution)을 통해서 이미지를 다시 확장하게 된다. 일반적으로 확장 합성곱은 저해상도 이미지를 고해상도 이미지로 변환할 때 사용되는데, 원본 이미지의 모든 픽셀을 분류하기 위해 디코더(Decoder)에서 원본 이미지 크기를 복원하는데 사용된다. UNet이 일반적인 합성곱 신경망 구조와 다른 점은 압축과 확장을 연이어 수행하고, 이때 발생하는 손실을 막기 위해 압축했던 데이터를 복사하여 전치합성곱행렬(Transposed convolution matrix)로 확장하는 층을 서로 이어준다는 점이다. 즉, 좀 더 정확한 이미지 분할 성능을 위해 압축 네트워크에서 추출된 특징을 복사와 잘라내기 (Copy and crop)를 실시해 붙임연결(Concat) 하는 구조를 사용한다.

본 연구에서 사용한 U-Net의 커널과 채널수는 Fig. 1과 같다[5]. Fig. 1에서 4, 64, 128, 256, 512, 1024는 채널수이고, 240×240는 입력 이미지 크기를 나타낸다. 압축과 확장하는 정도는 DeVries과 Taylor 등이 제시한 방법을 사용하였다[15]. 이 경우에 U-Net 신경망 층에서 맥스풀링을 한 경우 채널수가 2배로 증가하고, 확장 합 성곱으로 확장하게 될 경우 채널수가 반으로 줄어든다. U-Net은 네트워크 구조상 압축할 때 특징 채널(Feature channels)을 2배씩 늘려 사용하는데, 64채널에서 1024채널까지 많은 수의 채널을 사용한다.

HHGHHL_2019_v57n2_274_f0001.png 이미지

Fig. 1. U-Net architecture [5].

2차원 합성곱(Convolution 2D)의 경우 3×3의 합성곱 필터를 사용하고, 활성화 함수로 ReLU(Rectified linear unit) 함수를 사용한다. U-Net이 단순 합성곱 층을 적층한 구조와 달리 압축과 확장을 하면서 특징 추출이 이루어지고, 많은 수의 특징 채널을 사용하기 때문에 단순 합성곱 신경망에 비해 우수한 성능을 보인다. 이러한 구조는 이미지 분할 경계지역의 정보 손실 가능성을 줄여 준다.

2-2. DeepU-Net

DeepU-Net은기본적으로 U-Net 구조와 비슷하다. 기존 U-Net과의 차이점은 Add 층이 추가 되었다는 점이다. U-Net이 U자 형태로 진행되는 구조라면 DeepU-Net의 경우 합성곱 층을 거쳐서 나온 결과값을 추가하게 된다[7]. 또한 DeepU-Net의 경우 채널의 숫자가 감소, 증가하는 것이 아니라 32, 64 채널(이미지 특징을 나타내는 채널 수)로 고정하여 반복하게 된다.

결과적으로 DeepU-Net은 이미지의 크기에 따라 채널수가 급격히 늘어나는 U-Net 구조보다는 채널수를 고정시켜 학습시키기 때문에 기존 U-Net보다는 학습속도는 빠르고 컴퓨터 자원을 덜 소비하는 구조이다. U-Net의 경우 압축하는 층의 마지막 채널 수는 1024이지만 DeepU-Net은 64채널로 고정되어 있다. 기존 U-Net 구조와 다른 점은 Fig. 2에 도식화하였다.

HHGHHL_2019_v57n2_274_f0002.png 이미지

Fig. 2. Architecture difference between U-Net and DeepU-Net.

2-3. NASNet

NASNet은 구글에서 만든 AutoML 알고리즘으로, 이미지 인식 분야 특히 동영상에 등장하는 물체를 실시간으로 인식하는데 매우 좋은 성능을 보여 주었다[8]. 부모 인공지능(AutoML)은 자식 인공지능의 인식 결과를 평가해 자식에 해당되는 네트워크를 개선하는데, 이 과정은 일반적인 강화학습으로 진행된다. 이미지 인식의 최고 권위를 가진 ImageNet[20]에서 NASNet 이미지 분류 정확도는 인간이 만든 기존 신경망보다 검증정확도 1.2% 높은 수치를 기록했다.

NASNet 기본원리는 변수로 지정된 커널과 필터의 수 등 하이퍼 파라미터를 처음에는 각 층마다 임의로 설정하여 학습을 진행한다. 그 결과로 얻어진 정확도를 평가하여 보상을 정하고, 그 보상이 커지는 방향으로 하이퍼 파라미터를 다시 설정하고, 다시 학습을 실시하는 방법으로 최적의 필터 수와 커널 수를 찾는다.

3. 영상데이터

3-1. BRATS2015 영상자료

본 연구에서는 전 세계적으로 공개된 BRATS2015의 뇌의 자기공명영상(Magnetic Resonance Imaging: MRI) 데이터를 대상으로 정상조직과 암조직의 이미지 시맨틱 분할 성능을 개선하고자 하였다. 이 자료는 전체 274명의 3차원 뇌 MRI 영상이고, 2차원 이미지로는 총 42,470(학습용 25,482, 검증용 16,988)장의 영상자료로 구성되어 있다[9].

Fig. 3은 대표적인 뇌 MRI 영상이다. 뇌 MRI 영상은 240×240×155 의 크기를 가진 3차원 이미지 데이터로, 뇌질환의 유형에 따라 HGG(High grade glioma)와 LGG(low grade glioma)로 나누어진다. 그리고 각각의 학습에 사용된 영상은 5가지(FLAIR, T1, T1C, T2, OT)로 가공되어 있으며, 실험을 위한 영상은 OT를 제외한 4가지로 제공된다. 여기서(T1 : T1 MRI 강조영상), (T2 : T2 MRI 강조영상), (T1C : 조영제 투여 후 T1 MRI 강조영상), (FLAIR : 180도 반전펄 스를 먼저 가해 반전회복(inversion recovery)한 MRI 영상), (OT : 뇌종양에 해당하는 부분이 태그된 MRI 영상) 이다.

HHGHHL_2019_v57n2_274_f0003.png 이미지

Fig. 3. Sample images of BRATS2015 Data Set [9].

3-2. 영상 전처리

영상 학습을 위해서 1개의 3차원 이미지를 155개의 240×240의 크기를 가진 2차원 이미지로 나눈 뒤, 아래에 설명한 대로 전처리 과정을 거쳐서 학습에 이용했다.

3-2-1. 명암 표준화(Intensity Range Standardization)

MRI의 특성상 촬영하는 환자와 장치가 동일하더라도, 얻어지는 MRI의 명암 차이가 심하다. 하지만 신경망에 입력되는 이미지 세기범위가 일정해야 정확한 예측값을 기대할 수 있다. 본 연구에서는 Medpy의 명암 표준화 패키지[15]를 사용하여 BRATS2015 영상의 명암을 보정하였다.

3-2-2. 히스토그램 균일화(Histogram Equalizing)

컴퓨터 이미지는 일정한 범위의 세기로(일반적인 흑백 이미지는 0에서 255까지의 숫자로 표현) 표현된다. 이미지의 히스토그램이 특정 범위에만 집중될 경우 해당 이미지 투과도(image contrast)가 저하되고 신경망 성능에 좋지 않은 영향을 미치게 된다. 히스토그램 균일화를 사용하여 특정영역에 몰려있는 히스토그램을 이미지의 전 세기 공간에 고루 분포할 수 있도록 보정하였다.

3-2-3. 가우스 정규화(Gauss Normalization)

이미지 데이터를 정규화 함으로써 신경망의 성능 향상을 기대할 수 있다. 이에 따라 데이터 형태(HGG, LGG, TEST)와 질병양상별로 각각의 흑백 디지털 이미지(0~255) 범위의 평균과 표준편차를 구해 정규표준편차 형태의 확률분포 공간이 될 수 있도록 정규화 하였다.

전처리가 끝난 데이터는 각각 240×240 크기의 이미지 패치로 4 채널(Flair, T1, T1C, T2)로 만들었다. 또한 라벨(1: Necrosis, 2: Edema, 3: Enhancing tumor, 4: Non-enhancing tumor)이 붙여진, OT 영상도 같은 방법으로 전처리 후 240×240 크기의 이미지 인덱스 패치를 제작하였다. 이와 같이 MRI 영상데이터를 전처리를 통해(4, 240, 240)의 차원을 가지는 텐서 학습데이터를 자동 생성하였다. 학습 데이터와 마찬가지로 라벨데이터도(4, 240, 240)의 차원을 가진다.

3-3. 학습된 모델로부터 뇌 MRI 이미지 재구성

이미지 학습이 완료되면 신경망 모델이 구성된다. 이 신경망 모델에는 4채널의 2차원 영상이 입력되며, 마찬가지로 시맨틱 분할이 예측된 4채널 2차원 영상이 출력된다. 이때 각각의 채널은 뇌 질환 분류에 따라 나눠지게 된다. Fig. 4에서는 4채널 영상 각각을 240×240의 행렬로 나타나게 된다. 출력 영상에서 0은 해당 위치에 종양이 존재하지 않는다는 것을 나타내고, 1은 그 위치에 해당 채널에 해당하는 종양이 존재한다는 것을 의미한다. 이렇게 얻은 OT 데이터는 다음의 과정을 통해서 3차원 데이터로 변환하게 된다.

HHGHHL_2019_v57n2_274_f0004.png 이미지

Fig. 4. Convert two-dimensional images to three-dimensional images.

각각의 채널에 맞는 숫자를 1이 있는 자리에 치환하여 삽입하여 합치면 하나의 2차원 OT 출력이 완성된다. 이렇게 얻어진 2차원 OT영상을 층층이 155개를 쌓아주면 3차원 OT 영상이 얻어진다.

4. 실험

4-1. 실험 환경

본 연구에서 고려한 신경망 모델 구현과 시뮬레이션 학습 환경은 Python 3.5, cuDNN 9.0, Cudnn 7.5, Tensorflow 1.7, Keras 2.2을 사용하여 수행하였다.

4-2. 손실함수

기존의 U-Net에서는 학습을 위해 사용된 손실함수는 크로스 엔 트로피 손실 함수(Cross entropy loss function)이다. 본 연구에서 학습에 사용한 손실함수는 다이스손실계수(Dice loss coefficient)이고, 메트릭스 함수(Metrics function)는 다이스 계수이다. 다이스 계수는 식 (1)과 같다.

\(\operatorname{dice}(\mathrm{X}, \mathrm{Y})=\frac{2 *|\mathrm{X} \cap \mathrm{Y}|}{\mathrm{X}+\mathrm{Y}}\)              (1)

이는 두 집단의 유사성을 비교하기 위한 수치를 제공한다. 다이스 계수가 높을수록 두 집단은 그만큼 큰 유사성을 나타낸다.

4-3. U-Net과 DeepU-Net의 성능비교

U-Net은 컴퓨터 자원을 많이 소모하는 모델이고, DeepU-Net은 상대적으로 컴퓨터 자원을 덜 소모한다. 이러한 이유는 U-Net의 경우 앞서 언급한 바와 같이 특징을 나타내는 채널수가 1024까지 올라가는 반면 DeepU-Net의 채널수는 32, 64로 유지되어 있다.

같은 실험데이터와 같은 신경망 하이퍼 파라미터를 사용하여 실험한 검증정확도는 Fig. 5와 같다.

HHGHHL_2019_v57n2_274_f0005.png 이미지

Fig. 5. U-Net vs. DeepU-Net Validation Accuracy (sample=10,000).

두 신경망 중 DeepU-Net 검증정확도(0.76)는 U-Net(0.74) 보다 2.7% 좀 더 좋은 성능을 나타내었다. 본 논문의 결과로부터 DeepUNet이 U-Net보다 적어도 이미지 시맨틱 분할 성능이 동등이상이라고 평가할 수 있다. 결과적으로 DeepU-Net을 사용할 경우 메모리 사용량은 감소하고, 검증정확도는 동등이상의 성능을 확보할 수 있다

4-4. NASNet을 적용한 신경망 모델 최적화

U-Net과 DeepU-Net 신경망들의 하이퍼 파라메타를 최적화하여 의료영상 진단의 정확도를 개선하기 위해 구글의 NASNet 강화학습 네트워크 구조를 도입하였다.

Table 1에서 제시된 것과 같은 제한된 컴퓨팅 환경에서 NASNet을 사용하고자 메모리 오버플로(Overflow)로 시스템이 정지하더라도 학습이 완료된 단계부터 시작하도록 기존 코드를 수정하여 적용하였다. 또한 과적합 문제를 해소하고 학습시간을 단축하기 위해 기존 DeepU-Net에 드롭아웃 코드를 적용하였다.

Table 1. Simulation environments

HHGHHL_2019_v57n2_274_t0001.png 이미지

본 연구에서 비교한 3가지 신경망들은 다음과 같다.

○ Scenario 1 : DeepU-Net 구조에 Dropout을 적용한 경우

○ Scenario 2 : DeepU-Net 구조에 Dropout을 적용하고, 커널과 필터는 NASNet을통해찾은하이퍼파라미터값을적용한경우

○ Scenario 3 : DeepU-Net 구조에 커널과 필터는 NASNet을 통해 찾은 하이퍼 파라미터 값을 적용한 경우

시나리오 1, 2, 3에 대한 학습정확도, 검증정확도는 Fig. 6, 7과 같다. 연구결과 시나리오 3. 경우가 학습정확도 0.9005, 검증정확도 0.8755로 가장 우수한 성능을 나타내었다. 시나리오 3은 시나리오 1에 비해 학습정확도는 5.55%, 검증정확도는 2.42% 높다. 본 연구에서 사용한 검증데이터는 전체 데이터 중 40%(16,988장)를 검증용 데이터로 만들어 시험한 결과이다.

HHGHHL_2019_v57n2_274_f0006.png 이미지

Fig. 6. Comparison of Train Accuracy in Scenarios 1, 2, and 3.

HHGHHL_2019_v57n2_274_f0007.png 이미지

Fig. 7. Comparison of Verification Accuracy in Scenarios 1, 2, and 3 (with loss).

일반적으로 과적합(Overfitting)이 발생할 경우 손실값이 감소하다가 다시 증가하는 양상을 보이지만 Fig. 7에서 보는 바와 같이 본 실험에서는 과적합 문제가 없는 것으로 판단된다. 결과적으로 시나리오 3에서 드롭아웃을 빼고 전합성곱 층을 사용하는 것이 가장 좋은 성능을 얻었다.

5. 실험 결과 고찰

Fig. 7 실험결과에서 시나리오 3 구조가 가장 좋은 성능 얻었다. 그러한 이유는 이미지 특징을 추출하는 합성곱 네트워크 구조에서는 전체 이미지 중 특징(사람, 고양이 등)만을 학습하면 되기 때문에 드롭아웃을 통해 거의 0에 수렴하는 비특징적 은닉 층의 네트워크 연결 구조를 끊음으로써 특징 추출을 더 잘 할 수 있지만, 이미지 시맨틱 분할 성능에 대해서는 전체 이미지 중 특정 영역의 이미지의 특징을 추출해야하기 때문에 분할영역 경계면에 드롭아웃을 적용할 경우 학습이 잘 되지 않은 경향이 있기 때문이다.

따라서 DeepU-Net 자체 네트워크 구조와 강화학습을 적용한 시나리오 3에 대한 검증정확도 성능 비교는 Fig. 8과 같다. 시나리오 3은 DeepU-Net보다 학습정확도는 0.5%, 검증정확도는 0.3% 더 높다. 본 연구에서 사용한 검증데이터는 전체 데이터 중 40%를 검증용 데이터로 만들어 시험한 결과이다.

HHGHHL_2019_v57n2_274_f0008.png 이미지

Fig. 8. Comparison of Verification Accuracy in Scenarios 3 and Deep U-Net.

결과적으로 본 연구에서 적용한 이미지 시맨틱 분할 성능 개선을 위한 시나리오 3의 신경망 구조는 Fig. 9와 같고, 강화학습을 통해 찾은 채널과 필터의 네트워크 구조는 Fig. 10과 같다.

HHGHHL_2019_v57n2_274_f0009.png 이미지

Fig. 9. Scenario 3 architecture.

HHGHHL_2019_v57n2_274_f0010.png 이미지

Fig. 10. Filter and number of channels through NASNet search.

6. 결론

신경망 기술을 활용하여 이미지 시맨틱 분할 성능을 개선하고자, U-Net을 개선한 DeepU-Net 신경망에 AutoML 강화학습 알고리즘 인 NASNet을 적용하였다. Fig. 6, 7에서와 같이 이미지 시맨틱 분할성능을 개선하기 위해서는 일반적으로 적용하는 드롭아웃 구조를 빼고 DeepU-Net에 강화학습을 통해 구한 커널과 필터 수를 신경망의 하이퍼 파라미터로 선정했을 때 DeepU-Net보다 학습정확도는 0.5%, 검증정확도는 0.3% 이미지 시맨틱 분할 성능을 개선할 수 있었다.

향후 본 논문의 결과를 통해 MRI 뇌 영상진단은 물론, 열화상 카메라의 이상진단, 비파괴 검사 진단, 화학물질 누출감시, CCTV를 통한 산불감시 등 다양한 분야에 활용될 수 있을 것으로 판단된다.

감사

이 연구는 중소벤처기업부 “방사선의공학 서비스산업의 이미지 마이닝 기술을 활용한 치료효과 예측 의사(醫師) 지원 기술 개발” 연구마을과제 연구비 지원으로 수행되었습니다.

References

  1. Ahn, K.-U., Park, C.-S. and Yeo, M.-S., "Optimal Control of Building Systems based on Reinforcement Learning," Journal of the Architectural Institute of Korea, 38(1), 420-421(2018).
  2. Lee, J., "ECMiner Co., Ltd.: Big Data / Artificial Intelligence Analysis Solution Supply & Consulting," News & Information For Chemical Engineers, 36(4), 290-293(2018).
  3. Girshick, R., Donahue, J., Darrell, T. and Malik, J., "Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR)(2014).
  4. Krizhevsky, A., Sutskever, I. and Hinton, G. E., "Imagenet Classication with Deep Convolutional Neural Networks," NIPS, 1106-1114(2012).
  5. Olaf Ronneberger, Philipp Fischer, and Thomas, "U-Net: Convolutional Networks for Biomedical Image Segmentation," arXiv:1505.04597v1 [cs.CV] 18 May(2015).
  6. https://lmb.informatik.uni-freiburg.de/people/ronneber/U-Net/.
  7. Ruirui Li, Wenjie Liu, Lei Yang, Shihao Sun, Wei Hu*, Fan Zhang, Senior Member, IEEE, Wei Li, Senior Member, IEEE, "DeepU-Net: A Deep Fully Convolutional Network for Pixellevel Sea-Land Segmentation," arXiv:1709.00201v1 [cs.CV] 1, Sep(2017).
  8. Barret Zoph, Vijay Vasudevan, Jonathon Shlens, Quoc V. Le, "Learning Transferable Architectures for Scalable Image Recognition," arXiv:1707.07012v4 [cs.CV] 11, Apr(2018).
  9. https://www.smir.ch/BRATS/Start2015.
  10. https://github.com/titu1994/neural-architecture-search.
  11. Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski, Will Dabney, Dan Horgan, Bilal Piot, Mohammad Azar, David Silver, "Rainbow: Combining Improvements in Deep Reinforcement Learning"
  12. Noh, H., Hong, S. and Han, B., "Learning Deconvolution Network for Semantic Segmentation," IEEE International Conference on Computer Vision, 1520-1528(2015).
  13. Lin, H., Shi, Z. and Zou, Z., "Maritime Semantic Labeling of Optical Remote Sensing Images with Multi-Scale Fully Convolutional Network," Remote Sensing, 9(5), 480(2017). https://doi.org/10.3390/rs9050480
  14. Chen, T., Li, M., Li, Y., Lin, M., Wang, N., Wang, M., Xiao, T., Xu, B., Zhang, C. and Zhang, Z., "MXNet: A Flexible and Efficient Machine Learning Library for Heterogeneous Distributed Systems," Statistics(2015).
  15. DeVries, T. and Taylor, G. W., Improved regularization of convolutional neural networks with cutout: arXiv preprint arXiv: 1708.04552(2017).
  16. Ba, J. L., Kiros, J. R. and Hinton, G. E., Layer normalization. arXiv preprint arXiv:1607.06450(2016).
  17. Bergstra, J., Bardenet, R., Bengio, Y. and Kegl, B., "Algorithms for Hyper-parameter Optimization. In Neural Information Processing Systems," (2011).
  18. https://github.com/tensorflow/models/tree/master/official/resnet.
  19. Han, I. S. and Shin, H. K., "Modeling of a PEM Fuel Cell Stack using Partial Least Squares and Artificial Neural Networks," Korean Chem. Eng. Res., 53(2), 236-247(2015). https://doi.org/10.9713/kcer.2015.53.2.236
  20. www.image-net.org.