1. 서론
조선 용접 불량률 감소를 위해 다양한 비파괴검사가 시행 중이며 이중 액체 침투탐상검사(Liquid Penetrant Testing, PT)는 시험 방법이 간단하고, 다른 비파괴검사 대비 저렴한 가격으로 용접부 표면결함 검출에 우수하여 주로 사용된다. 다만 PT는 현상 작업 이후 시간의 경과에 따라 지시 모양이 변하기 때문에 검사 후에 일정 시간이 지나면 즉시 결함지시 모양을 확인해야 한다[1]. 이는 선급협회에서 규정하는 요구대로 문서로 만들어진 검사 계획과 절차서에 의해 적용되며 이 검사를 수행하는 검사원은 검사 방법마다 지식과 경험이 있어야 하고 자격이 인증된 유자격자가 수행하여야 한다[2]. 따라서 소모되는 시간과 비용을 줄이고, 정확한 결함지시 모양을 확인하기 위해서는 자동화된 결함 검출 방법이 필요하다.
컴퓨터 비전 분야의 발전에 따라 비파괴검사에 기계 학습과 딥러닝의 접목을 통한 결함 검출 자동화를 시도한 연구가 진행되었다. 해당 연구의 데이터는 시험편에 형광 침투탐상검사(Fluorescent Penetrant Testing, FPT)를 진행한 이미지를 대상으로 연구되었고, 기계 학습법인 Random forest를 사용한 방법과 합성곱 신경망 네트워크(Convolution Neural Networks, CNN)를 기반으로 한 feature extractor인 ResNet을 사용한 방법을 비교한 결과 ResNet을 사용한 자동화 검출 방법이 높은 검출 성능을 보였다[3, 4]. 이를 통해 딥러닝을 이용한 PT 이미지의 용접 결함 검출 자동화 가능성을 확인할 수 있었다.
딥러닝을 이용한 객체 검출은 검출 방식에 따라 다양한 구조를 가진 검출모델들이 제안되고 있다. 검출모델은 이미지 내의 객체 크기나 형태에 따라 검출 성능이 다르며, 특정 산업에 접목하기 위해서는 검출 대상의 특성에 맞는 모델과 검출 기법을 사용하여 성능을 최적화하는 것이 중요하다.
본 논문에서는 이와 같은 딥러닝 기반의 객체 검출 기법을 통해 PT 검사 결과를 인식하고 탐지된 결함에 대해 분류를 자동화한다. 검출 기법별 모델 성능을 비교하여 자동화에 적합하다고 판단되는 결함 검출기를 최적 알고리즘으로 선정하여 제안한다.
2. 관련 연구
Backbone: Backbone은 객체 검출 알고리즘에서 입력된 이미지가 convolutional layer를 거쳐 feature map의 형태로 변환하는 모듈이다. 이미지를, CNN을 통해 학습하는 경우 층이 깊어질수록 향상된 성능을 보이지만, 가중치를 업데이트할 때 기울기가 소실되는 vanishing gradient 현상이 발생한다.
실험에서는 residual network 기반의 Backbone을 사용하여, vanishing gradient 문제를 해결하고자 하였다. 대표적인 residual network인 ResNet[5]은 직전 layer의 결과를 그대로 받아오는 기존의 신경망과는 달리 일부 layer를 거치지 않은 값과 layer를 거친 값을 합하는 Residual mapping을 적용한 신경망 구조이다. ResNeXt[6]는 ResNet의 신경망 구조 layer의 채널을 Cardinality로 나누어 연산하여 얻은 결과를 결합하는 split-transform-merge 전략을 도입한 Backbone 모델이다. ResNeXt는 ResNet에 비해 높은 성능을 보이지만, 같은 layer 수를 가진다면 모델 복잡도가 더 크고, 하이퍼 파라미터(Hyperparameter)의 수가 많아져 최적화를 위해 수정해야 할 부분이 많다. 본 연구에서는 Fig. 1에서와 같이 ResNet과 병렬적으로 확장한 ResNeXt 101개 층으로 사용한 결과를 비교하여 검출 성능을 향상하는 Backbone을 확인한다.

Fig. 1 Comparison of Backbone Networks ResNet and ResNeXt
Anchor: 객체 검출 알고리즘은 많은 양의 예측을 수행하고 객체로 판단한 영역을 최종적으로 bounding box를 통해 표시한다. 정답 영역의 예측을 위해 anchor를 사용한 기법들이 도입되었다. Anchor란 객체의 후보 영역을 검출하기 위한 장치로 학습 이전에 크기와 종횡비를 설정하여 사용된다. 사전 정의된 anchor는 이미지 전체를 슬라이딩하여 객체의 정답 영역과 anchor에 포함된 정도로 객체가 포함될 확률을 예측한다. 이러한 anchor를 기반으로 하는 기법을 Anchor-based 기법이라 한다. Anchor-based 기법은 종횡비와 크기를 정의하여 사용하기 때문에 객체 검출 시에 작은 크기의 결함을 검출하는데 효과를 보이지만 다양한 형태의 객체를 감지할 때 어려움이 있다. 이 문제를 해결하기 위해 Anchor를 사전에 정의하지 않고 무작위로 생성하여 사용하는 기법인 Anchor-free 기법은 객체의 위치와 종류를 이미지에서 직접 예측하기 때문에 작은 결함의 검출 성능은 약하지만, 다양한 형태를 가진 객체를 검출하는 곳에 적합하다.
One-stage/Two-stage: 객체 검출은 위치 검출과 결함 분류의 단계로 나뉘며 수행 과정의 단계에 따라 One-stage/Two-stage 모델로 분류된다. Two-stage 모델은 두 단계를 나누어 수행하는 구조의 모델이며 위치 검출 시에 관심 영역인 ROI(Region Of Interest)를 특정하기 위해 RPN(Region Proposal Networks)을 사용한다. RPN은 Backbone에서 추출한 feature map을 사용하여 Head를 통해 객체를 예측하며, 주로 R-CNN 모델에 사용된다. 이러한 과정을 통해 Two-stage 모델은 정확도가 높지만, 검출 시간이 오래 걸린다는 단점이 있다. One-stage 모델은 위치 검출과 분류를 동시에 수행하는 모델 구조이다. Two-stage 모델보다 One-stage 모델의 검출시간이 빠르지만, 검출 정확도는 낮다. 각 모델의 단점은 적합한 하이퍼 파라미터를 사용하여 보완하는 것이 가능하다.
3. 모델 성능 비교 실험
3.1 데이터 정의 및 결함 분류
결함의 분류는 Table 1의 ASME SEC. V A110에서 언급되는 11가지 용접 결함 중 PT로 검출할 수 있는 결함 4가지를 확인하였고, 이에 따라 산업체에서 전문가 검사를 통해 일차적으로 분류되어 수집한 PT 이미지 데이터를 분류하였다. 이 과정에서 앞선 규정으로 정의되지 않거나 결함에 대한 데이터 수가 학습하기 어려울 정도로 작은 데이터에 대해서는 KS code(KS B0816)에 따라 지시 모양의 폭이 길이의 3배 이상일 경우 선상 지시, 3배 이하인 경우는 원형상 지시로 분류하여 결함의 분류를 구체적으로 정의하였다. 최종적으로 규정을 통해 분류된 결함 종류인 crack, porosity, undercut과 이외의 결함은 선상 지시와 원형상 지시로 분류하여 5가지 클래스로 객체를 정의했다.
Table 1. Class selection based on ASME SEC.V A110

학습 및 평가에 사용한 데이터는 실제 산업 적용을 고려하여 산업체에서 제작한 용접 품목을 대상으로 액체 침투탐상검사가 이뤄진 용접 결함 이미지로 수집하였다. 데이터는 1,189장의 이미지로 이뤄져 있으며 Table 2와 같이 전문가의 평가를 거친 10가지 형태의 결함 종류와 위치를 표시한 자료이다.
Table 2. Number of defective PT image data collected through expert evaluation

결함 검출 알고리즘에 사용된 PT 결함의 Class는 앞서 정의한 5 클래스(crack, porosity, undercut, linear indication, rounded indication)로 분류되었다. 분류된 기준에 따라 주석 처리하고 정답 영역인 Ground Truth 좌표가 포함된 JSON 형식의 파일을 획득하였다. 획득한 JSON 파일은 COCO[7] 데이터 세트 형식으로 변환하여 학습에 사용하였다. 이미지 데이터 세트 내의 클래스별 Ground Truth 수는 Table 3과 같이 2,564개가 존재한다. Table 4는 COCO 데이터 세트 형식에 따라 Ground Truth 면적이 area ≤ 322인 경우 small objects, 322 ≤ area ≤ 962인 경우 medium objects, 962 ≤ area인 경우는 large objects로 구분하여 객체 크기별 결함 영역의 수를 확인했다.
Table 3. Number of defects in PT image data classified according to the proposed classification criteria

Table 4. Classification of defect sizes in PT image data according to the COCO data set classification criteria

3.2 데이터 증강
보유한 PT 이미지는 산업 데이터로써 다양한 크기를 가지며, 평균 이미지 크기는 2,264×1,861이다. 해당 데이터를 원본 크기로 학습에 사용할 경우 연산량 증가에 따라 GPU 메모리가 증가하므로 원활한 학습 진행이 어렵다. 따라서, 학습에 적합한 균일한 크기로 데이터를 만들기 위해 patch를 적용하였다. Patch는 객체 인식 분야에서 주로 사용되는 기법으로 본 연구에서는 Fig. 2에 나타난 것처럼 1,333×800 크기로 이미지를 분할하고 결함의 누락을 방지하기 위해 128 pixel 크기로 겹쳤다. 또한, 이미지가 포함되지 않는 영역은 127.5의 pixel intensity를 가진 pad로 대체하여 이미지 크기를 균일하게 설정하였다. 이를 통해 기존의 1,189장의 이미지가 2,308장으로 증가하였고, 이미지 내의 결함 수는 2,564개에서 3,735개로 늘어나 데이터 증강(data augmentation)의 효과를 보였다. 데이터 증강을 통해 상대적으로 작은 데이터 문제를 보완하여 과적합(overfitting)되는 문제를 보완하였다.

Fig. 2 Data augmentation and data construction through image patches
3.3 객체검출 모델
실험에 사용된 객체 검출 모델은 RetinaNet[8], Faster R-CNN[9], Cascade R-CNN[10], DiffusionDet[11]을 사용하였다. 먼저 RetinaNet은 cross entropy loss에 비례 크기 요소를 추가한 Focal loss가 적용된 One-stage 모델이다. 모델의 구성은 Backbone과 객체 분류를 위한 sub-network 그리고 검출을 위한 sub-network로 이루어져 있다. Faster R-CNN은 RPN을 도입한 검출모델로 FPN(Feature Pyramid Network)과 연결되어 Ground Truth로 의심되는 지역을 예측하는 모델이다. 기존의 Faster R-CNN은 이미지를 양자화하여 풀링(pooling) 하는 ROI pooling을 사용하였으나, 이 과정에서 이미지의 위치정보가 왜곡되어 오차가 발생한다. 이러한 문제의 해결을 위해 관심 영역을 pooling layer 크기에 따라 영역을 나누고 각 영역에 임의의 기준점을 잡아 양선형 보간법을 통해 feature map을 계산하는 기법인 ROI Align을 적용하여 실험을 진행하였다. Cascade R-CNN은 IoU를 점차 높여가며 단계별 학습을 하며 이전 단계의 학습 결과에 따라 이후 학습에 영향을 주며 최종 결과를 도출하는 모델로 여러 IoU(Intersection over Union)에서 학습한다. 마지막으로 DiffusionDet은 Encoder-Decoder 구조를 가진 end-to-end 모델로 anchor의 크기와 종횡비를 사전에 정의하지 않고 사용하는 Anchor-free 기법이 적용되었다. 이미지의 입력은 CNN을 이용한 Backbone을 통해 이뤄지며 Diffusion model을 결합해 Gaussian 분포로 생성된 bounding box를 노이즈 형태로 하여 사용하는 Noise-to-box를 통해 객체를 검출하는 모델이다.
3.4 세부 수정 사항
최적화에 사용된 Optimizer는 기존의 Adam[12]에 학습 과정에서 학습률 감소(weight decay)를 적용한 AdamW[13]를 사용하였다. 초기 학습률은 0.0001로 하고, 학습률 감소는 0.0001로 하여 모델이 빠르고 안정적인 학습을 유지하도록 학습률을 설정했다. 객체 검출 시 중복된 예측 영역의 기준점 완화를 위해 Soft-NMS[14]를 적용하였고, confidence score를 감소시켜 검출되는 bounding box의 수를 증가시켰다.
4. 실험 결과
먼저 Faster R-CNN을 통해 선형, 원형 결함으로 분류한 데이터와 앞서 제시한 클래스 분류 시 성능을 비교하였을 때, Table 5에 나타난 바와 같이 ResNet-101를 Backbone으로 사용한 경우보다 ResNeXt-101를 사용한 경우가 2 클래스에서 5 클래스로 증가하였음에도 불구하고 성능이 6.1% 상승하였다. 이를 통해 ResNeXt-101를 사용하였을 때 검출 성능이 향상되는 것을 확인하였다.
Table 5. mAP results according to Backbone changes when class increases

또한, Backbone을 ResNeXt-101로 고정하고 One-stage 모델과 Two-stage 모델의 성능을 비교하는 실험을 했다. 실험에 사용된 모델은 RetinaNet, Faster R-CNN, Cascade R-CNN을 사용하였으며, 학습은 12 Epoch로 진행하였다. 이때, 실험에 사용된 모델 모두 Fig. 3과 같이 10 Epoch에서 11 Epoch 사이에서 수렴하였다. 수렴 결과는 Faster R-CNN이 mAP0.50가 78.5%로 가장 높은 성능을 보였다(Table 6).

Fig. 3 Epoch comparison of anchor-based fault detection models
Table 6. Defect detection results using anchor-based object detection technique

Two-stage 모델인 Faster R-CNN과 Cascade R-CNN에 대해 추론 결과를 혼동행렬(confusion matrix) 계산하여 나타내면 Fig. 4와 같다. Faster R-CNN의 경우 클래스 간 분류 오차는 0%에 가까우며 원형 결함에 속하는 porosity, rounded indication에 대한 검출 정확도가 높게 나타났다. 선형 결함에 속하는 crack도 정밀도와 재현율 모두 높게 평가되었지만, undercut이나 linear indication에 대해서는 25% 이상 오차를 보였다. Cascade R-CNN은 Faster R-CNN보다 낮은 분류 정확도를 보였고, 특히 crack과 linear indication에 대해 10% 혼동하는 결과가 나타났다. 계층적으로 IoU 값을 높이면서 분류 정확도를 높이는 모델의 특성을 고려할 때, 생성된 bounding box가 실제 결함의 위치와 정확하게 일치하지 못한다는 것을 알 수 있다. 또한, 길이 방향에 대한 비선형성 강한 결함은 정해진 anchor 크기로는 검출하기 어려워 undercut, linear indication에서 배경과 혼동하는 오차가 44% 이상 발생하고 있다.

Fig. 4 Confusion matrix of two-stage based fault detection model
Anchor-based와 마찬가지로 Anchor-free 모델에서도 분류해야 하는 클래스가 많아짐에도 병렬적 구조를 통해 이미지 특징 추출이 가능한 ResNeXt-101를 같이 적용했다. Fig. 5와 같이 Backbone에 따른 검출 성능을 확인하기 위해 ResNet-101과 비교했고, patch로 나눠진 입력 이미지 크기에 따른 영향도 확인하기 위해 기존 1,333×800 크기에서 640×640으로 변경하여 학습했다.

Fig. 5 Comparison of backbone and image size-based learning iterations of anchor-free based defect detection model DiffusionDet
학습 과정에서 실험 대상이 되는 모델은 150 Epoch에서 수렴하기 시작했으나, 입력 이미지 크기 1,333×800, Backbone ResNeXt-101 모델은 다른 모델보다 초기 정확도가 급격하게 증가했다. 이후 ResNet-101이 적용된 모델은 지속적으로 정확도가 증가하여 350 epoch 이후 차이가 근소해지는 결과를 보였다.
결과적으로 Table 7에 나타난 것처럼 입력 이미지 크기 1,333×800, Backbone ResNeXt-101이 적용된 DiffusionDet 모델이 mAP 82.9%로 가장 높은 성능을 보였다. DiffusionDet에서는 Backbone에 따른 정확도 차이가 0.5%로 Anchor-based 모델에서 나타난 것처럼 5% 이상의 차이가 나타나진 않았다. 다만 patch가 적용된 입력 이미지에 따른 정확도 차이가 21% 이상 크게 차이가 났는데, 이는 결함을 검출할 때 주변 이미지 패턴 정보가 중요하다는 것을 의미한다. 일반적으로 모델의 크기나 추론 속도를 고려하여 입력 이미지 크기를 줄이는 것을 목표로 한다. 하지만, 위성 이미지에서 객체를 검출하거나[15], 용접 결함과 같이 작은 결함을 검출해야 할 경우, 고해상도 이미지를 통해 더 많은 세부 정보를 제공하여 작은 객체(small object)에 대한 검출 정확도를 높여야 한다[16]. 사용된 데이터 세트는 Table 4에 나타난 것처럼 전체 데이터의 30% 이상이 작은 객체에 속한다. 또한, 큰 객체(large object)에 포함되는 결함은 대부분 선형 결함이기 때문에 폭 방향은 32 pixel로 구성되어 있다. PT에서 확인할 수 있는 결함의 크기에 대한 특성을 고려하면 입력 이미지 크기 1,333×800을 적용한 모델이 640×640을 적용한 모델보다 주변 세부 정보를 반영할 수 있어 정확도가 높은 것으로 판단된다.
Table 7. Backbone of anchor-free based defect detection model DiffusionDet and defect detection results through image size-based learning

Fig. 6은 입력 이미지에 따른 추론 결과를 혼동 행렬로 나타내어 비교했다. 입력 이미지 640×640은 클래스 간 오차는 Cascade R-CNN과 다르게 2% 이하 오차를 보이지만, 배경과 혼동하는 오차가 크게 발생하여 평균적으로 56.4% 정확도로 평가되었다. 특히 결함임에도 불구하고 배경으로 인식하는 경우가 26% 이상으로 높아 재현율이 낮게 평가된다. 입력 이미지 1,333×800이 적용된 모델은 클래스 간 분류 오차가 낮고, 정확도가 평균 78.8%로 입력 이미지 640×640 모델과 22.4% 큰 차이로 mAP 차이와 유사한 결과를 보인다. Faster R-CNN의 결과와 마찬가지로 undercut, linear indication에 대한 오차가 높게 나타났고, 특히 undercut에 대해서는 40% 이상의 큰 오차를 보여 이에 대한 보완이 필요하다고 판단된다.

Fig. 6 Image size-dependent confusion matrix of anchor-free based defect detection model DiffusionDet
Anchor-free 기법이 적용된 Transformer 기반의 DiffusionDet 모델을 이용한 객체 검출 알고리즘을 통해 PT 결함을 검출한 결과, 같은 실험 조건에서 Anchor-based 기반 모델의 성능과 비교해 mAP0.50가 4.4% 증가한 것을 확인하였다.
여전히 발생하고 있는 분류 오차를 줄이기 위해 학습 모델 중 추론 성능이 가장 높은 입력 이미지 1,333×800, Backbone ResNeXt-101이 적용된 DiffusionDet 모델을 대상으로 하이퍼 파라미터를 수정했다. 용접 공정에서 제품의 결함을 검출할 때 배경과 결함의 혼동에 의한 검출 오류는 제품의 불량률에 치명적인 영향을 미친다는 것을 고려하여 결함인데 배경으로 인식하여 탐지하지 않은 결과를 조정했다. 이를 위해 알고리즘이 판단한 신뢰 점수(confidence score) 임계치를 0.5에서 0.3으로 수정하여 bounding box의 발현빈도를 높였다. 신뢰 점수는 객체가 bounding box에 존재할 확률(objectness score)과 추론 결과를 Softmax로 계산했을 때 해당 클래스의 확률(class probability)을 곱한 값으로 추론 과정에서 조정할 수 있는 하이퍼 파라미터다.

Fig. 7 Confusion matrix after adjusting the confidence threshold of DiffusionDet, a fault detection model based on anchor-free
신뢰 점수를 조정한 결과, 모든 클래스에서 결함을 놓치지 않는 비중이 평균 5. 4%로 크게 줄었으며, 클래스 간 분류 오차가 0%로 수렴했다. 이에 따라 재현율이 평균 93.6%로 크게 상승하여 모델이 개선된 것을 확인할 수 있었다. Table 8과 같이 평균 정밀도인 mAP는 92.9%로 향상된 성능을 얻었지만, 여전히 배경을 결함으로 분류하는 경향이 있었으며, 그중에서도 undercut이 42%로 이전 모델들과 같은 경향성을 보인다.
Table 8. Defect detection results after adjusting the confidence threshold of DiffusionDet, a defect detection model based on anchor-free

배경을 결함으로 분류하는 오차 중에서 rounded indication이 13% 증가했지만, 비율을 표현한 것이기 때문에 평균 정밀도가 상승한 것을 고려하면 절대적인 오차 수는 적은 것으로 추측할 수 있다. 여기서 고려할 것은 crack과 linear indication은 이전 모델에서 일정 비율을 차지하고 있었지만, 신뢰 점수를 수정하면서 5% 이하로 줄었다. 이는 폭 방향 길이가 얇은 객체에 대해 신뢰 점수를 완화함으로써 해결했다고 판단된다.
5. 결론
본 연구에서는 액체 침투탐상검사 이미지에서의 용접 결함 검출을 위해 다양한 기법을 적용한 알고리즘들의 성능을 평가하고 산업 적용에 적합한 알고리즘을 제안한다.
Faster R-CNN을 이용한 Backbone의 비교실험 결과, ResNet-101을 사용한 알고리즘보다 ResNeXt-101을 이용한 알고리즘의 성능이 검출 객체의 Class 증가하였음에도 향상된 결과를 보였다. Backbone의 변경에 따라 모델의 복잡도가 감소하여 입력 이미지의 크기를 1,333X800으로 키워 사용하더라도 안정적인 학습이 가능해져 높은 성능을 보였다. Anchor-based 기법은 크기를 사전에 정의하는 것이 가능하여 작은 결함 검출에 높은 성능을 보이지만, 용접 결함과 같은 다양한 형태의 객체를 검출하기에는 적합하지 않다. 반면에 Anchor-free 기법의 모델은 무작위로 생성된 anchor를 사용하기 때문에 다양한 형태의 결함 검출에 높은 성능을 보였으나, 작은 결함 검출에는 성능이 높지 않은 것을 확인하였다.
실험에 사용된 PT 이미지 데이터 세트의 경우 Anchor-free 기반의 모델이 mAP 82.9%의 성능을 보이며 효과를 검증하였다. 실제 산업체의 공정에서 생산되는 용접 품목에 시행한 PT 결과에서 결함을 잘못 검출할 때, 안전 및 재산과 직결된 문제가 발생한다. 따라서 배경을 포함한 결함 의심 지역 또한, 포함하여 검출하기 위해 모델의 신뢰 점수 임계치를 낮추어 검출 시 누락 되는 결함을 최소화했다. 위 연구 결과를 종합하여 제작한 PT 결함 검출 알고리즘은 mAP0.50 92.9%의 성능을 얻을 수 있었다. Fig. 8과 같이 결함을 검출을 할 수 있는 딥러닝 기반 PT 결함 검출 알고리즘에 대해 산업 적용 가능성을 확인하였다.

Fig. 8 The inference results of the proposed model: The red bounding box highlights the location of the defect, while the black box shows the confidence score, which combines the likelihood of the specific defect type with the objectness score
후기
본 논문은 2024년도 해양수산부 및 해양수산과학기술진흥원 연구비 지원으로 수행된 ‘자율운항선박 기술개발사업(20200615)’의 연구결과입니다.
참고문헌
- Jeong, G. G., Fundamentals of Non-Destructive Testing, Journal of Korea Ship Safrty Technology Authority, 4, pp. 64-71, (2000).
- Lee, S. B., Trends in non-destructive testing for ships. Journal of Welding and Joining, 28(4), pp. 5-8, (2010). https://doi.org/10.5781/KWJS.2010.28.4.005
- Shipway, N. J., Huthwaite, P., Lowe, M. J. S., and Barden, T. J., Performance based modifications of random forest to perform automated defect detection for fluorescent penetrant inspection. Journal of Nondestructive Evaluation, 38(2), 37, (2019).
- Shipway, N. J., Huthwaite, P., Lowe, M. J. S., and Barden, T. J., Using ResNets to perform automated defect detection for Fluorescent Penetrant Inspection. NDT & E International, 119, 102400, (2021).
- He, K., Zhang, X., Ren, S., and Sun, J., Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770-778, (2016).
- Xie, S., Girshick, R., Dollár, P., Tu, Z., and He, K., Aggregated residual transformations for deep neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1492-1500, (2017).
- Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., and Zitnick, C. L., Microsoft COCO: Common objects in context. In Computer Vision-ECCV 2014: 13th European Conference, Zurich, (2014).
- Lin, T. Y., Goyal, P., Girshick, R., He, K., and Dollár, P., Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, pp. 2980-2988, (2017).
- Ren, S., He, K., Girshick, R., and Sun, J., Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 28 (2015).
- Cai, Z., and Vasconcelos, N., Cascade r-cnn: Delving into high quality object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 6154-6162, (2018).
- Chen, S., Sun, P., Song, Y., and Luo, P., Diffusiondet: Diffusion model for object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 19830-19843, (2023).
- Kingma, D. P., and Ba, J., Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014).
- Loshchilov, I., and Hutter, F., Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101 (2017).
- Bodla, N., Singh, B., Chellappa, R., and Davis, L. S., Soft-NMS--improving object detection with one line of code. In Proceedings of the IEEE international conference on computer vision, pp. 5561-5569, (2017).
- Hao, Y., Pei, H., Lyu, Y., Yuan, Z., Rizzo, J. R., Wang, Y., and Fang, Y., Understanding the impact of image quality and distance of objects to object detection performance. In 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 11436-11442, (2023).
- Xia, G. S., Bai, X., Ding, J., Zhu, Z., Belongie, S., Luo, J., and Zhang, L., DOTA: A large-scale dataset for object detection in aerial images. In Proceedings of the IEEE conference on computer Vis10n and pattern recognition, pp. 3974-3983, (2018).