1. 서론
시설물 상태평가는 시설물의 외관을 조사하여 결함의 정도를 포함한 시설물의 상태를 평가하는 것으로, 시설물에 발생한 손상의 종류와 정도를 통해 시설물의 등급을 결정하는 과정이다. 시설물의 등급은 시설물의 점검 주기 및 종류(안전점검의 종류), 나아가 사용여부를 결정하는 척도로 시설물 안전 및 유지관리에 가장 기초적인 요소이다(Facility Safety Division, 2022). 현재 시설물 상태평가는 작업자가 시설물에 접근해 육안으로 시설물의 상태를 점검하는 인력 기반 방법으로 수행되고 있다. 교량, 터널 등 접근이 어려운 시설물에서 작업자가 장비에 탑승해야 하는 방법은 작업자의 안전을 위협하며, 작업을 위한 도로 점유는 시설물 사용에 비효율성을 초래한다. 또한 작업자의 판단에 의해 평가가 이루어지기 때문에 상태평가 결과의 객관성을 확보하기 쉽지 않다.
이러한 어려움을 개선하기 위해 영상을 이용해 시설물을 점검하기 위한 연구가 진행되었다. 영상은 비접촉, 고정밀의 특성을 갖고 있기 때문에 접촉형 센서에 비해 데이터를 보다 쉽고 효율적으로 취득할 수 있다(Yeum and Dyke, 2015). 특히 딥러닝(deep learning)의 등장은 이러한 경향을 가속시켰다. 기존의 영상 처리 방법과 같은 규칙 기반의 방법이 촬영 각도나 조도 등 취득 환경에 큰 영향을 받았던 것과 다르게 딥러닝을 이용해 취득 환경에 강건해진 결과를 얻을 수 있게 되었다. 딥러닝은 교량, 터널, 고속도로, 철도 등 다양한 시설물(Alipour et al., 2019; Li et al., 2019; Bang et al., 2019; Liu et al., 2019)과 균열, 볼트, 박리, 전반적인 손상 등 여러 손상 유형(Zhang et al., 2022; Zhang et al., 2020; Beckman et al., 2019; Gao et al., 2019)에 적용되며 영상 기반 손상 탐지의 일반화 가능성을 보여주었다.
딥러닝 알고리즘을 시설물 상태평가에 활용하기 위해서는 시설물 상태평가를 이루는 요소를 파악하고 그에 적합한 방법을 선택하여야 한다. 먼저 시설물의 상태평가는 객체화(instantiation)와 정량화(quantification)로 나눌 수 있다. 시설물 상태평가의 지표인 시설물의 등급은 어떠한 손상(객체화)이 어느 정도의 크기(정량화)로 발생했는지에 따라 달라진다(Korea Authority of Land & Infrastructure Safety, 2021). 시설물 상태평가를 수행하기 위한 딥러닝 기반 방법은 1-step(1단계)과 2-step(2단계)으로 나눌 수 있다. 1-step 방법은 대상 영상 전체에 대해 분할(segmentation)을 수행하는 방법으로, 세부 방법에 따라 의미론적 분할(semantic segmentation)과 인스턴스 분할(instance segmentation)로 나눌 수 있다. 그러나 1-step의 각 방법은 다음과 같은 어려움을 갖는다. 의미론적 분할은 영상의 모든 픽셀(pixel)에 대해 손상 종류를 결정하지만 손상을 객체화 하지는 못하고, 인스턴스 분할은 손상 객체화와 정량화 모두를 수행할 수 있지만 비교적 많은 양의 학습 데이터를 필요로 한다. 2-step 방법은 객체 탐지(object detection)와 분할을 순차적으로 수행하는 방법으로 객체 탐지는 손상을 객체화하고 분할은 손상을 정량화 한다. 2-step 방법도 정량화에 해당하는 분할은 객체 탐지와 비교해 많은 양의 학습 데이터를 필요로 하기 때문에, 이는 시설물 손상과 같이 다량의 학습 데이터를 구축하기 어려운 상황에는 적용하기 어려운 측면이 있다. 또한 분할용 학습 데이터가 객체탐지용 학습 데이터와 비교해 학습 데이터 구축에 많은 시간과 비용을 필요로 한다는 점도 어려운 요소이다.
최근 높은 범용성과 활용성을 앞세워 파운데이션 모델(foundation model)이 큰 관심을 불러오고 있다. 파운데이션 모델은 매우 많은 양의 데이터를 이용해 학습한 사전 모델로 미세 조정(fine tuning)을 통해 목적한 태스크(task) 외에도 다양한 태스크에 이용 가능한 인공지능 모델을 일컫는다(Bommasani et al., 2021). 자연어 처리 분야에서는 ChatGPT, Bard와 같은 large language model(LLM)이 공개되어 큰 반향을 일으켰고, 이미 상용화되어 서비스되고 있다. 비전 분야에서도 CLIP과 같이 대량의 데이터를 이용한 vision-language 기반의 파운데이션 모델이 연구되었다(Radford et al., 2021). Meta에서는 파운데이션 모델을 비전 분야에 적용한 segment anything model (SAM)을 공개했다(Kirillov et al., 2023). SAM은 분할을 수행하는 파운데이션 모델로 약 천만 장의 이미지와 11억 개의 마스크로 이루어진 대규모 데이터셋 SA-1B (Meta AI, 2023)에 대해 학습되어 사람, 동물, 차량 등 다양한 객체를 분할한다. SAM은 먼저 영상과 마스크의 표현을 학습하고 이를 기반으로 입력 프롬프트(prompt, 점이나 관심 영역 등)에 대해 마스크를 생성하는데, 별도의 학습이 없이도 다양한 객체 분할에 뛰어난 성능을 보인다. 이러한 SAM과 같은 파운데이션 모델의 제로샷(zero-shot) 특성은 시설물 손상 탐지와 같이 다량의 학습 데이터 확보가 어려운 도메인에 대한 개선책으로 사용할 것을 기대할 수 있다.
본 연구에서는 시설물 상태평가를 위한 딥러닝 기반 손상 분석에서 학습 데이터 부족 문제를 극복하기 위해 파운데이션 모델 기반 2-step 방법을 제안한다. 객체 탐지를 수행해 손상을 객체화하고, 탐지 결과를 SAM에 프롬프트로 입력하여 손상을 정량화 한다. 2장에서는 2-step 방법의 구성에 대해 설명하고, 각 단계별 방법에 구체적으로 설명한다. 3장에서는 오픈 데이터를 이용해 학습 데이터를 구축하기 위한 전처리 및 정제 과정에 대해 설명한다. 4장에서는 2-step 방법의 각 단계별 정확도에 대해 검증하고, 파운데이션 모델의 성능을 기존 분할 방법과 비교해 검증한다.
2. 연구 방법론
2.1. 시설물 상태 평가 프레임워크
이 장에서는 본 연구의 시설물 상태평가 방법인 파운데이션 모델 기반 2-step 시설물 손상 분석 방법에 대해 설명한다. 시설물 상태평가 방법의 전반적인 구조에 대해 설명하고, 시설물 상태평가의 주요 요소인 객체화와 정량화에 대해서 자세하게 서술한다. Fig. 1은 본 연구의 시설물 상태평가의 전체 프레임워크에 대해 나타낸다. 본 연구의 시설물 상태평가의 입력 데이터와 출력 데이터는 다음과 같이 구성된다. 입력 데이터는 대상 시설물을 촬영한 다수의 영상을 정합한 모자이크 영상, 출력 데이터는 모자이크 영상에서 각 손상의 위치와 종류, 시설물의 등급이다.
Fig. 1. Overall framework of structural condition assessment.
2.2. 첫 번째 단계: 객체화를 위한 객체 탐지 방법
객체화는 손상의 종류를 분류하고 위치를 결정하는 과정을 일컫는다. 같은 크기의 손상이라고 하더라도 손상의 종류에 따라 상태평가 결과가 달라지기 때문에, 손상의 종류를 정확하게 분류하는 것은 시설물 상태평가에서 중요한 부분을 차지한다. 또한 시설물 이력 관리 측면에서 손상의 정확한 위치를 알면 이를 통해 해당 손상의 변화에 대해서 추적할 수 있다. 손상의 위치를 통해 해당 손상 외에 포함될 수 있는 다른 손상을 배제할 수 있기 때문에 정확한 손상의 위치는 중요하다.
객체화에서 가장 중요한 부분은 개별 객체의 위치와 종류 결정이다. 컴퓨터 비전 태스크에서 이와 가장 적합한 태스크는 객체 탐지다. 객체 탐지는 영상 내의 관심 객체를 탐지해 객체의 종류를 분류하고, 그 위치를 바운딩 박스(bounding box)로 표현하는 태스크이다. 본 연구에서는 객체 탐지를 사용해 시설물의 손상을 객체화하고, 향후 정량화에 입력 데이터로 이용한다.
본 연구에서는 VarifocalNet (VFNet) (Zhang et al., 2021)을 이용해 객체 탐지를 수행했다. VFNet은 객체의 존재여부와 위치화(localization) 정확도를 연속적으로 나타내어 부정확한 예측을 방지하고 클래스(class) 분류와 위치화 점수를 동시에 계산한다. 이는 기존 모델의 분류 점수(classification score)만 사용하여 non-maximum suppression(NMS)을 수행하는 방식 대비 높은 정확도를 나타낸다. VFNet의 구조는 Fig. 2와 같으며 CenterNet 기반의 구조를 활용하여, 이미지 내의 손상 영역의 중심점을 탐지하고 그 주변의 영역을 바운딩 박스로 표현한다. 이를 통해, VFNet은 다양한 크기와 형태의 손상 영역을 정확하게 탐지할 수 있다. 이는 시설물 손상 탐지에서 매우 중요한 특성으로 작은 손상도 놓치지 않고 탐지할 수 있기 때문에 시설물의 안전성을 더욱 확보할 수 있다. 또한 VFNet은 다양한 크기의 convolutional layers를 활용하여 이미지 내 다양한 크기의 특징(feature)을 추출하고 attention mechanism을 활용하여 이미지 내 중요한 관심영역에 더욱 집중하여 높은 정확도로 손상 영역을 탐지할 수 있다.
Fig. 2. Structure of VFNet (Zhang et al., 2021).
2.3. 두 번째 단계: 정량화를 위한 Segment Anything Model 활용
정량화는 객체화에서 탐지한 손상의 폭, 넓이 등을 계산하는 부분으로 시설물의 등급 산정의 주요 기준 중 하나이다. 시설물 등급을 산정하기 위해서는 손상 유형별 기준에 따라 피해 정도를 판단해야 한다. 예를 들어 터널 균열의 경우 0.1 mm 이하 균열은 a 등급, 0.1–0.3 mm의 균열은 b 등급으로 부여하고 터널 박락의 경우 직경 75 mm 미만은 b 등급, 직경 75–150 mm는 c 등급과 같이 분류한다.
대상지역의 정보를 이용해 정합된 영상의 경우 영상에서의 스케일이 실제 스케일과 대응되기 때문에 픽셀의 개수를 통해 폭, 직경 등을 산출할 수 있다. 따라서 손상을 픽셀 수준으로 분류하여 정량화를 수행할 수 있다. 컴퓨터 비전 태스크 중 픽셀 수준의 분류를 수행하는 태스크는 분할이 있다. 분할은 의미론적 분할과 인스턴스 분할로 나뉜다. 의미론적 분할은 이미지 내의 모든 픽셀을 특정 클래스에 할당하는 반면, 인스턴스 분할은 각 객체를 개별적으로 분류한다. 두 방법 모두 이미지 내의 객체를 픽셀 수준에서 분류하는 공통점을 가지고 있다. 본 연구에서는 손상 정량화를 위해 분할을 수행하고, 이를 위해 컴퓨터 비전 분할 태스크 기반 파운데이션 모델인 SAM을 이용한다. 첫 번째 과정인 객체화를 통해 추출한 바운딩 박스 내의 영상을 입력 데이터로 하여 바운딩 박스 내의 손상을 분할한다. 분할한 손상의 유형은 객체화에서 도출된 유형과 일치시킨다. 별도의 학습을 수행하지 않고 SAM을 적용해 손상 탐지에서 파운데이션 모델의 제로샷 성능을 확인했다.
SAM은 프롬프트 기반 영상 분할 파운데이션 모델로 매우 많은 양의 데이터로 학습한 인코더로 영상의 특징 집합인 이미지 임베딩(embedding)을 생성한다. 이미지 임베딩은 프롬프트를 통해 마스크를 생성하는데, 스코어에 따라 3가지 마스크가 생성된다. 스코어의 차이는 생성되는 마스크의 자세한 정도에 따라 나뉘게 된다. Fig. 3은 SAM의 전반적인 구조와 포인트를 프롬프트로 입력할 때에 생성된 마스크에 대해서 보여준다. 가위 손잡이에 대해 포인트를 프롬프트로 입력할 경우 하나의 손잡이에 대한 마스크, 두 쪽 모두에 대한 마스크, 혹은 가위 전체에 대해 마스크가 생성된다. 박스나 텍스트와 같은 다른 프롬프트에 대해서도 같은 결과를 얻을 수 있고, 본 연구에서는 박스에 대한 프롬프트에 대해 가장 높은 스코어를 갖는 마스크를 이용한다.
Fig. 3. Structure of SAM (Kirillov et al., 2023).
3. 데이터 구축
3장에서는 본 연구에 사용한 데이터와 그 구축 과정에 대해 서술한다. Fig. 4는 데이터 구축에 대한 전반적인 구조를 나타낸다. 데이터 구축은 수집과 전처리로 나뉜다. 먼저 4개의 오픈 데이터셋에서 다양한 유형의 시설물 손상 데이터를 수집하였다. 수집 데이터에서 불필요한 데이터를 삭제하고 학습 데이터를 다시 레이블링하여 연구 목적에 적합한 데이터셋을 구축했다.
Fig. 4. Workflow of building a training dataset.
3.1. 데이터 수집
시설물 손상과 관련한 다양한 오픈 데이터셋을 수집하였다. 시설물 손상과 관련한 오픈 데이터셋은 총 4개 플랫폼에서 수집한 Roboflow Damage Computer Vision Project (RDCVP) (Roboflow, 2022), concrete defect bridge image (CODERIM) (Mundt et al., 2019), Multi-classifier for reinforced concrete (RC) bridge defects (Hüthwohl et al., 2019)와 AI-Hub 건물 균열 탐지 이미지 데이터셋(National Information Society Agency AI Hub, 2020) 이다.
RDCVP는 시설물 손상에 대한 객체 탐지, 의미론적 분할용 데이터셋으로 2,004장의 사진과 균열(crack), 박락(spalling),박리(scaling),철근노출(rebar exposure),부식(rust), 백태(efflorescence)를손상종류로갖는다.CODEBRIM은 교량의 손상에 대한 객체 탐지 데이터셋으로 박리, 균열, 철근 부식 등에 대한 손상 정보를 포함하고 있다. 1,590장의 사진과 바운딩 박스레이블(label)로 구성된다. Multi-classifier for RC bridge defects는 교량에서 발견될 수 있는 손상의 심각도를 나타내기 위한 분류(classification)용 데이터셋으로 균열, 백태, 박리, 박락 등을 포함한 2,411장의 사진으로 이루어져 있다. AI-Hub의 ‘건물 균열 탐지이미지 데이터셋’은 균열, 박리, 백태/누수, 철근 노출, 강재 손상, 도장 손상 등의 손상을 포함하고 있으며 이중 콘크리트 손상과 관련된 1,300 장의 사진을 이용했다. Table 1은 사용한 오픈 데이터셋의 상세 정보를 제시하며, Fig. 5는 각 데이터셋의 샘플 이미지를 나타낸다.
Table 1. Detailed information of open dataset
Fig. 5. Sample images of open dataset.
3.2. 데이터 전처리
양질의 딥러닝 손상 탐지 결과를 얻기 위해서는 양질의 학습 데이터가 중요하다. 오픈 데이터셋은 데이터의 형태와 레이블링(labeling)의 주체가 다르기 때문에 데이터의 품질과 손상에 대한 판단, 레이블링 방법이 상이한 경우가 많다. 이는 탐지 결과에 영향을 줄 수 있기 때문에 본 연구에서는 학습 데이터를 검증하고 재처리하는 전처리 과정을 거쳤다. 전처리는 1) 부적합 사진 제거, 2) 재레이블링으로 구성된다. 먼저 데이터셋 간 중복된 사진과 저품질 사진을 제거하였다. 번짐과 노이즈가 심해 손상 특징을 구별하기 어려운 정도의 사진은 학습에 악영향을 미치기 때문이다. 번짐이 심한 사진은 손상의 세부 특징이 뚜렷하게 나타나지 않고, 노이즈가 많은 사진은 왜곡된 손상 정보를 제공할 수 있다. 기존 7,305장에서 부적합 사진 제거를 통해 4,847장을 제거하고 2,458장이 남았다.
다음으로 사진 제거 후 남은 사진에 대해서 다시 레이블링 하였다. 각 오픈 데이터셋은 구축 목적이 다르기 때문에 영상 분류, 객체 탐지, 의미론적 분할 등 다른 방식으로 레이블링이 되어있다. 이를 하나의 형태로 통합하는 작업이 필요하다. 또한, 레이블링의 주체가 다르기 때문에 손상을 판단하는 기준과 레이블링 방식이 다르다. 먼저 손상의 종류를 간소화했다. 오픈 데이터셋 별로 손상의 종류가 매우 다양한데, 같은 손상의 경우에도 다르게 표현한 경우를 하나의 손상으로 표현했다. 또한, 정량화 하기에 어려운 손상을 제외하고 상태평가에 이용 가능한 손상을 중심으로 손상 종류를 정리하였다.
레이블링 방식을 변경한 경우는 3가지로 나뉜다. 1) 연속된 손상이 부분별로 나누어 레이블링 된 경우 하나의 손상으로 레이블링, 2) 크기가 작은 미세한 손상에 대해서도 레이블링, 3) 박락을 동반한 철근 노출에 대해서도 별도로 레이블링 수행. 이에 대한 비교는 Fig. 6과 같다. 가로와 세로로 하나씩 존재한 균열을 가로 1부분, 세로 3부분으로 나누었다면 해당 균열 모두를 하나로 레이블링 하였다. 배제된 미세한 손상에 대해서 레이블링을 추가하였다. 박락 내부에 나타나는 철근 노출에 대해서도 레이블링을 추가하였다. 통일한 레이블링 기준에 따라 레이블링을 수정하였고, 레이블링이 되어 있지 않은 사진은 추가로 레이블링을 수행했다.
Fig. 6. Sample images of labeling changes.
이를 통해 객체 탐지와 의미론적 분할을 위한 데이터셋 A, B를 구축하였다. Table 2는 데이터셋 A와 B에 대해 나타낸다. 데이터셋 A는 바운딩 박스 형태이고 사진은 2,458 장이다. 레이블링 된 객체는 균열 3,806개, 박락은 4,670개, 철근 노출은 1,191개다. 데이터셋 B는 폴리곤(polygon) 형태이고, 의미론적 분할에 적합하지 않은 사진을 제외하여 총 1,362 장으로 구성된다. 레이블링된 객체는 균열 2,308개, 박락은 2,460개, 철근 노출은 1,525개다.
Table 2. Detailed information of the training dataset
4. 연구결과 및 토의
4.1. 연구 세부사항
실험은 총 2가지 단계로 구분된다(Fig. 7). 첫 번째 단계는 손상 영역의 검출을 위한 객체화 과정으로 객체 탐지 모델의 성능을 평가하였다. 객체 탐지 모델로는 ResNeXt 101을 백본(backbone)으로 사용하는 VFNet 모델을 선택하였다. 배치 크기는 4로 설정하였고 stochastic gradient descent를 optimizer로 사용하였다. 모델은 총 48 에폭(epoch) 동안 학습되었으며, 데이터셋 A를 8:2 비율로 분할하여 학습과 평가를 진행했다.
Fig. 7. Experiment configuration.
두 번째 단계는 객체 탐지 모델로 검출된 손상 영역을 정량화 하는 과정으로, 분할 모델의 성능을 평가하였다. 이때 의미론적 분할의 성능과 SAM의 제로샷 성능을 비교하며, 의미론적 분할 모델로 DeepLabV3+ (Chen et al., 2018), OCRNet (Yuan et al., 2020), Segformer (Xie et al., 2021)의 3가지 모델을 사용하였다. DeepLabV3+는 다양한 스케일(scale)의 정보 인식을 위해 astrous convolution과 astrous spatial pyramid pooling을 통합한다. 시설물 손상은 다양한 크기와 형태로 발생하기 때문에 이러한 다양한 스케일의 손상을 정확하게 탐지하기 위해 선택하였다. OCRNet은 object contextual representations 기법을 사용하여 객체의 전체적인 맥락을 고려한 세밀한 분할을 지원하며, 시설물 손상의 경우 주변 환경과의 관계를 고려한 분할 방법이 필요하기에 해당 모델을 사용하였다. Segformer은 transformer 구조를 활용한 분할 모델로, 이미지의 전역적인 정보를 활용하여 분할 성능을 향상시킨다. 시설물 손상 탐지에서는 전체 이미지의 맥락을 고려하여 손상 영역을 분할하는 것이 중요하기에, Segformer의 전역적 정보 활용 성능이 유용하다고 판단되었다. 이러한 모델들은 각각 다른 구조와 특징을 가지며, 본 연구에서는 다양한 방법을 통한 분할 성능을 평가하기 위해 선택하였다. 의미론적 분할 모델은 모두 optimizer로 adaptive moment estimation을 사용하고, 총 50 에폭 동안 학습되었으며 데이터셋 B를 8:2로 분할하여 학습과 평가를 진행하였다. SAM은 Vit-H SAM 모델을 backbone으로 사용한다. SAM은 추가적인 데이터를 통한 학습은 진행하지 않았으며, 객체화 결과로부터 추출된 바운딩 박스 내 영상을 입력 프롬프트로 사용하였다. SAM 또한 데이터셋 B의 평가 데이터로 평가를 진행하였다.
정량적 지표와 정성적 결과를 통해 성능을 평가하였다. 객체 탐지의 정량적 지표는 average precision (AP)와 recall로, 분할의 정량적 지표는 intersection over union (IoU)와 recall로 평가하였다. 손상을 탐지하는 못하는 것보다 과하게 탐지하는 것이 시설물 관리에서 더욱 효용이 높기 때문에 recall을 중점적으로 확인했다. 또한, 실험 결과의 정성적 평가를 위해 시각화 된 결과를 확인하였다.
4.2. 객체화: 객체 탐지
시설물 손상 탐지의 2-step 방법 중 첫 단계인 객체화 과정의 객체 탐지 성능을 중점적으로 평가하였다. 이 과정은 후속 단계인 정량화에 필요한 영역 및 클래스 정보를 제공하는 역할을 한다. 객체 탐지 모델로 VFNet을 사용하였고(Table 3), 데이터셋 A를 8:2 비율로 분할하여 학습과 평가를 진행하였다(Table 2). VFNet 모델의 성능은 AP와 recall 지표를 통해 평가되었다. AP는 정밀도와 재현율을 종합적으로 고려한 탐지 성능을 나타내며, 본 실험에서는 IoU 임계값이 0.5일 때의 AP_50을 사용했다. 또한, recall은 전체 시설물 손상 중 올바르게 탐지된 손상의 비율을 통해 누락된 손상 없이 얼마나 많은 손상을 탐지했는지를 나타낸다. 특히, 시설물의 손상을 정확하게 탐지하는 것은 안전에 직접적인 영향을 미치기 때문에 AP와 recall 지표가 중요하다. 따라서 균열, 박락 그리고 철근노출에 대한 각각의 AP/recall과 이들의 mean average precision (mAP)/mean recall (mRecall) 값을 통해 모델의 전체 성능을 종합적으로 평가하였다.
Table 3. Hyperparameter of object detection
Table 4는 VFNet 모델의 성능을 정량적 수치로 보여준다. 균열과 박락은 AP에서 각각 84.3%, 84.7% 및 recall에서 85.7%, 82.8%로 높은 정확도와 민감도를 나타낸다. 반면, 철근 노출은 AP 62.2%와 recall 64.3%로 상대적으로 낮은 성능을 보였다. Fig. 8은 VFNet 모델을 사용하여 탐지된 시설물 손상 결과를 시각화 하여 나타낸다. 균열과 박락의 복합 손상 탐지 결과 (a)에서는 미세한 균열에 대해서도 객체 영역에 맞는 바운딩 박스가 형성되었다. 철근 노출을 포함한 복합 탐지 결과 (b)에서는 의미적으로 같으나 ground truth (GT)와 다른 결과를 보이기도 했다. GT에서는 철근 노출의 각 객체에 대해 별도의 바운딩 박스가 형성되었으나, 모델의 탐지 결과에서는 철근 노출의 모든 객체를 포함하는 단일 바운딩 박스가 형성되었다.
Table 4. Quantitative results of object detection
Fig. 8. Qualitative results of object detection. (a) Detection results of crack and spalling. (b) Detection results of spalling and rebar exposure.
철근 노출의 정확도가 균열, 박락에 비해 낮은 이유는 학습 데이터 불균형과 정확도 평가 기준과 본 연구의 탐지 결과 판단 기준 상이를 이유로 생각할 수 있다. 먼저 철근 노출의 레이블링 수는 1,191개로, 균열(3,806개) 및 박락(4,670개)에 비해 상대적으로 적었는데 객체별 데이터 양의 불균형으로 철근 노출이 상대적으로 낮은 성능을 나타낼 가능성이 있다. 또한 Fig. 8(b)와 같은 경우의 수를 파악해 정확도 산정에 얼마나 영향을 주었는지 파악했다. Table 5는 철근 노출의 true positive (TP), false positive (FP), false negative (FN)의 비율이다. FP는 41.4%로 나타났으나 이중 74.67%는 GT 바운딩 박스와 겹치는 영역이 50% 미만인 경우로, 두 번째 단계에서 정량화를 수행할 적절한 영역을 제공하기 때문에 철근 노출을 알맞게 탐지했다고 볼 수 있다(Fig. 9). 따라서 철근 노출이 정량 지표로는 낮은 성능을 나타내지만, 후속 단계에 적합한 영역 정보를 제공하고 있다고 생각할 수 있다.
Table 5. Analysis of the detection ratio of rebar exposure
Fig. 9. Less-than-50% overlap of predicted rebar exposure bounding box with ground truth.
객체화 과정은 정량적 및 정성적 평가를 통해 높은 탐지 성능을 보였다. 특히 AP와 recall에서 철근 노출의 성능이 상대적으로 낮았으나, 실제 탐지에서는 후속 단계에 대한 적절한 손상 영역을 제공함을 확인하였다. 또한, 모델은 복합 손상 상황에서도 높은 성능을 보여주었다. 이러한 성능은 정량화 과정에서의 위치 추정 기준을 충족시키는 것으로 판단된다. 후속 절에서는 객체화 결과를 입력 데이터로 프롬프트 하여 정량화 과정에서 분할 성능 분석을 확인해본다.
4.3. 정량화: 객체 탐지 후 분할 수행
시설물 손상 탐지의 2-step 방법 중 두 번째 단계인 정량화 과정의 분할 성능을 중점적으로 평가하였다. 이 단계에서는 시설물 손상의 정도와 범위를 평가하는 데 중점을 둔다. 의미론적 분할과 SAM의 성능을 비교한다. 의미론적 분할은 DeepLabV3+ (ResNet101), OCRNet(HRNetV2p-W48), Segformer (MiT-B5) 모델을 사용하였으며, SAM은 Vit-H SAM 모델을 기반으로 하였다. 3가지 의미론적 분할 모델은 동일한 하이퍼파라미터(hyperparameter) 설정하에(Table 6) 데이터셋 B (Table 2)를 8:2 비율로 학습 및 평가하였다. 반면, SAM은 추가 학습 없이 데이터셋 B의 평가 데이터로만 평가되었다. 분할 모델의 성능은 IoU와 recall 지표를 통해 평가되었다. 이러한 지표들은 픽셀 수준에서의 예측 정확도와 재현율을 나타내며 균열, 박락, 철근 노출 세 가지 클래스에 대한 성능 그리고 mean intersection over union (mIoU)/mRecall 값을 통해 모델의 종합적 성능을 평가하였다.
Table 6. Hyperparameter of segmentation
Table 7은 각 모델의 정량화 성능을 나타낸다. 손상 유형에 따라 IoU와 recall 차이를 보였다. SAM의 박락에 대한 IoU는 78.0%로 의미론적 분할 모델 성능 대비 15% 포인트 이상 높았으며, recall은 83.2%로 12% 포인트 이상 높았다. 철근 노출의 경우, IoU는 62.0%로 40% 포인트 이상 높았고 recall은 76.2%로 50% 포인트 이상 높았다. SAM은 추가 학습 없이 파운데이션 모델 자체로도 의미론적 분할 모델에 비해 높은 성능을 보였다. 특히, SAM은 박락에 대해 높은 성능을 보여주었으며, 이전 단계인 객체 탐지에서 철근 노출의 성능이 상대적으로 낮았음에도 불구하고 SAM은 높은 분할 성능을 보여주었다. 그러나 균열에 대해선 SAM이 IoU 지표에서 다소 낮게 나타났지만 recall 지표에서 큰 차이는 없었다. 시설물 손상 탐지 분야에서 recall의 중요성을 고려하면, SAM의 균열에 대한 분할 성능도 신뢰할 수 있다고 평가된다.
Table 7. Quantitative results of segmentation
시설물 손상의 정량적 평가 이후, 해당 결과를 시각적으로도 명확하게 이해할 수 있도록 정성적 평가를 진행하였다. Fig. 9는 이를 표현한 것으로 균열은 빨간색으로, 박락은 초록색 그리고 철근 노출은 노란색으로 구분하여 나타내었다. 이를 통해 각 손상 유형의 특징과 분포를 더욱 명확히 파악할 수 있으며, 모델의 탐지 성능과 정확도를 직관적으로 확인할 수 있다.
Fig. 10(a)는 박락과 철근 노출의 탐지 결과에 중점을 두었다. 의미론적 분할 모델들에서는 박락의 이상적인 마스크 형성에 어려움을 보이거나 철근 노출을 잘못 탐지하는 경우가 관찰되었다. 의미론적 분할 모델들은 (a)에서 박락의 완전한 형태를 마스크를 표현하지 못하거나 철근 노출을 탐지하지 못했으며, 철근 노출을 균열로 오분류하는 경우가 관찰되었다. 반면, SAM은 박락과 철근 노출 두 클래스에서 모두 GT 대비 이상적인 형태의 마스크를 형성하였다. 이러한 결과는 SAM이 IoU와 recall에서 보인 성능과 일치한다. 박락과 철근 노출은 면적 형태의 객체로 분류될 수 있으며, SAM이 이러한 형태의 시설물 손상에 대해 높은 성능을 나타냄을 확인하였다.
Fig. 10. Qualitative results of segmentation. (a) Segmentation results of spalling and rebar exposure. (b) Segmentation results containing crack.
Fig. 10(b)에서는균열을포함한탐지결과를보여준다. SAM은 균열의 형태를 포함하여 마스크를 형성하였지만, 실제 객체 크기보다 더 넓은 범위로 마스크를 형성한 경우가 관찰되었다. 이러한 특성 때문에 SAM은 의미론적 분할 모델 대비 IoU에서 상대적으로 제한된 성능을 보였지만, recall에서는 큰 차이가 없었다. 균열은 그 특성상 선형적 형태의 객체로 분류될 수 있으며, 이러한 선형적 객체에 대해서는 SAM이 상대적으로 미흡한 결과를 보임을 알 수 있다.
정량화 과정에서는 시설물 손상의 정도와 범위에 중점을 두어 분할 성능을 평가하였다. 의미론적 분할 모델과 SAM을 비교한 결과, SAM은 의미론적 분할 모델에 비해 높은 정량적 지표(IoU, recall)와 더 우수한 정성적 시각화 결과를 보였다. 추가적인 데이터 학습 없이도 SAM이 뛰어난 분할 성능을 발휘함으로써 파운데이션 모델로서의 적합성을 입증하였다. 특히, 박락과 철근 노출에 대해 우수한 분할 성능을 보여주었다. 그러나 선형적 특정을 가진 균열에 대해서는 상대적으로 성능이 미흡하여 이에 대한 개선이 요구된다.
5. 결론
본 연구에서는 기존 인력기반 시설물 상태평가 방법의 어려움을 개선하기 위해 파운데이션 모델 기반 2-step 시설물 손상 분석 방법을 제안하였다. 첫 번째 단계에서는 비교적 데이터 학습 구축이 편리하고 수집하기 용이한 객체 탐지 모델을 이용해 손상을 객체화하고, 두 번째 단계에서는 파운데이션 모델을 이용해 별도의 학습 없이 영상 분할을 수행했다. 객체화 단계에서 VFNet 모델을 사용하여 시설물 손상의 위치와 클래스 정보를 제공하였으며, 정량화 단계에서 SAM을 사용하여 시설물 손상의 정도를 판단하기 위한 근거 자료를 생성하였다.
SAM을 사용한 본 연구의 방법은 추가 학습 없이 기존의 딥러닝 모델인 의미론적 분할 모델 대비 10% 포인트 이상 높은 mIoU를 나타냈으며, 특히 철근 노출에서 40% 포인트 이상의 성능 개선을 보였다. 면적형 객체(박락, 철근 노출)에 대해 높은 성능을 보였으나, 선형객체인 균열에 대해서는 상대적으로 낮은 성능을 나타냈다. 본 연구의 방법은 학습 데이터를 구축하기 어려운 도메인에서 높은 성능 개선을 가져올 것으로 기대된다. 향후 연구에서는 SAM의 미세 조정(fine tuning)과 선형객체 데이터에 대한 전이학습(transfer learning)을 통해 선형 객체에 대한 탐지 성능을 더욱 향상시키는 방법을 모색하고, 다양한 시설물과 환경에서의 적용 가능성을 탐구할 예정이다.
사사
본 연구는 국토교통부/국토교통과학기술진흥원의 연구비 지원사업(기반시설 첨단관리기술개발, RS-2022-00142566)에 의해 수행되었습니다.
Conflict of Interest
No potential conflict of interest relevant to this article was reported.
참고문헌
- Alipour, M., Harris, D. K., and Miller, G. R., 2019. Robust pixel-level crack detection using deep fully convolutional neural networks. Journal of Computing in Civil Engineering, 33(6), 04019040. https://doi.org/10.1061/(ASCE)CP.1943-5487.0000854
- Bang, S., Park, S., Kim, H., and Kim, H., 2019. Encoder-decoder network for pixel-level road crack detection in black-box images. Computer-Aided Civil and Infrastructure Engineering, 34(8), 713-727. https://doi.org/10.1111/mice.12440
- Beckman, G. H., Polyzois, D., and Cha, Y. J., 2019. Deep learning-based automatic volumetric damage quantification using depth camera. Automation in Construction, 99, 114-124. https://doi.org/10.1016/j.autcon.2018.12.006
- Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S. et al., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258. https://doi.org/10.48550/arXiv.2108.07258
- Chen, L. C., Zhu, Y., Papandreou, G., Schroff, F., and Adam, H., 2018. Encoder-decoder with atrous separable convolution for semantic image segmentation. In Proceedings of the 2018 European Conference on Computer Vision (ECCV), Munich, Germany, Sept. 8-14, pp. 833-851. https://doi.org/10.1007/978-3-030-01234-2_49
- Facility Safety Division, 2022. Guidelines for safety and maintenance of facilities, etc. Ministry of Land, Infrastructure and Transport.
- Gao, X., Jian, M., Hu, M., Tanniru, M., and Li, S., 2019. Faster multi-defect detection system in shield tunnel using combination of FCN and faster RCNN. Advances in Structural Engineering, 22(13), 2907-2921. https://doi.org/10.1177/1369433219849829
- Huthwohl, P., Lu, R., and Brilakis, I., 2019. Multi-classifier for reinforced concrete bridge defects. Automation in Construction, 105, 102824. https://doi.org/10.1016/j.autcon.2019.04.019
- Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L. et al., 2023. Segment anything. arXiv preprint arXiv:2304.02643. https://doi.org/10.48550/arXiv.2304.02643
- Korea Authority of Land & Infrastructure Safety, 2021. Implement safety and maintenance of facilities Detailed instructions (Safety inspection/diagnosis). Ministry of Land, Infrastructure and Transport.
- Li, S., Zhao, X., and Zhou, G., 2019. Automatic pixel-level multiple damage detection of concrete structure using fully convolutional network. Computer-Aided Civil and Infrastructure Engineering, 34(7), 616-634. https://doi.org/10.1111/mice.12433
- Liu, J., Huang, Y., Zou, Q., Tian, M., Wang, S., Zhao, X. et al., 2019. Learning visual similarity for inspecting defective railway fasteners. IEEE Sensors Journal, 19(16), 6844-6857. https://doi.org/10.1109/JSEN.2019.2911015
- Meta AI, 2023. SA-1B dataset. Available online: https://ai.meta.com/datasets/segment-anything (accessed on Sept. 27, 2023).
- Mundt, M., Majumder, S., Murali, S., Panetsos, P., and Ramesh, V., 2019. Meta-learning convolutional neural architectures for multi-target concrete defect classification with the concrete defect bridge image dataset. In Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, June 15-20, pp. 11188-11197. https://doi.org/10.1109/CVPR.2019.01145
- National Information Society Agency AI Hub, 2020. Building crack detection image dataset. Available online: https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=162 (accessed on Sept. 27, 2023).
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S. et al., 2021. Learning transferable visual models from natural language supervision. In Proceedings of the 2021 38th International Conference on Machine Learning, Virtual, July 18-24, pp. 8748-8763.
- Roboflow, 2022. Damage dataset computer vision project. Available online: https://universe.roboflow.com/new-workspace-hk52d/damage_dataset (accessed on Sept. 27, 2023).
- Xie, E., Wang, W., Yu, Z., Anandkumar, A., Alvarez, J. M., and Luo, P., 2021. SegFormer: Simple and efficient design for semantic segmentation with transformers. Advances in Neural Information Processing Systems, 34, 12077-12090.
- Yeum, C. M., and Dyke, S. J., 2015. Vision-based automated crack detection for bridge inspection. Computer-Aided Civil and Infrastructure Engineering, 30(10), 759-770. https://doi.org/10.1111/mice.12141
- Yuan, Y., Chen, X., and Wang, J., 2020. Object-contextual representations for semantic segmentation. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J. M. (eds.), Computer vision - ECCV 2020, Springer, pp. 173-190. https://doi.org/10.1007/978-3-030-58539-6_11
- Zhang, H., Wang, Y., Dayoub, F., and Sunderhauf, N., 2021. Varifocalnet: An IoU-aware dense object detector. In Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, June 20-25, pp. 8514-8523.
- Zhang, J., Qian, S., and Tan, C., 2022. Automated bridge surface crack detection and segmentation using computer vision-based deep learning model. Engineering Applications of Artificial Intelligence, 115, 105225. https://doi.org/10.1016/j.engappai.2022.105225
- Zhang, Y., Sun, X., Loh, K. J., Su, W., Xue, Z., and Zhao, X., 2020. Autonomous bolt loosening detection using deep learning. Structural Health Monitoring, 19(1), 105-122. https://doi.org/10.1177/1475921719837509