DOI QR코드

DOI QR Code

A Study on Generation Quality Comparison of Concrete Damage Image Using Stable Diffusion Base Models

Stable diffusion의 기저 모델에 따른 콘크리트 손상 영상의 생성 품질 비교 연구

  • Seung-Bo Shim (Department of Geotechnical Engineering Research, Korea Institute of Civil Engineering and Building Technology)
  • 심승보 (한국건설기술연구원 지반연구본부)
  • Received : 2024.07.23
  • Accepted : 2024.08.01
  • Published : 2024.08.31

Abstract

Recently, the number of aging concrete structures is steadily increasing. This is because many of these structures are reaching their expected lifespan. Such structures require accurate inspections and persistent maintenance. Otherwise, their original functions and performance may degrade, potentially leading to safety accidents. Therefore, research on objective inspection technologies using deep learning and computer vision is actively being conducted. High-resolution images can accurately observe not only micro cracks but also spalling and exposed rebar, and deep learning enables automated detection. High detection performance in deep learning is only guaranteed with diverse and numerous training datasets. However, surface damage to concrete is not commonly captured in images, resulting in a lack of training data. To overcome this limitation, this study proposed a method for generating concrete surface damage images, including cracks, spalling, and exposed rebar, using stable diffusion. This method synthesizes new damage images by paired text and image data. For this purpose, a training dataset of 678 images was secured, and fine-tuning was performed through low-rank adaptation. The quality of the generated images was compared according to three base models of stable diffusion. As a result, a method to synthesize the most diverse and high-quality concrete damage images was developed. This research is expected to address the issue of data scarcity and contribute to improving the accuracy of deep learning-based damage detection algorithms in the future.

최근 들어 노후화된 콘크리트 구조물의 비중이 점차 늘어나는 추세다. 이는 대다수의 구조물이 기대수명에 근접하고 있기 때문이다. 이 같은 구조물은 정확한 점검과 지속적인 관리가 필수적으로 요구되며, 철저한 점검이 이루어지지 않을 경우 본래의 기능과 성능이 저하되어 안전사고로 이어질 수 있음은 자명한 사실이다. 따라서 딥러닝과 컴퓨터 비전을 이용한 객관적인 점검 기술에 대한 연구가 활발하기 이뤄지고 있다. 특히 고해상도는 미세한 균열뿐만 아니라 박락과 철근 노출까지 정확하게 관찰할 수 있으며, 딥러닝을 통해서 자동화 탐지가 가능하다는 장점이 있다. 딥러닝은 다양하고 다수의 훈련 데이터가 있어야지만 높은 탐지 성능을 보장할 수 있지만, 콘크리트의 표면 손상은 비정상 장면으로 일반적으로 촬영하여 확보할 수 있는 데이터가 아니므로 훈련 데이터의 수는 부족할 수밖에 없다. 이러한 한계를 극복하기 위해서 이 연구에서는 stable diffusion을 통해 균열, 박락, 철근 노출을 포함하고 있는 콘크리트 표면 손상 영상을 생성하는 방법을 제안했다. 이는 문자열과 영상이 쌍을 이룬 데이터로 새로운 손상 영상을 합성하는 방법이다. 이를 위해서 총 678장의 훈련 데이터 세트를 구축했고, low rank adaptation을 통해서 fine-tuning을 수행했다. 이때 stable diffusion의 세 가지 기저 모델에 따른 생성 영상의 품질을 비교했다. 결과적으로 가장 다양하고 고품질의 콘크리트 손상 영상을 합성하는 방법을 완성했다. 이 연구는 향후 데이터 부족 문제 해결에 기여하여 딥러닝 기반 손상 탐지 알고리즘의 정확도 향상에 긍정적인 영향을 미칠 것으로 기대한다.

Keywords

Acknowledgement

본 연구는 한국건설기술연구원의 2024년주요사업(과제번호: 20240051-009 터널 안전 점검용 고성능 UWB 기반 소형 AI 드론 주행 기술 개발)의 재원으로 수행된 연구 결과입니다.

References

  1. Li, S., and Zhao, X. (2023), High-resolution concrete damage image synthesis using conditional generative adversarial network, Automation in Construction, 147, 104739.
  2. Ji, A., Xue, X., Wang, Y., Luo, X., and Xue, W. (2020), An integrated approach to automatic pixel-level crack detection and quantification of asphalt pavement, Automation in Construction, 114, 103176.
  3. Graybeal, B. A., Phares, B. M., Rolander, D. D., Moore, M., and Washer, G. (2002), Visual inspection of highway bridges, Journal of Nondestructive Evaluation, 21(3), 67-83. https://doi.org/10.1023/A:1022508121821
  4. Cha, Y. J., Choi, W., and Buyukozturk, O. (2017), Deep learning-based crack damage detection using convolutional neural networks, Computer-Aided Civil and Infrastructure Engineering, 32(5), 361-378. https://doi.org/10.1111/mice.12263
  5. Xia, B., Cao, J., Zhang, X., and Peng, Y. (2020), Automatic concrete sleeper crack detection using a one-stage detector, International Journal of Intelligent Robotics and Applications, 4(3), 319-327. https://doi.org/10.1007/s41315-020-00141-4
  6. Li, S., Zhao, X., and Zhou, G. (2019), Automatic pixel-level multiple damage detection of concrete structure using fully convolutional network, Computer-Aided Civil and Infrastructure Engineering, 34(7), 616-634. https://doi.org/10.1111/mice.12433
  7. Shim, S. (2024), Self-training approach for crack detection using synthesized crack images based on conditional generative adversarial network, Computer-Aided Civil and Infrastructure Engineering, 39(7), 1019-1041. https://doi.org/10.1111/mice.13119
  8. Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. (2014), Generative adversarial nets, Proceedings of Advances in Neural Information Processing Systems, Montreal, Canada, 2672-2680.
  9. Zhu, J. Y., Park, T., Isola, P., and Efros, A. A. (2017), Unpaired image-to-image translation using cycle-consistent adversarial networks, Proceedings of the IEEE international conference on computer vision, Honolulu, HI, USA, (pp. 2223-2232).
  10. Shim, S. (2022), CycleGAN based translation method between asphalt and concrete crack images for data augmentation, The Journal of The Korea Institute of Intelligent Transport Systems, 21(5), 171-182 (in Korean). https://doi.org/10.12815/kits.2022.21.5.171
  11. Huang, B., Kang, F., Li, X., and Zhu, S. (2024), Underwater dam crack image generation based on unsupervised image-to-image translation, Automation in Construction, 163, 105430.
  12. Isola, P., Zhu, J. Y., Zhou, T., and Efros, A. A. (2017), Image-to-image translation with conditional adversarial networks, Proceedings of the IEEE conference on computer vision and pattern recognition, Honolulu, HI, USA, 1125-1134.
  13. Sushko, V., Schonfeld, E., Zhang, D., Gall, J., Schiele, B., and Khoreva, A. (2020), You only need adversarial supervision for semantic image synthesis, arXiv Preprint arXiv:2012.04781.
  14. Wang, T. C., Liu, M. Y., Zhu, J. Y., Tao, A., Kautz, J., and Catanzaro, B. (2018), High-resolution image synthesis and semantic manipulation with conditional gans, Proceedings of the IEEE conference on computer vision and pattern recognition, Salt Lake City, UT, USA, 8798-8807.
  15. Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. (2022), High-resolution image synthesis with latent diffusion models, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, New Orleans, LA, USA, 10684-10695.
  16. Shim, S., and Min, J. (2022), Semantic Segmentation for Multiple Concrete Damage Based on Hierarchical Learning, Journal of the Korea Institute for Structural Maintenance and Inspection, 26(6), 175-181 (in Korean).
  17. Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., and Chen, W. (2021), Lora: Low-rank adaptation of large language models, arXiv preprint arXiv:2106.09685.