참고문헌
- Lukas Hoyer, et.al "SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language Guidance", ECCV24, 2024
- Feng Liang, et.al "Open-vocabulary semantic segmentation with mask-adapted clip". In CVPR, pages 7061-7070, 2023
DOI QR Code
SemiVL(Semi-Supervised Semantic Segmentation with Vision-Language Guidance) 모델은 자원이 제한된 환경에서도 높은 이미지 분할 성능을 발휘하는 준지도 학습 기반의 시맨틱 세그멘테이션 모델이다. 본 논문은 PyTorch 프레임워크에서 TorchScript 프레임워크로 변환된 SemiVL 모델을 임베디드 시스템 환경(Google Pixel 2)에 적용하여 온디바이스 AI를 구현한 연구이다. 목표는 데스크톱 GPU 환경과 유사한 추론 성능을 달성하는 것이었다. 성능 평가는 Pascal VOC 데이터셋을 사용하였으며, mIoU(mean Intersection over Union)와 추론 시간을 주요 지표로 측정하였다. 실험 결과, TorchScript로 변환된 SemiVL 모델은 데스크톱 PC에서 77.5%의 mIoU와 6438.99ms의 추론 시간을 기록하였고, Google Pixel 2에서는 62.8%의 mIoU와 6658.45ms의 추론 시간을 달성하였다. 이 결과는 임베디드 시스템 환경에서 SemiVL 모델이 온디바이스 AI 솔루션으로 활용될 수 있음을 보여준다.