초록
최근 이미지를 사용한 가상착용기술 (Virtual try-on: VTON)에 대한 일련의 연구들이 발표되었다. 이에 의상과 사용자 이미지를 사용한 대표적 방식 (SCMM 기반의 비-딥러닝 방식, 딥러닝 기반 VITON 과 CP-VITON)에 대해 인물의 자세 및 체형, 의상의 가려짐 정도, 의상의 특성 등에 따라 분석한 연구가 보고되었다. 본 논문에서는 이중 가장 좋은 성능을 보이는 CP-VTON의 문제점을 살펴보고 이에 따른 해결책을 제시한다. 구체적으로 대상인물의 분할 표현 문제, 교체 대상이 아닌 영역이 유지되지 못하는 문제, 합성 마스크 생성네트워크의 학습에 사용되는 비용함수 문제, 합성 네트워크의 마스크 문제를 지적하고 이를 개선하는 알고리즘을 제안하였다. 그 결과 SSIM 등에서 5%내외의 주관적으로는 상당한 개선을 보였다.
Recently, a series of studies on virtual try-on (VTON) using images have been published. A comparison study analyzed representative methods, SCMM-based non-deep learning method, deep learning based VITON and CP-VITON, using costumes and user images according to the posture and body type of the person, the degree of occlusion of the clothes, and the characteristics of the clothes. In this paper, we tackle the problems observed in the best performing CP-VTON. The issues tackled are the problem of segmentation of the subject, pixel generation of un-intended area, missing warped cloth mask and the cost function used in the learning, and limited the algorithm to improve it. The results show some improvement in SSIM, and significantly in subjective evaluation.