Abstract
One of the classic research problems in computer vision is that of stereo, i.e., the reconstruction of three dimensional shape from two or more images. This paper deals with the problem of extracting depth information of non-rigid dynamic 3D scenes from general 2D video sequences taken by monocular camera, such as movies, documentaries, and dramas. Depth of the blocks are extracted from the resultant block motions throughout following two steps: (i) calculation of global parameters concerned with camera translations and focal length using the locations of blocks and their motions, (ii) calculation of each block depth relative to average image depth using the global parameters and the location of the block and its motion, Both singular and non-singular cases are experimented with various video sequences. The resultant relative depths and ego-motion object shapes are virtually identical to human vision.
컴퓨터 비젼에 관한 고전적인 연구 주제들 중의 하나는 두 개 이상의 이미지로부터 3차원 형상을 재구성하는 3차원 변환에 관한 것이다. 본 논문은 단안 카메라로 촬영한 일반적인 2차원 영상물에서 능동적으로 움직이는 3차원 영상의 깊이 정보를 추출하는 문제를 다룬다. 연속하는 프레임들간의 영상 블록의 움직임을 평가하여 카메라의 회전과 배율효과를 보상하고 다음과 같은 두 개의 단계에 걸쳐 블록의 움직임을 추출한다. (i) 블록의 위치와 움직임을 이용하여 카메라의 이동과 초점거리에 대한 전역 파라메타를 계산한다. (ii) 전역 파라메타, 블록의 위치와 움직임을 이용하여 평균 영상 깊이에 대한 상대적인 블록의 깊이를 계산한다. 다양한 동영상을 대상으로 특이점인 경우와 그렇지 않은 경우를 실험하였다. 결과로 얻어지는 상대적인 깊이 정보와 객체는 인간이 판단하는 경우와 동일함을 보였다.