Abstract
For content-based video indexing and retrieval, it is necessary to segment video data into video shots and then select key frames or representative frames for each shot. However, it is very difficult to select key frames automatically because the task of selecting meaningful frames is quite subjective. In this paper, we propose a new approach in selecting key frames based on visual contents such as region information and their temporal variations in the shot. First of all, we classify video shots into panning shots, zooming shots, tilting shots or no camera motion shots by detecting camera motion information in video shots. Then, in each category, we apply appropriate fuzzy rules to select key frames based on meaningful content in frame. Finally, we control the number of key frames in the selection process by adjusting the degree of detail in representing video shots.
내용 기반의 비디오 인덱싱 및 검색을 위해서는 비디오 데이타를 셧(shot)으로 분할하고, 또 각 셧을 나타내는 대표 프레임을 선택하는 것이 필요하다. 하지만, 대표 프레임을 선택하는 것은 주관적이어서 일관되게 자동적으로 대표 프레임을 선택하는 것은 쉬운 문제가 아니다. 본 논문에서는 각 프레임에서의 영역을 바탕으로한 컨텐트 정보 및 시간 축 상의 변화를 이용하여 계층적으로 대표 프레임을 선택하는 방법을 제안한다. 먼저, 비디오 셧에서 카메라 모션을 검출하여 이에 따라 비디오 셧을 분류한다. 다음, 분류된 비디오 셧에 컨텐트의 중요도를 계산하기 위한 퍼지 규칙을 적용하여 대표 프레임을 선택한다. 끝으로, 선택되는 대표 프레임의 수는 브라우징 상세도(detailness)에 따라 계층적으로 선택되게끔 한다.