DOI QR코드

DOI QR Code

Frame-level Matching for Near Duplicate Videos Using Binary Frame Descriptor

이진 프레임 기술자를 이용한 유사중복 동영상 프레임 단위 정합

  • 김경래 (고려대학교 전기전자공학부) ;
  • 이준태 (고려대학교 전기전자공학부) ;
  • 장원동 (고려대학교 전기전자공학부) ;
  • 김창수 (고려대학교 전기전자공학부)
  • Received : 2015.05.22
  • Accepted : 2015.07.14
  • Published : 2015.07.30

Abstract

In this paper, we propose a precise frame-level near-duplicate video matching algorithm. First, a binary frame descriptor for near-duplicate video matching is proposed. The binary frame descriptor divides a frame into patches and represent the relations between patches in bits. Seconds, we formulate a cost function for the matching, composed of matching costs and compensatory costs. Then, we roughly determine initial matchings and refine the matchings iteratively to minimize the cost function. Experimental results demonstrate that the proposed algorithm provides efficient performance for frame-level near duplicate video matching.

본 논문에서는 이진 프레임 기술자와 이를 이용한 프레임 단위 유사중복 동영상 정합 알고리즘을 제안한다. 우선 동영상으로부터 취득한 프레임을 패치(patch)단위로 나누고 패치간의 관계를 이진으로 나타낸다. 그리고 두 동영상 프레임 간의 정합비용과 보상비용으로 비용 함수를 표현한다. 초기 정합과 반복적인 정합 갱신을 통해 비용 함수를 최소화한다. 실험을 통해 제안하는 이진 프레임 기술자의 적합성과 프레임 단위 정합 알고리즘 성능이 우수함을 확인한다.

Keywords

Ⅰ. 서 론

최근 YouTube같은 동영상 공유 사이트가 대중화 되면서 온라인상의 동영상 수가 급격히 증가하고 있다. 특히 자막 삽입, 밝기 및 해상도 변화 등의 재생산을 통해 공유되는 다수의 유사중복 동영상들은 잉여 정보를 제공하여 동영상 검색 및 관리의 효율성을 저하시킨다. 동영상 자체를 기술자로 나타내어 유사중복 동영상 검출을 하는 시도들이 있다[1,2]. 하지만 동영상 단위 기술자는 동영상의 시간적 관계를 무시하기 때문에 여러 단편으로 엮인 동영상에 대해 취약점이 있다. 따라서 동영상의 중복 여부를 보다 정밀하게 판별하기 위해 실제로 중복된 구간을 검출할 필요가 있다.

본 논문에서는 유사중복 동영상 검출에 적합한 이진 프레임 기술자와 반복적인 정합 갱신을 통한 유사중복 동영상의 프레임 단위 정합 알고리즘을 제안한다.

 

Ⅱ. 관련 연구

본 장에서는 대표적인 기존 기법에 대해 간단히 설명한다. Chen 등[3]은 추출된 키 프레임들과 그것들의 유사성을 기반으로 그래프를 구성하고 서로 강하게 연결된 부분그래프를 추출함으로써 유사중복 구간을 찾아낸다. Chiu 등[4]은 두 동영상의 프레임들 간의 유사행렬에 허프 변환을 적용하여 유사중복 부분 시퀀스를 검출한다. 그러나 이 기법들[3,4]은 오직 유사중복 구간의 유무만을 결정한다. 반면에 다이나믹 프로그래밍(dynamic programming)을 기반으로 최적화 문제를 해결함으로써 더욱 정밀한 프레임 단위의 정합을 가능하게 하는 기법들도 연구되고 있다[5-7]. 하지만 높은 연산량과 많은 메모리 공간을 요구하는 단점이 있다.

 

Ⅲ. 이진 프레임 기술자

본 연구에서는 프레임 단위 유사중복 동영상 정합에 효율적인 프레임 기술자를 제안한다.

빈번하게 일어나는 유사중복 유형 중 하나인 좌우 반전 동영상에 강인하게하기 위해 전처리 과정을 적용한다. 프레임을 수직으로 이등분하여 왼쪽과 오른쪽 영역의 평균 휘도를 ηL와 ηR으로 나타낸다. 만약 ηR이 ηL보다 큰 값을 가질 경우, 프레임을 좌우로 반전하여 나타낸다.

전처리과정 후, 그림 1와 같이 프레임을 4×4패치로 나누고 각 패치들의 평균 휘도를 계산한다. ηi가 패치 i의 평균 휘도 값을 나타낼 때, 비트(bit) 값 Bij는 다음과 같다.

그림 1.프레임 4x4 패치단위 분할과 그 패치들의 평균 휘도 값 Fig. 1. division of a frame into 4x4 patches and the average luminances of those patches

가능한 모든 패치 쌍 N={(1,2),(1,3),...,(15,16)}에 대해 비트 값 Bij을 계산하여 120=16C2차원을 갖는 이진 프레임 기술자 B={Bij:(i,j)∈N}을 계산한다.

두 프레임 x, y의 이진 기술자를 B(x)와 B(y)로 나타냈을 때, x와 y 간의 유사성은 해밍거리를 계산함으로써 로 나타낸다. 여기에서 ⊗는 배타적 논리합(exclusive or) 연산자를 나타낸다.

제안하는 이진 프레임 기술자는 패치의 휘도 값인 지역 정보로부터 추출된 전역 프레임 기술자로서, 특히 검출하기 어려운 톤 및 밝기, 색상 변화 등의 다양한 유사중복 유형에 강인하다.

 

Ⅳ. 프레임 정합

본 연구에서는 두 유사중복 동영상에서 추출한 프레임 시퀀스 간의 정밀한 프레임 단위 정합을 한다. 연산량을 줄이기 위해 각 동영상으로부터 균일하게 초당 1개의 프레임을 추출한다. 동영상 X와 Y에서 추출된 프레임 집합을 각각 X={x1,x2,...,xM}와 Y={y1,y2,...,yN}으로 나타낸다.

제안하는 기법은 최적화 문제를 정의하고 풀어냄으로써 두 시퀀스 간의 대응하는 정합을 구할 수 있다. 다이나믹 프로그래밍을 이용한 기법들[5-7]은 전역 최적화 해결방법이지만 많은 계산량과 메모리를 요구한다. 본 연구에선 초기 정합을 실시한 후 반복적인 정합 갱신을 통해 연산량을 줄이면서 효과적으로 정합비용 함수를 최소화한다.

1. 최적화 문제

본 연구에서는 최적화 문제를 정의한다. 프레임 집합 X에 속한 프레임 xm에 대응하는 프레임이 yn∈Y일 때 정합 함수는 λ(m)는 n의 값을 갖는다. 즉, 다음과 같은 관계식을 갖는다.

최적화된 정합 함수 λ*는 아래의 비용 함수를 최소화함으로써 구할 수 있다.

여기서 d(m,λ(m))은 정합비용, dc(m)은 보상비용을 나타낸다. 정합비용은 프레임 xm과 yλ(m)의 이진 기술자 간의 해밍거리 dH(B(xm),B(yλ(m)))을 통해 계산한다.

정합비용 합의 최소화만을 고려하면 전부 정합이 되지 않도록 최적화 되므로 정합되지 않는 프레임에 보상비용 dc(m)을 부여한다. 최적화된 정합 함수 λ*에서 정합비용이 보상비용보다 작은 프레임쌍만 정합한다. 유사중복 유형에 따라 프레임 정합비용이 상이하기 때문에 다른 값을 갖도록 적응적으로 보상비용을 결정한다. 프레임 xm와 Y의 모든 프레임간의 정합비용 집합 Dm={d(m,1),...,d(m,N)}을 계산한다. Dm을 오름차순으로 정렬하고 정렬된 색인을 a1,...,aN으로 나타낸다. 정렬된 비용 간 차이 값이 가장 큰 위치의 색인 δ*=argmaxδ∈{2,...,N}(d(m,aδ)-d(m,aδ-1)을 찾는다. 차이 값이 가장 큰 두 정합비용의 평균이 프레임 xm의 보상비용 dc(m)이 된다.

2. 프레임 단위 정합 알고리즘

초기 정합을 통해 대표 정합 벡터 α*를 결정하고 이를 기준으로 반복적인 정합 갱신을 통해 최적화 문제를 해결한다. 입력 받은 두 동영상의 프레임 간의 모든 정합비용을 계산한다. 대응되는 프레임 간의 정합비용이 다른 프레임과의 정합비용보다 작은 값을 가질 확률이 높으므로 각 프레임 마다 최저 정합비용을 갖는 프레임과 정합하여 다음과 같이 초기 정합 함수를 얻는다.

λInit로부터 정합 벡터 αm=λInit(m)-m을 계산한다. 정합 벡터에 대한 히스토그램이 h(αm)일 때, 가장 빈번한 정합 벡터를 대표 정합 벡터 α*=argmaxαmh(αm)로 나타낸다. 아래와 같이 정합 벡터 αm가 α*-1보다 작거나 α*+1보다 큰 경우 잡음으로 판단하여 정합을 제거함으로써 초기 정합 함수 λ′Init를 완성한다.

λ′Init(m)가 0의 값을 갖는 프레임을 기준으로 정합 갱신을 실시한다. α*-1보다 같거나 크고 α*+1보다 같거나 작은 정합 벡터를 갖는 정합 중에 정합비용 d(m,n)을 최소화하는 프레임 yn*을 아래 식과 같이 찾는다.

앞서 언급했듯이, 식(3)의 비용함수를 최소화하기 위해 해당 되는 정합비용 d(m,n*)이 보상비용 dc(m)보다 클 경우 정합하지 않는다. 정합 갱신은 다음과 같은 관계식을 갖는다.

정합 함수가 0의값을 갖는 모든프레임에대해 정합 갱신을 실시한다. 새로운정합이생기지 않을 때까지정합갱신을 반복적으로 수행하여 최적화된 정합 함수 λ*를 결정한다.

 

Ⅴ. 실험 결과

본 논문에서는 제안하는 이진 프레임 기술자가 유사중복 동영상 정합에 적합한지 확인하고 프레임 단위 정합 알고리즘의 성능 확인을 위한 실험 결과를 제시한다. 실험의 신뢰도를 높이기 위해 자막 및 로고 삽입, 색상 및 밝기 변화, 화질 변화 등 여러 종류의 유사중복 동영상을 동영상 공유 웹사이트인 YouTube, Vimeo, Soku로부터 직접 수집했다. 실험 데이터 동영상들의 평균 길이는 약 3분이고, 320×240에서 640×480까지 다양한 해상도로 구성되어있다.

모든 동영상에 전처리 과정으로 흔한 유사중복 유형 중 하나인 보더를 제거한다. 동영상 전반에 걸쳐 값의 변화가 거의 없는 화소는 보더에 속한다고 판단하고 제거한다.

1. 이진 프레임 기술자

제안하는 이진 프레임 기술자 평가를 위해 테스트 셋 100개를 구성했다. 한 개의 테스트 셋은 유사중복 동영상 5개로부터 추출된 100개의 프레임으로 구성되어 있어, 총 10,000개의 프레임을 실험에 사용했다. 문턱 값을 조정해가며 프레임 간의 정합을 통해 정확도와 재현율을 계산한다. 프레임 간의 정합 비용이 문턱 값보다 낮으면 유사중복 프레임으로 판단한다. 제안하는 기술자와 Yeh와 Cheng[7]의 전역 기술자와 색 히스토그램을 비교하여 성능을 평가하였다. RGB 각 채널을 16단계로 양자화하고 일렬로 연결하여 48차원의 색 히스토그램을 생성한다.

그림 2는 정확도-재현율 커브를 통해 세 개의 기술자를 비교하고 있다. 제안 기법이 기존 기법들보다 유사중복 프레임을 구별하는데 있어서 확연히 좋은 성능을 보인다.

그림 2.문턱값 변화에 따른 정확도-재현율 커브 Fig 2. Precision-recall curves with threshold adjustments

2. 프레임 단위 정합 성능

본 장에서는 프레임 단위 정합 성능을 측정하기 위해 500쌍의 유사중복 동영상을 실험 데이터로 사용했다. 두 동영상 간의 실제 중복 구간과 제안하는 알고리즘 결과를 비교하여 정확도와 재현율을 측정한다. 또한 500쌍 동영상 정합 평균 수행 시간을 측정하여 계산 복잡도를 측정한다.

제안하는 알고리즘과 다이나믹 프로그래밍을 통한 전역 최적화 문제 해결 방법[5]을 비교한다. 표 1은 정확도와 재현율, 평균 수행 시간을 비교하고 있다. 제안하는 알고리즘이 다이나믹 프로그래밍과 비교하여 확연히 적은 계산량으로 대등한 성능을 보여주고 있다. 표 2는 장르별 프레임 정합 성능을 나타내고 있다. 제안하는 알고리즘이 다양한 장르의 동영상에서 골고루 좋은 성능을 내고 있으며, 비교 알고리즘보다 대등하거나 더 좋은 성능을 나타내고 있다.

표 1.프레임 단위 정합 성능 비교 Table 1. Comparison of frame matching performance

표 2.장르별 정합 성능 비교 Table 2. Comparison of matching performance by genre

 

Ⅵ. 결 론

본 논문에서는 유사중복 동영상 간의 프레임 단위 정합을 통해 정밀한 중복구간 검출 기법을 제안하였다. 동영상으로부터 추출된 프레임을 이진 프레임 기술자로 표현하고 프레임 시퀀스 간의 관계를 비용 함수로 표현한다. 초기 정합을 실시하고 반복적인 정합 갱신을 통해 최적화 문제를 해결한다. 실험 결과에서는 이진 프레임 기술자가 기존 방법[7]보다 유사중복 동영상 정합에 효과적인 것을 보였고, 제안하는 정합 알고리즘이 전역 최적화 기법과 비교하여 낮은 계산량을 요구하면서 대등한 성능을 나타냈다.

References

  1. S. Hu, "Efficient video retrieval by locality sensitive hashing," in Proc. IEEE ICASSP, 2005, vol. 2, pp. 449-452.
  2. H. J´egou, M. Douze, and C. Schmid, "Improving bag-offeatures for large scale image search," Int. J. Comput. Vis., vol. 87, no. 3, pp. 316-336, 2010. https://doi.org/10.1007/s11263-009-0285-2
  3. T. Chen, S. Jiang, L. Chu, and Q. Huang, "Detection and location of near-duplicate video sub-clips by finding dense subgraphs," in Proc. ACM Multimedia, Nov. 2011, pp. 1173-1176.
  4. C.-Y. Chiu, T.-H. Tsai, Y.-C. Liou, G.-W. Han, and H.-S. Chang, "Near-duplicate subsequence matching between the continuous stream and large video dataset," IEEE Trans. Multimedia, vol. 16, no. 7, pp. 1952-1962, Nov. 2014. https://doi.org/10.1109/TMM.2014.2342668
  5. Y.-Y. Lee, C.-S. Kim, and S.-U. Lee, "Video frame-matching algorithm using dynamic programming," J. Electron. Imaging, vol. 18, no. 1, pp. 1-3, Mar. 2009. https://doi.org/10.1117/1.3092367
  6. M.-C. Yeh and K.-T. Cheng, "Video copy detection by fast sequence matching," in Proc. ACM CIVR, July 2009, pp. 45:1-45:7.
  7. M.-C. Yeh and K.-T. Cheng, "A compact, effective descriptor for video copy detection," in Proc. ACM Multimedia, Oct. 2009, pp. 633-636.