DOI QR코드

DOI QR Code

Microphone Type Classification for Digital Audio Forgery Detection

디지털 오디오 위조검출을 위한 마이크로폰 타입 인식

  • Seok, Jongwon (Dept. of Information & Communication, Changwon National University)
  • Received : 2014.08.13
  • Accepted : 2014.11.25
  • Published : 2015.03.30

Abstract

In this paper we applied pattern recognition approach to detect audio forgery. Classification of the microphone types and models can help determining the authenticity of the recordings. Canonical correlation analysis was applied to extract feature for microphone classification. We utilized the linear dependence between two near-silence regions. To utilize the advantage of multi-feature based canonical correlation analysis, we selected three commonly used features to capture the temporal and spectral characteristics. Using three different microphones, we tested the usefulness of multi-feature based characteristics of canonical correlation analysis and compared the results with single feature based method. The performance of classification rate was carried out using the backpropagation neural network. Experimental results show the promise of canonical correlation features for microphone classification.

Keywords

1. 서 론

오늘날 인터넷과 같은 컴퓨터 망과 컴퓨터 이용의 급격한 발달로 인해 멀티미디어 데이터의 이용 및 보급이 일반화되었다. 그러나 이러한 멀티미디어 데이터들은 디지털이라는 속성으로 인하여 쉽게 복제되거나, 세련된 멀티미디어 처리 소프트웨어를 이용하여 손쉽게 조작 될 수 있게 되었다. 이러한 디지털 미디어의 손쉬운 변환과 재가공은 디지털 미디어의 무결성을 믿을 수 없게 되는 결과를 초래하게 되었다. 최근 들어, 이러한 문제의 해결책으로 디지털 미디어의 변조를 막을 수 있는 멀티미디어 변조 방지 기술 이 많은 주목을 끌고 있다[1-5].

지금까지 멀티미디어 위변조를 검출하는 많은 알고리즘들이 소개되었으나, 대부분 영상데이터에 대한 기술들이 대부분이었다. 현재까지 오디오에 대한 위변조 기술은 많이 연구되어 오지 못하였으며, 일부 몇몇 연구들에서만 오디오에 대한 위변조 검출 기술들이 소개되어 왔다.

Kraetzer[6]는 마이크로폰 타입 인식을 위해 통계적인 패턴인식 기법에 기반한 알고리즘을 제시하였다. Malik[7]은 오디오 녹음 시 포함된 반향(reverberation)의 양을 추정하는 기법을, Buchholz[8]는 묵음영역에서 푸리에 계수 히스토그램(Fourier coefficients histogram)을 특징벡터로 하여 녹음된 오디오 신호의 위변조 구간을 검출하는 방법을 제안하였다. Nicolalde[9]는 주파수 영역에서 스펙트랄 거리 (spectral distance)와 위상천이(phase shift)를 이용하는 방법을 활용하였다.

본 논문에서는 오디오 녹음에 이용된 마이크로폰 타입을 정준상관분석(canonical correlation analysis, CCA) 기법을 이용한 특징벡터를 이용하여 식별하는 새로운 방법을 제시한다. 녹음 시 사용된 마이크로폰 타입을 식별할 수 있게 되면, 녹음된 오디오의 위변조 여부를 검출하는데 많은 도움이 될 수 있다. CCA 기법을 이용하여, 묵음구간들 사이의 상관성을 검사하여 마이크로폰 특성의 공통성이 존재하는지 여부를 확인하게 된다. 또한 추출된 CCA 계수는 시간 또는 주파수 단일영역에서 추출하지 않고, 시간과 주파수 영역에서 3가지의 다른 특징을 이용하여 추출하였다. 추출된 CCA 계수는 오류 역전파 신경망(Backpropagation Neural Network, BPNN)의 입력으로 사용하여 마이크로폰 타입을 식별하였다.

본 논문의 구성은 다음과 같다. 2장에서는 CCA 기법을 위한 기본적인 수학모델에 대해 소개하고, 3 장에서는 묵음 구간을 검출을 방법과 검출된 묵음구간에서 특징벡터를 추출하는 과정을 설명한다. 4장에서는 실험조건 및 BPNN을 이용한 실험결과에 대해 소개하고, 5장에서 결론을 맺는다.

 

2. 정준상관분석(Canonical Correlation Analysis, CCA)

CCA는 Hotelling[10]에 의해 개발된 이래 다변량 통계분석 기법에 많이 활용되었다. CCA는 두 변수군 사이의 관계를 확인하고 정량화하기 위한 분석 기법이다. 즉, 한 집단에서의 변수들의 선형조합과 다른 집단에서의 변수들의 선형조합 사이의 상관관계에 초점을 둠으로써, 두 개의 변수집단 사이의 관련성의 강도를 나타내준다. CCA는 Fig. 1과 같이 두 변수군(sets of variables) 사이의 관계를 분석하는 다변량 분석 기법이다. 각 변수군은 여러 변수로 구성되었다.

Fig. 1.Canonical correlation analysis between two sets of variables.

2.1 정준상관분석의 수학적 모델

다수의 변수들로 구성된 두 변수벡터 X와 Y를 고려하자. 이때 두 변수군의 새로운 선형조합 Sx와 Sy를 식 (1) 및 (2)과 같이 정의한다. 즉 X와 Y를 Wx와 Wy 방향으로 투영시킨 새로운 축을 정의하게 된다.

새로운 선형조합인 Sx와 Sy에서 둘 사이의 상관 (correlation)이 최대가 되게 하는 Wx와 Wy를 구한다. Cxx와 Cyy는 각각 X와 Y의 분산(variance)에 해당하게 되고, Cxy는 X와 Y의 공분산(covariance)에 해당하게 된다.

식 (3)의 상관도를 최대가 되게 하려면 식 (4)와식 (5)의 조건을 모두 만족하여야 하고, 동시에 식 (6)을 최대화 하여야 한다.

Wx와 Wy에 대해 상관도가 최대가 되게 하기 위해 식 (7)과 같이 Lagrange multiplier를 적용한다.

Wx와 Wy에 대해 각각 미분하고 정리하면 식 (8)을 얻을 수 있다.

식 (10)에서 λy - λx = 0, 즉 λ=λx=λy이 된다. 이를 이용해 식 (8)에서 Wy를 구할 수 있다.

구해진 Wy를 식 (8)에 대입하면 식 (12)를 얻을수 있으며, 이는 일반화된 고유치 문제로 귀착되게 된다.

표준화된 고유치 문제로 변환하기 위해 촐레스키 분해(Cholesky decomposition)를 이용해 Cxx를 분해하고 라 두면, 최종적으로 표준화된 고유치 문제인 식 (14)을 얻을 수 있다.

 

3. 특징추출 과정

기본적인 사전 지식없이 녹음된 오디오로부터 마이크로폰 모델을 확인하여야 한다. 이를 위해 녹음된 오디오 신호에서 소리가 없는 묵음구간(near-silence region)만을 대상으로 하였다. 묵음구간은 소리가 존재하는 구간보다 녹음 시 주변 환경이나 마이크로폰의 특성을 더 잘 반영할 수 있기 때문이다.

3.1 묵음구간 검출

본 논문에서는 녹음된 오디오에서 묵음구간을 검출하기 위해 Mcauldy[11]가 제안한 음성검출 척도 (voicing measure)를 사용하였다. 이 방법은 주파수 영역에서 관측된 스펙트럼 크기가 주어지면, 음성구간이 존재할 조건부 확률을 이용한다.

주파수 영역에서 입력신호의 스펙트럼 S(k)는 기본적으로 H0과 H1의 두 가지 상태로 나누어지게 된다. H0는 음성이 존재하지 않는 묵음구간을 나타내며, H1은 음성이 존재하는 구간을 나타내게 된다. 이 방법에서 묵음구간은 평균이 0이고 분산이 λn(k)인 복소 가우시안(complex Gaussian) 잡음으로 간주된다. 이때 입력신호의 스펙트럼 S(k)에서 음성이 존재하는 구간의 조건부 확률은 식 (15)로 정의된다.

식(15)에서 I0는 영차(zero order)의 수정된 베셀 함수(Bessel function)이고, ζ(k) = S2(k) / λn(k)로 정의된다. 식 (15)로 정의된 조건부 확률 이용한 최종 묵음구간 검출은 식(16)으로 구해진다. 식 (16)에서 THRD는 묵음구간을 검출하기 위한 문턱치에 해당하기 위해, 묵음구간 검출 알고리즘을 이용해 검출된하고 실험을 통해 통계적으로 구해지게 된다.

3.2 특징 추출

CCA를 적용하기 위한 두 입력벡터 X = [x1,x2,...xN]와 Y = [y1,y2,...yN] 사이의 앙상블(ensemble)을 구성하기 위해, 묵음구간 검출 알고리즘을 이용해 검출된 묵음구간은 두 부분으로 나누어지게 된다. 일반적으로 오디오 신호의 처음 시작은 소리가 없는 묵음구간으로 간주된다. 이에 따라, 첫 번째 입력벡터 X는 녹음된 오디오 신호의 시작부분에 해당하는 몇 프레임에 해당한다. 본 논문에서는 한 프레임이 300샘플에 해당하는 초기 10 프레임을 입력벡터 X로 사용하였다. 묵음구간 검출을 통해 추출된 나머지 묵음구간은 입력벡터 Y에 해당하게 된다. Fig. 2는 CCA적용을 위한 두 입력벡터의 앙상블을 구성하는 예를 보여주고 있다.

Fig. 2.An example to build the ensembles for CCA.

두 입력벡터 X와 Y의 크기는 추출 될 특징들의 수와 길이에 따라 달라지게 된다. 만일 N과 M을 각각 추출될 특징벡터의 수와 특징벡터의 길이라고 하면, 입력벡터 X와 Y는 각각 N×M 크기의 행렬에 해당되게 되며, N개의 정준상관 계수(canonocal correlation coefficient)를 공유하게 된다.

위에서 언급한 바와 같이, CCA 기법은 두 변수군 사이의 상관을 측정하는 방법이다. 일반적인 상관분석은 단일 특징벡터 사이의 상관 정도를 하나의 스칼라 값으로 나타내게 된다. 이에 반해 CCA는 여러개의 특징들을 동시에 사용하여 여러 특징들 사이의 상관을 동시에 구할 수 있는 장점을 가지게 된다. 본 논문에서는 시간영역과 주파수영역에서의 특성을 동시에 반영하기 위해 일반적으로 많이 사용하는 3 가지의 특징을 선정하였다. 선정된 3가지 특징은 선형예측부호화(linear predictive coding, LPC) 계수, 시간영역에서의 에너지 분포 그리고 주파수 영역에서의 에너지분포 이다. 시간영역에서의 에너지 분포는 입력된 프레임을 M개의 균일한 영역으로 분할한 다음 각 영역에서의 에너지를 구하였다. 비슷한 방법으로, 주파수영역에서의 에너지 분포 역시 입력 신호의 주파수 스펙트럼을 구한다음 이를 M개의 균일한 영역으로 분할한 다음 각 영역에서의 에너지를 구하였다. 마지막으로 LPC계수는 입력 프레임을 대상으로 LPC분석을 통해 M차의 LPC계수를 추출하였다. Fig. 3은 입력신호를 대상으로 한 특징추출과정을 보여주고 있다.

Fig. 3.Block diagram of feature extraction procedure.

 

4. 실험 결과

CCA를 이용한 마이크로폰 식별을 위해 총 3종류의 마이크로폰을 준비하였다. 준비된 마이크로폰은 각기 다른 회사에서 만들어진 일반적으로 많이 사용하는 콘덴서(condenser) 및 다이나믹(dynamic) 타입의 제품으로 구성하였다. 3 종류 중에서 2종류는 콘덴서 타입이며, 1종류의 다이나믹 타입이다. 실험에 사용된 마이크로폰은 Table 1에 나타나 있다.

Table 1.The microphone used in the experiment

오디오 신호는 같은 컴퓨터와 스피커를 통해 동일한 조건으로 녹음되었고, 마이크로폰과 스피커의 위치도 각 실험마다 동일한 조건이 되도록 고정하였다. 녹음된 오디오는 조용한 실험실 환경에서 스피커를 통해 소리가 나오도록 하였고, 이를 컴퓨터를 이용해 녹음하였다. 준비된 오디오 신호는 5명의 남성화자와 5명의 여성화자에 의해 녹음된 총 10개의 음성데이터가 사용되었다. 녹음된 오디오 데이터는 5초의 길이가 되도록 녹음하였으며, 44.1 kHz 샘플링 레이트와 16 bits 해상도를 가지도록 하였다. 실험에 사용된 마이크로폰은 제품의 특성상 각기 다른 민감도 (sensitivity)를 가지게 되므로, 녹음 후에 오디오 신호는 정규화(normalization)을 거쳐 같은 크기 조건을 가지도록 하였다. 녹음에 관련된 상세한 실험조건은 Table 2에 나타나 있다. Fig. 4는 3종류의 마이크로폰으로 녹음된 오디오 파일에서 추출된 묵음구간의 주파수 스펙트럼을 보여주고 있다. Fig. 4에서도 확인할 수 있듯이, 주파수 영역에서 묵음구간은 비슷한 형태를 보이며 차이를 구별하기 힘들다.

Table 2.Experimental condition for audio recording

Fig. 4.An example of spectrum for near-silence region. (a) AKG CK 98 condenser type, (b) VASCOM DM 545 condenser type (c) VASCOM CM 636 dynamic type.

실험에서 묵음구간에 해당하는 두 입력벡터 X와 Y를 구성하기 위해, 묵음구간은 300 샘플의 크기의 프레임(frame) 사이즈를 가지도록 분할되었으며, 150 샘플씩 오버랩(overlap) 되도록 하였다.

우선, 입력벡터 X는 오디오 시작 10 프레임에서 각각 30차수의 LPC 계수, 시간영역에서의 에너지 분포 그리고 주파수 영역에서의 에너지 분포를 추출한 다음, 이를 평균하였다. 입력벡터 Y 역시, 나머지 묵음구간 프레임에서 같은 방법으로 매 프레임 마다 30차수의 LPC 계수, 시간영역에서의 에너지 분포 그리고 주파수 영역에서의 에너지 분포를 추출하였다. 결과적으로 CCA 적용을 위한 입력 벡터 X와 Y는 3×30 크기의 행렬을 가지게 되며, 3개의 정준상관 계수를 공유하게 된다. Fig. 5는 CCA 기법 적용을 위한 전체적인 과정을 보여 주고 있다.

Fig. 5.Block diagram of overall procedure.

Fig. 6은 첫 번째와 두 번째 정준상관 계수를 이용한 산개도(scatter plot)와 두 번째와 세 번째 정준상관 계수를 이용한 산개도 각각 보여주고 있다. Fig. 6에서도 확인 할 수 있듯이 각 마이크로폰에서 추출된 정준상관 계수들은 마이크로폰 타입에 따라 그룹 형태로 분포하고 있으며, 차지하고 있는 영역 또한 구분이 가능한 다른 영역들이 분포하고 있다.

Fig. 6.Scatter plot of canonical correlation coefficients. (a) 1st and 2nd correlation coefficients, (b) 2nd and 3rd correlation coefficients. (b) 2nd and 3rd correlation coefficients.

성능 비교를 위해, 제안된 3가지 특징을 사용하는 방식을 단일 특징을 사용하였을 경우와 비교하였다. 단일 특징을 사용하기 위해 30 차수의 주파수 영역에서의 에너지 분포를 사용하였다. 입력 프레임은 600 points의 FFT를 이용하여 주파수 스펙트럼을 구했다. 이에 따라 입력 벡터 X와 Y는 10×30크기의 행렬을 가지게 되며, 10개의 정준상관 계수를 공유하게 된다. Fig. 7은 단일 특징을 사용을 경우에 첫 번째와 두 번째 정준상관 계수를 이용한 산개도(scatter plot)를 보여주고 있다. Fig. 7에서 확인 할 수 있듯이 추출된 계수들은 비슷한 영역에 집중적으로 분포하여 구별이 불가능함을 확인할 수 있다.

Fig. 7.Scatter plot of canonical correlation coefficients with spectrum based single feature vector.

각각의 방식에서 추출된 정준상관 계수들의 식별 성능을 검증하기 위해, BPNN 인식기를 이용하여 인식실험을 수행하였다. 전체 오디오 데이터에서 묵음 구간을 추출한 다음, 추출된 묵음구간에서 정준상관 계수를 추출하였다. 추출된 전체 묵음구간에서 50% 는 훈련에 사용하였고, 나머지 50%는 테스트에 사용 하였다. 사용된 BPNN인식기는 3개의 입력노드, 12개의 노드를 가지는 은닉층, 그리고 3개의 출력노드를 가지도록 구성되었다. 훈련에서 최대 반복횟수 (Iteration)는 10000번으로 제한하였고, 오류률(error rate)은 0.0001로 설정하였다. 실제 실험결과 최대 반복횟수에 도달하기 전에 설정된 오류률에 도달하여 훈련을 끝낼 수 있었다. Table 3은 인식결과를 혼동 행렬(confusion matrix)로 보여주고 있다.

Table 3.Confusion matrix for classification results

 

5. 결 론

본 논문에서는 오디오 녹음에 이용된 마이크로폰 타입을 CCA 기법을 이용한 특징벡터를 이용하여 식별하는 새로운 방법을 제안 하였다. 녹음 시 사용된 마이크로폰 타입을 식별할 수 있게 되면, 녹음된 오디오의 위변조 여부를 검출하는데 많은 도움이 될 수 있다. CCA 기법을 이용하여, 묵음구간들 사이의 상관성을 검사하여 마이크로폰 특성의 공통성이 존재하는지 여부를 확인하였다. 또한 추출된 CCA 계수는 시간 또는 주파수 단일영역에서 추출하지 않고, 시간과 주파수 영역에서 3가지의 다른 특징을 이용하여 추출하도록 하였다. 추출된 CCA 계수는 BPNN 인식기를 이용하여 마이크로폰 타입을 식별하였다.

실험결과, 제안된 방법이 마이크로폰 타입 식별에 매우 효과적 이라는 것을 확인 할 수 있었다. 향후, 다양한 환경에서 더 많은 종류의 마이크폰을 사용한 추가적인 실험을 수행할 계획이다. 또한 본 논문에 제안된 특징벡터 이외의 다양한 특징벡터 추출방법에 대해서도 추가적인 연구가 필요하다고 판단된다.

References

  1. H. Farid, “A Survey of Image Forgery Detection,” IEEE Signal Processing Magazine, Vol. 2, No. 26, pp. 16-25, 2009. https://doi.org/10.1109/MSP.2008.931079
  2. H. Farid and S. Lyu, “Higher-order Wavelet Statistics and Their Application to Digital Forensics,” Proceeding of IEEE Workshop on Statistical Analysis in Computer Vision, pp. 94-101, 2003.
  3. S. Lyu and H. Farid, “How Realistic is Photorealistic?,” IEEE Transactions on Signal Processing, Vol. 53, No. 2, pp. 845-850, 2005. https://doi.org/10.1109/TSP.2004.839896
  4. J. W. Bae, S. J. Lee, and S. H. Jung, "LPM-Based Digital Watermarking for Forgery Protection in Printed Materials," Journal of Korea Multimedia Society, Vol. 8, No. 11, pp. 1510-1519, 2005.
  5. S. Lyu and H. Farid, "Steganalysis using Higher-Order Image Statistics," IEEE Transactions on Information Forensics and Security, Vol. 1, No. 1, pp. 111-119, 2006. https://doi.org/10.1109/TIFS.2005.863485
  6. C. Kraetzer, A. Oermann, J. Dittmann, and A. Lang, “Digital Audio Forensics: A First Practical Evaluation on Microphone and Environment Classification,” Proceeding of the 9th Workshop on Multimedia and Security, pp. 63-74, 2007.
  7. H. Malik and H. Farid, "Audio Forensics from Acoustic Reverberation," Proceeing of IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 1710-1713, 2010.
  8. R. Buchholz, C. Kraetzer, and J. Dittmann, “Microphone Classification using Fourier Coefficients,” Information H iding Lecture Notes in Computer Science, Vol. 5806, pp. 235-246, 2009. https://doi.org/10.1007/978-3-642-04431-1_17
  9. D.P. Nicolalde and J.A. Apolinario, “Evaluating Digital Audio Authenticity with Spectral Distances and ENF Phase Change,” Proceeding of IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 1417-1420, 2009.
  10. H. Hotelling, "Relations Between Two Sets of Variables," Biometrika, Vol. 28, No, 3, pp. 321-377, 1936. https://doi.org/10.1093/biomet/28.3-4.321
  11. R.J. Mcauldy and M.L. Malpass, “Speech Enhancement using a Soft-decision Noise Suppression Filter,” IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 28, No. 2, pp. 137-145, 1980. https://doi.org/10.1109/TASSP.1980.1163394