디지털포렌식연구 (Journal of Digital Forensics)
- 제13권1호
- /
- Pages.35-44
- /
- 2019
- /
- 1976-5304(pISSN)
- /
- 2713-931X(eISSN)
보이스피싱 음성 파일에 대한 법과학적 화자 분석 방법의 적용 사례
Application Example of Forensic Speaker Analysis Method for Voice-phishing Speech Files
초록
보이스피싱(Voice Phishing)은 목소리를 이용하여 상대방의 개인정보 등을 불법적으로 알아내어 피해자로부터 현금을 송금하게 하는 방식으로 이루어진다. 이러한 보이스피싱 피해액은 매년 꾸준히 증가하고 있어, 사회적으로 문제가 되고 있다. 이로 인해 최근 금융감독원은 피해자들로부터 보이스피싱 사기범들의 목소리를 수집하고 있다. 본 논문에서는 대량의 음성 파일 중 동일한 사람으로부터 발성된 목소리가 있는지에 대한 효율적인 법과학적 화자 분석 방법을 이용하여 실제 수집된 보이스피싱 음성 파일에 대해 적용하여 분석하였다. 먼저, 데이터베이스(DB)에 저장된 음성 파일에 대한 i-vector를 획득한 후, 전체 음성 파일에 대한 i-vector의 코사인 유사도 행렬을 생성하였다. 그리고 전체 파일의 i-vector에 대해 상호 유사도가 높은 후보군들에 대해 그룹핑함으로써 보이스피싱 파일에 대해 화자 분석을 수행하였다. 82명의 화자로 구성된 6,724개의 음성 파일에 대해 EER(Error Equal Rate) 측정 결과, GMM기반 화자 인식 방법보다 i-vector기반 화자 인식 방법의 EER이 개선되는 것이 확인되었다. 또한, 금융감독원에서 수집한 2,327개의 보이스피싱 신고 음성파일들을 상호 비교한 결과, 음성특징이 유사한 것으로 확인되는 화자 군집들이 일부 확인되는 것을 확인하였다.
The voice-phishing is done by inducing victims to send money, only with voice through the personal information illegally obtained. The amount of damage caused by voice-phishing continues to increase every year, and it became a social problem. Recently, the Financial Supervisory Service (i.e. the FSS) in Republic of Korea has been collecting the voices of voice-phishing scamer from victims. In this paper, we describe an effective forensic speaker analysis method for detecting the voice from the same person compared with the large-scale speech files stored in database(DB), and apply the aforementioned forensic speaker analysis method with the collected voice-phising speech files from victims. At first, an i-vector of each speech file had been extracted from the DB, then, the cosine similarity matrix for the all speech files had been generated through the cosine distance among the extracted the i-vectors of all speech file in DB. In other words, it performed the speaker analysis as grouping a set of candidates with high common similarity among i-vectors of all speech files in DB. As a result of EER(Error Equal Rate) measurement for 6,724 speech files composed of 82 speakers, it was confirmed that the EER of the i-vector-based method is improved than that of the GMM-based method. Finally, as a result of comparing the collected 2,327 voice-phishing speech files collected by the FSS, it was shown that some of the speech files having similar voice features were grouped each other.
키워드