DOI QR코드

DOI QR Code

A Study on the Verification of Re-Identifiability of Voice Unstructured Data

음성 비정형데이터 재식별 가능성 검증에 관한 연구

  • Received : 2024.12.13
  • Accepted : 2024.12.27
  • Published : 2025.02.28

Abstract

The rise of big data has underscored the need for data protection. Voice data, a form of unstructured data, is particularly sensitive as it can reveal personal identities on its own or in combination with other data, heightening speaker identification risks. To address this, anonymizing voice data has become essential. However, even anonymized speech may be vulnerable to re-identification under certain conditions. This study proposes a framework for evaluating the re-identification risk of anonymized speech and determining optimal anonymization parameters. This approach seeks to balance privacy protection and data utility, providing guidelines for the safe use of voice data in the information society.

빅데이터 시대의 도래는 데이터 보호의 중요성을 한층 강조하게 되었다. 특히 음성 데이터는 비정형 데이터로서 그 자체로도 개인이 식별될 가능성이 있으며, 다른 데이터와 결합될 경우 화자 식별의 위험성이 더욱 높아질 수 있다. 이러한 배경에서 개인정보보호를 위한 음성 데이터의 익명화는 필수적인 접근 방식이 되었다. 그러나, 음성 데이터를 익명화하여 사용하더라도 음성 복원을 통한 재식별 가능성을 완벽하게 배제할 수는 없으며, 특정한 상황에서는 익명화된 음성이 다시 화자를 식별할 수 있는 가능성을 내포할 수 있다. 본 연구는 이러한 재식별 위험성을 최소화하기 위하여 익명화된 음성의 재식별 가능성을 평가하고, 이를 바탕으로 적절한 익명화 파라미터값을 도출하는 프레임워크를 제안한다. 이를 통해 정보화 사회에서의 안전한 음성 데이터의 사용을 보장하면서도 데이터의 유용성을 유지할 수 있는 기준을 제공하고자 한다.

Keywords

I. 서론

음성 인식 및 생성 기술의 발전으로 다양한 분야에서 음성 데이터가 널리 활용됨에 따라 프라이버시 침해에 대한 우려도 커지고 있다[1]. 전 세계 스마트 스피커 사용자의 45%가 음성 데이터와 관련된 개인정보 노출 문제를 우려하고 있으며[2], 실제로 음성 데이터에는 발화 내용뿐만 아니라 억양, 음정, 리듬 등 고유 특성이 포함되어 있어 개인정보 노출 가능성이 높다[3]. 음성 데이터 보호를 위해 다양한 음성 익명화 기술이 개발되고 있으나, 단순 음성 익명화만으로는 재식별 위험에서 완전히 자유롭지 못하다. 일례로, LibriSpeech를 기반으로 한 연구에서는 익명화된 음성이라도 원래 화자와 높은 확률로 연관 지을 수 있었다[4]. 따라서 음성 데이터를 효과적으로 보호하기 위해서는 단순히 익명화를 넘어, 익명화된 데이터가 원본 화자와 연관되지 않도록 재식별 위험을 최소화해야 한다.

본 연구는 다양한 음성 변형 알고리즘의 성능을 평가하여 음성 익명화 시 재식별 위험을 최소화할 수 있는 최적의 익명화 알고리즘 설정을 찾아내는 프레임워크를 제안하고자 한다. 다양한 알고리즘과 파라미터 조합을 테스트하고 재식별 위험을 평가하였다. 특히 기존 연구들과 달리, 한국어와 영어 간의 언어적 차이와 남성 및 여성 화자의 음성 특성을 함께 고려하여, 익명화 알고리즘이 화자 특성에 따라 받는 영향을 분석하였다. 이 연구를 통해 익명화 알고리즘이 화자 특성에 따라 받는 영향을 분석하며, 음성 데이터 프라이버시 보호를 위한 구체적이고 실용적인 기준을 제공할 수 있을 것으로 기대된다.

II. 관련 연구

Voice Privacy Challenge에서는 공격자가 익명화된 음성에서 화자를 식별하려고 하는 시나리오를 고려하며, 발화 내 화자의 신원을 숨기는 비식별 모델을 개발하고 있다[5]. 음성은 화자의 민감한 정보를 담고 있으며, 이는 음성 복제나 스푸핑 등 악의적인 목적으로 쉽게 악용될 수 있다[6]. 이러한 위험을 방지하기 위해 음성을 익명화하여 원래 화자와의 연결성을 제거하려는 연구가 진행되고 있다[7]. 음성 익명화 기술에 대해 공격자의 다양한 수준을 기반으로 평가한 연구는 VC 기술을 활용한 화자 신원 보호를 시도했으며, 공격자 유형에 따른 음성 익명화의 효과를 분석했다[3]. 이러한 연구는 높은 익명화 수준에도 공격자의 지식에 따라 익명화 알고리즘 효과가 다르게 작동할 수 있다는 점을 강조하며, 다양한 알고리즘을 결합한 복합적인 익명화 방법이 필요함을 시사한다[11]. 이러한 연구는 실제 공격 시나리오에서 기존 음성 익명화 기술을 평가하기 위한 시도를 하였으나, 특정 파라미터 설정에 따른 재식별화 성능 차이를 분석하는 데는 한계가 있었다.

본 연구는 다양한 음성 익명화 방법과 그에 따른 파라미터 최적화 및 재식별화 성능 평가에 중점을 둔다. Voice Privacy 2022 Challenge에서는 음성 변환 기술을 사용해 익명화 방법을 평가하였으며, 주로 주파수 변형 및 x-vector 기반의 화자 식별 방지 기법을 사용하여 각 알고리즘의 성능을 WER과 EER로 평가하였다[6]. 그러나 이 연구는 각 방법에 따른 세부 파라미터 최적화 연구가 부족하다는 한계가 있다. 본 연구에서는 이러한 한계를 보완하기 위해 네 가지 익명화 알고리즘을 선정하였으며 다양한 파라미터 값을 적용하고 최적의 파라미터 설정을 찾는다. 익명화된 음성 데이터를 재식별할 수 없는 수준으로 보호하면서도 음성의 명확성과 자연스러움을 유지할 수 있는 최적의 방법을 제시한다. 또한, 이를 통해 기존 연구들이 제시하지 못했던 구체적인 파라미터 최적화 방안을 도출하고, 음성 개인정보 보호에 실질적으로 기여할 수 있는 결과를 제시할 것으로 기대된다.

III. 방법론

3.1 데이터셋 선정 및 전처리

한국어, 영어 데이터로 실험을 진행했다. AI-Hub의 ‘다화자 음성 합성 데이터’[8]와‘LibriSpeech ASR corpus’[9]에서 언어별로 남녀 100명씩 총 200명의 발화를 선별하여 사용했다. 모든 발화는 명확하게 들리고 불필요한 소음이 없었으므로, 별도의 전처리 과정 없이 바로 실험에 활용할 수 있다.

3.2 알고리즘 & 파라미터 선정

PSOLA, McAdams, VTLN, Resampling 익명화 알고리즘을 사용하였다. 알고리즘 선택은 실제로 널리 사용하는 방식과 검증된 알고리즘을 기준으로 하였으며 근거는 다음과 같다. PSOLA는 방송 음성 변조에 널리 사용된다[4]. 음성 피치 조절은 누구나 쉽게 가능할 정도의 보편적인 기술로, 이에 대한 익명화 성능 연구가 필요하다고 보았다.[4] McAdams, VTLN, Resampling[10]은 Lightweight 모델에 포함된 방법들로, Voice Privacy Challenge 2020에서 익명화를 위한 표준으로 검증된 바 있다[10]. Lightweight 모델의 6가지 변조 방법 중 성능이 우수한 3가지 방법[4]을 채택하였다. 최종적으로 선정한 각 알고리즘의 음성 익명화 원리는 다음과 같다. PSOLA는 음성 신호를 피치 단위로 분할한 후 각 단위를 조작해 음성을 합성한다. McAdams는 음색을 변형하여 화자의 목소리를 바꾸는 방식으로, 주파수 변조 계수를 사용해 익명화를 수행한다[11]. VTLN은 성도 길이를 보정하여 음향적 차이를 줄이는 방식으로, 음성 주파수를 변형하여 익명화한다[12]. Resampling은 원본 음성의 샘플링 주파수를 변경하는 방식으로, 주파수를 α배로 늘린 후 다시 α배로 줄여 샘플링하는 방법이다. Fig.1은 각 익명화 알고리즘이 음성에 미치는 변형 정도를 보여준다. 음성의 변형이 클수록 익명화 효과는 높지만, 과도하면 음질이 저하될 수 있어 적절한 변형 수준을 유지하는 것이 중요하다.

JBBHCB_2025_v35n1_157_3_f0001.png 이미지

Fig. 1. Spectrogram showing speech variations by anonymization algorithm

프라이버시 보호와 음성의 명료함의 균형을 유지할 수 있는 최적의 파라미터를 찾기 위해 휴먼 테스트를 진행하였다. 관련 논문에서 제시된 파라미터 범위를 참고하여 0.1 간격으로 익명화 알고리즘을 통해 익명화 테스트를 진행한 후, 음성이 자연스럽게 들리는 범위를 최종적으로 선정하였다. 선정한 파라미터를 바탕으로 화자 당 발화 3개씩, 총 1200개의 음성 데이터에 대해 익명화를 진행해 36,000개의 익명화 음성 데이터를 생성하였다.

재식별 알고리즘은 다양한 임계값에서 알고리즘의 화자 식별성을 평가하여, 우수한 성능을 보인 ECAPA-TDNN을 선정하였다. 해당 알고리즘은 안정적이고 높은 정확도와 빠른 처리 속도를 보였고, 특히 SpeechBrain의 ECAPA-TDNN은 기존 X-Vector, ResNet보다 우수한 성능을 보였다[15].

Table 1. Parameter for each anonymization

JBBHCB_2025_v35n1_157_3_t0001.png 이미지

3.3 익명화 기준 설정 프레임워크

제안하는 프레임워크는 Fig.2와 같다. 입력 데이터를 그룹별로 나누어 재식별 임계값을 설정한 후, 여러 익명화 알고리즘을 적용한다. 이후 익명화된 음성을 음성 재식별 가능성 평가를 통해 적정 파라미터를 도출하는 방식이다. 프레임워크에 대한 자세한 설명은 3.4, 3.5와 같다. 본 실험에서는 한국어 남성, 한국어 여성, 영어 남성, 영어 여성 4개 그룹으로 나누었으며, 각 그룹은 200명의 화자와 화자 당 4개의 발화로 구성된 800개의 데이터를 사용하였다.

JBBHCB_2025_v35n1_157_3_f0002.png 이미지

Fig. 2. Overall framework for setting anonymization criteria

3.4 재식별 알고리즘 평가

프레임워크를 기반으로 ECAPA-TDNN 성능을 정확히 평가하고 임계값을 설정하기 위해, 영어와 한국어 화자 각각 200명을 대상으로 익명화된 음성과 동일한 화자의 다른 음성 간 재식별 가능성을 측정하여 재식별 알고리즘 테스트를 수행하였다. 임계값은 0.25에서 0.75까지 0.05 간격으로 조정하며 테스트하였다. 값은 재식별 알고리즘에서 음성 데이터의 화자를 효과적으로 구분할 수 있는 임계값을 파악하기 위해 선정된 값이다. 이 과정은 데이터셋 특성이 변하거나 재식별 알고리즘이 변경될 때마다 새로 수행되어야 한다.

3.5 음성 재식별 가능성 평가

음성 재식별 가능성 평가는 크게 두 단계로 나뉜다. 첫 번째 과정은 동일 화자의 다른 발화 음성과 익명화된 음성 간의 유사도를 ECAPA-TDNN을 이용해 측정하는 과정으로, 익명화된 음성이 동일 화자의 다른 발화 음성과 얼마나 유사한지 재식별 가능성을 평가하는 것을 목적으로 한다. 측정된 유사도에 재식별 알고리즘 평가에서 도출한 임계값을 적용하여 임계값 이상의 유사도를 기록한 경우 익명화 음성은 재식별된 것으로, 임계값 미만인 경우 그렇지 않은 것으로 평가하였다.

두 번째 과정에서는 EER을 활용해 익명화된 음성의 재식별 위험 감소를 평가하며, 재식별 가능성을 더욱 정밀하게 분석하였다. 평가는 익명화된 음성을 원본 화자와 9명의 다른 화자 음성과 비교해 유사도를 측정하는 방식으로 진행되었다. EER은 생체 인식 기술 성능 평가에 자주 사용되는 지표로, FRR과 FAR이 같아지는 지점을 의미한다. FRR은 동일 화자를 잘못 분류한 비율, FAR은 다른 화자를 동일 화자로 잘못 인식한 비율이다. EER이 낮을수록 화자 인식 성능이 높다는 것을 의미하므로 반대로 높은 EER은 높은 익명화 성능을 뜻한다.

본 연구는 음성 재식별 평가에서 도출된 결과를 바탕으로 최적의 파라미터 값을 권장한다. 해당 프레임워크는 현재 사용한 익명화 및 재식별 알고리즘에 한정되지 않으며 프라이버시 보호를 위한 익명화 파라미터를 도출하는 데 활용될 수 있다.

IV. 연구 결과

4.1 재식별 알고리즘 평가

본 실험은 화자의 성별과 언어에 따른 재식별 정확도를 평가하여 재식별 알고리즘에 대한 최적의 임계값을 찾는 것을 목적으로 한다. 실험을 통해 영어 남성은 0.50, 영어 여성은 0.45, 한국어 남성과 여성은 0.55로 최적의 임계값을 도출하였다. 해당 임계값에서 한국어 화자는 91% 이상, 영어 화자는 97% 이상의 정확도로 화자를 식별할 수 있었다.

실험 결과, 성별보다 언어에 따른 차이가 더 두드러졌다. 영어 화자는 임계값에 따른 정확도 차이가 크지 않아, 재식별 알고리즘이 임계값에 크게 의존하지 않고도 음성 특성을 효과적으로 포착해 안정적으로 인식했다. 반면, 한국어 화자는 정확도의 변동 폭이 커, 특정 구간을 제외한 값에서는 구분이 어려운 현상이 나타났다. 이는 한국어 화자에게 적합한 최적의 임계값을 찾는 것이 중요하며, 신중한 선택이 필요함을 보여준다.

JBBHCB_2025_v35n1_157_4_f0001.png 이미지

Fig. 3. Algorithm test results

4.2 음성 재식별 가능성 평가 결과

음성 재식별 가능성 평가의 첫 과정에서 각 알고리즘과 파라미터 조합의 재식별 위험 감소 효과를 평가한다. 이를 통해 이후 실험의 효율성을 높이며, 재식별 위험을 더욱 심도 있게 분석할 수 있다.

해당 실험의 결과 그래프는 익명화 알고리즘의 매개변수에 따른 유사도 평균 점수를 나타내며, 언어와 성별에 따라 분류된 총 4가지 그룹인 English Female, English Male, Korean Female, Korean Male의 결과를 보여준다. 각 그룹별로 실선은 매개변수에 따른 유사도 평균 점수이며, 점선은 해당 그룹의 재식별 기준값(Threshold)을 표시한다. 파라미터 1.0 또는 0.0 (VTLN의 경우)은 원본 음성이므로 스코어가 1을 나타낸다. 해당 파라미터를 기준값으로 하며, 임계값 이하의 유사도를 보인 알고리즘과 파라미터 조합은 재식별 위험이 낮음을 확인할 수 있다. 실험 결과, 모든 알고리즘에서 파라미터 값이 기준값에서 멀어질수록 음성 변형의 강도가 증가하며, 이에 따라 재식별 위험이 감소하는 경향이 나타났다(Fig. 4).

JBBHCB_2025_v35n1_157_5_f0001.png 이미지

Fig. 4. Re-Identification results for thresholds

PSOLA 알고리즘은 모든 파라미터에서 한국어 화자가 영어 화자보다 재식별 위험이 높았다. 이는 해당 알고리즘이 영어 화자에게는 효과적으로 동작했으나, 한국어 화자에게는 충분한 익명화 효과를 가져오지 못해 부적절하다는 것을 보여준다.

McAdams 알고리즘의 경우, 모든 그룹에서 재식별 위험이 가장 높게 평가되었으며, 특히 한국어 화자는 대부분의 파라미터 구간에서 익명화 성능이 저조하였다. Fig 4의 McAdams 그래프를 확인하면 다른 알고리즘에 비하여 상대적으로 완만한 양상을 보인다. 이는 파라미터 변화에 따른 음성 변형의 강도가 상대적으로 낮아, 재식별 위험 감소 효과가 제한적으로 나타난 것으로 해석된다.

VTLN과 Resampling 알고리즘은 언어 및 성별과 관계없이 비교적 안정적인 성능을 보였다. Resampling 알고리즘은 기준값 이상의 파라미터를 적용했을 때 더욱 효과적인 결과를 나타내며, 실험 결과의 일관성을 확인하였다.

이러한 결과를 바탕으로, 각 알고리즘의 특성이 언어와 성별에 따라 다르게 나타나는 경향이 있음을 확인할 수 있었다. PSOLA 알고리즘은 언어별 피치 특성 차이에 영향을 받았다. McAdams 알고리즘은 언어별 음색 차이에 민감하게 반응했으며, 특히 한국어 음성에서의 음색 변형의 강도가 부족해 재식별 위험 감소 효과가 제한적이었다. 성별에 따른 차이는 언어별 차이에 비해 상대적으로 미미했으나, 전반적으로 남성 화자가 여성 화자보다 재식별 위험이 높은 경향을 보였다. 이러한 분석을 통해 각 알고리즘의 특성과 언어적 차이를 고려한 추가적인 연구와 분석이 필요하다는 점을 제기할 수 있다.

결론적으로, 영어 화자의 경우 PSOLA 및 Resampling의 활용이 추천되며, 한국어 화자에게는 Resampling 알고리즘이 보다 적합한 것으로 평가되었다. VTLN 알고리즘은 언어 및 성별과 관계없이 안정성을 중시할 때 유용하게 활용될 수 있다. 반면, McAdams 알고리즘은 대부분의 그룹에서 재식별 위험이 높게 나타나 실제 사용 시 주의가 필요하다. 이 경우 익명화 성능 향상을 위해 추가적인 보완 조치가 필요하며, 재식별 위험이 높은 데이터셋에서는 사용을 지양하거나 다른 익명화 알고리즘과의 결합을 고려할 수 있다. 기준값을 벗어난 파라미터를 적극적으로 적용하여 음성 변형 강도를 강화함으로써 재식별 위험을 효과적으로 감소시킬 필요가 있다.

음성 익명화의 재식별 위험 감소 효과를 구체적으로 평가하기 위해 EER 분석을 진행하였다. Voice Privacy 2024 Challenge에서는 EER을 재식별 가능성 평가의 주요 지표로 사용하며, 값이 20% 이상일 경우 프라이버시 보호가 적절히 이루어진 것으로 간주한다[5]. EER 20%는 익명화된 데이터가 재식별 가능성을 상당한 수준으로 차단할 수 있음을 의미한다. EER 결과 그래프는 익명화 알고리즘의 매개변수 변화에 따른 Equal Error Rate를 나타낸다. 그래프에서 점선은 재식별 위험을 판단하는 기준값이며, 4가지 그룹인 English Male, English Female, Korean Male, Korean Female의 결과를 순서대로 보여준다.

영어 그룹은 한국어 그룹보다 EER이 낮은 경향을 보였다. PSOLA 알고리즘의 경우 0.5, 0.7, 1.3, 1.5 파라미터를 사용했을 때 모든 그룹에서 EER이 20%를 초과하여 우수한 익명화 성능을 보였다. 특히 파라미터 0.7, 1.3에서 급격하게 EER 값이 상승하여 해당 구간이 익명화 성능 향상의 발화점이라고 판단된다. McAdams 알고리즘의 경우 한국어 그룹 파라미터가 일부 파라미터(0.7, 1.3)에서 EER 20% 이상을 기록했다. 이는 다른 알고리즘과 비교하여 성능이 좋지 않다고 판단된다. 특히, 영어 그룹의 경우에는 EER 기준치를 초과한 파라미터가 없기 때문에 재식별 위험이 높다. VTLN 알고리즘의 경우 한국어 여성의 파라미터가 0.1일 때 급격하게 EER 값이 상승하여 이전 파라미터보다 강력한 익명화 효과를 보여준다. 한국어 남성의 EER 값을 확인하면 -0.15에서 일시적으로 성능 저하가 관찰되었으나 –0.2에서 익명화 성능이 회복되었다. 영어도 한국어와 거의 동일한 EER 값 증가 경향을 보인다. Resampling 알고리즘은 파라미터 0.7, 0.8, 1.2, 1.3에서 거의 모든 그룹이 EER 20% 이상을 보였다. 특히 한국어 그룹에서는 60%에 가까운 EER을 기록했다. 이는 해당 파라미터에서 음성 익명화 성능이 강력하게 적용되었으며, 한국어 음성에서 좋은 결과를 보여준다. 또한 파라미터 1.1과 1.2, 0.9와 0.8을 비교했을 때 가장 급격한 차이를 보인다. 이러한 결과는 일정 구간에서 익명화 성능이 급격히 향상하는 부분이 존재하고, 익명화 성능의 전환점이 존재함을 보인다. 따라서 파라미터 설정에 따라 익명화 성능이 크게 달라질 수 있음을 시사한다.

JBBHCB_2025_v35n1_157_6_f0001.png 이미지

Fig. 5. EER result

음성 재식별 가능성 평가를 통해 각 익명화 알고리즘에 대해 권고하는 파라미터 값을 도출하였다. 해당 알고리즘과 파라미터 조합을 적용하면 발화자의 특성에 맞추어 재식별 위험을 효과적으로 차단할 수 있으며, 음성 훼손을 최소화하면서 개인정보를 안전하게 보호할 수 있다.

Table 2. Recommended parameters by algorithm

JBBHCB_2025_v35n1_157_6_t0001.png 이미지

V. 결론

음성 데이터의 개인정보보호를 위해 익명화 알고리즘 성능을 평가하고 최적화할 수 있는 파라미터 설정을 도출하고자 하였다. 실험 결과, 각 익명화 알고리즘은 고유의 특성과 장단점을 보였으며, 재식별 위험을 줄이기 위해서는 파라미터 설정이 중요한 역할을 한다는 점을 확인했다. 이는 음성 데이터 익명화를 위한 알고리즘 선택 시, 상황에 따라 적합한 알고리즘과 파라미터 설정이 필요함을 시사한다.

본 연구의 의의는 성별과 언어에 따른 네 가지 화자 그룹에 맞추어, 익명화 성능을 최적화할 수 있는 프레임워크를 구축한 데 있다. 이를 통해 각 그룹에 따라 재식별 위험을 최소화하는 알고리즘과 파라미터 설정을 체계적으로 제안했으며, 음성 익명화 처리의 효율성을 높이는 기준을 마련하였다. 다만, 본 연구는 특정 알고리즘과 파라미터에 초점을 맞추었기 때문에, 언어와 성별, 알고리즘 특성의 차이에 따라 다른 결과가 나올 수 있다는 한계가 존재한다. 향후 연구에서는 다양한 알고리즘과 데이터셋을 고려할 필요가 있다. 앞으로의 연구에서는 다양한 음성 데이터와 더 폭넓은 파라미터 설정을 통해 개인정보 보호와 데이터 활용 간의 균형을 맞추도록 발전시킬 수 있을 것이다. 또한, 타 언어와 특수 환경에서도 유연하게 적용이 가능한 프레임워크로 음성 데이터 익명화의 범용성과 실효성을 높일 필요가 있다.

References

  1. R. Wang, L. Chen, K. A. Lee and Z.-H. Ling, "Asynchronous voice anonymization using adversarial perturbation on speaker embedding," arXiv preprint arXiv:2406.08200, Nov. 2024.
  2. G. P. Prajapati, D. K. Singh, P. P. Amin, and H. A. Patil, "Voice privacy using cyclegan and time-scale modification," Computer Speech & Language, vol. 74, pp.101353, July. 2022.
  3. B. M. L. Srivastava, N. Vauquier, M. Sahidullah, A. Bellet, M. Tommasi and E. Vincent, "Evaluating voice conversion-based privacy protection against informed attackers," ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 2802-2806, May. 2020.
  4. Seungmin Kim, Dae-Eol Park and Daeseon Choi, "Comparison of korean speech de-identification performance of speech de-identification model and broadcast voice modulation," Smart Media Journal, 12(2), pp.56-65, Mar. 2023. https://doi.org/10.30693/SMJ.2023.12.2.56
  5. N. Tomashenko, X. Miao, P. Champion, S. Meyer, X. Wang, E. Vincent, M. Panariello, N. Evans, J. Yamagishi and M. Todisco, "The voiceprivacy 2024 challenge evaluation plan," arXiv preprint arXiv:2404.02677, Apr. 2024.
  6. M. Panariello, N. Tomashenko, X. Wang, X. Miao, P. Champion, H. Nourtel, M. Todisco, N. Evans, E. Vincent, and J. Yamagishi, "Voice Privacy 2022 challenge: progress and perspectives in voice anonymisation," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 32, pp.3477-3491, Jul. 2024. https://doi.org/10.1109/TASLP.2024.3430530
  7. M. Maouche, BML. Srivastava, N. Vauquier, A. Bellet, M. Tommasi and E. Vincent, "A comparative study of speech anonymization metrics," INTERSPEECH 2020, Oct. 2020.
  8. AI HUB, "Multi-Speaker voice synthesis data," https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=542, 2021.
  9. Open SLR, "LibriSpeech ASR corpus," https://www.openslr.org/12, 2015.
  10. N. Tomashenko, X. Wang, E. Vincent, J. Patino, B. M. L. Srivastava, P.-G. Noé, A. Nautsch, N. Evans, J. Yamagishi, B. O"Brien, A. Chanclu, J.-F. Bonastre, M. Todisco and M. Maouche, "The voiceprivacy 2020 challenge: results and findings," Computer Speech & Language, vol. 74, pp.101362, Jul. 2022.
  11. J. Patino, N. Tomashenko, M. Todisco, A. Nautsch and N. Evans, "Speaker anonymisation using the McAdams coefficient," arXiv preprintarXiv:2011.01130, Sep. 2021.
  12. D. Sundermann and H. Ney, "VTLN-based voice conversion," Proceedings of the 3rd IEEE International Symposium on Signal Processing and Information Technology, (IEEE Cat. No. 03EX795) pp.556-559, Dec. 2003.
  13. T. Drugman and T. Dutoit, "A comparative evaluation of pitch modification techniques," 2010 18th European Signal Processing Conference. IEEE, pp. 756-760, Aug. 2010.
  14. H. Kai, S. Takamichi, S. Shiota, and H. Kiya, "Lightweight voice anonymization based on data-driven optimization of cascaded voice modification modules," 2021 IEEE Spoken Language Technology Workshop, pp. 560-566, Jan. 2021.
  15. M. Ravanelli, T. Parcollet, P. Plantinga, A. Rouhe, S. Cornell, L. Lugosch, C. Subakan, N. Dawalatabad, A. Heba, J. Zhong, J.-C. Chou, S.-L. Yeh, S.-W. Fu, C.-F. Liao, E. Rastorgueva, F. Grondin, W. Aris, H. Na, Y. Gao, R. De Mori, and Y. Bengio, "Speechbrain: A general-purpose speech toolkit," arXiv preprint arXiv:2106.04624, Jun. 2021