• 제목/요약/키워드: VQ-VAE

검색결과 2건 처리시간 0.014초

이미지 분할 여부에 따른 VQ-VAE 모델의 적대적 예제 복원 성능 비교 (Comparison of Adversarial Example Restoration Performance of VQ-VAE Model with or without Image Segmentation)

  • 김태욱;현승민;홍정희
    • 융합신호처리학회논문지
    • /
    • 제23권4호
    • /
    • pp.194-199
    • /
    • 2022
  • 다양하고 복잡한 영상 데이터 기반의 산업에서 높은 정확도와 활용성을 위해 고품질의 데이터를 위한 전처리가 요구된다. 하지만 기존 이미지 또는 영상 데이터와 노이즈를 결합해 기업에 큰 위험을 초래할 수 있는 오염된 적대적 예제가 유입될 시 기업의 신뢰도 및 보안성, 완전한 결과물 확보를 위해 손상되기 이전으로의 복원이 필요하다. 이를 위한 대비책으로 기존에는 Defense-GAN을 사용하여 복원을 진행하였지만, 긴 학습 시간과 복원물의 낮은 품질 등의 단점이 존재하였다. 이를 개선하기 위해 본 논문에서는 VQ-VAE 모델을 사용함과 더불어 이미지 분할 여부에 따라 FGSM을 통해 만든 적대적 예제를 이용하는 방법을 제안한다. 먼저, 생성된 예제를 일반 분류기로 분류한다. 다음으로 분할 전의 데이터를 사전 학습된 VQ-VAE 모델에 전달하여 복원한 후 분류기로 분류한다. 마지막으로 4등분으로 분할된 데이터를 4-split-VQ-VAE 모델에 전달하여 복원한 조각을 합친 뒤 분류기에 넣는다. 최종적으로 복원된 결과와 정확도를 비교한 후 분할 여부에 따른 2가지 모델의 결합 순서에 따라 성능을 분석한다.

벡터 양자화 변분 오토인코더 기반의 폴리 음향 생성 모델을 위한 잔여 벡터 양자화 적용 연구 (A study on the application of residual vector quantization for vector quantized-variational autoencoder-based foley sound generation model)

  • 이석진
    • 한국음향학회지
    • /
    • 제43권2호
    • /
    • pp.243-252
    • /
    • 2024
  • 최근에 연구되기 시작한 폴리(Foley) 음향 생성 모델 중 벡터 양자화 변분 오토인코더(Vector Quantized-Variational AutoEncoder, VQ-VAE) 구조와 Pixelsnail 등 생성모델을 활용한 생성 기법은 중요한 연구대상 중 하나이다. 한편, 딥러닝 기반의 음향 신호의 압축/복원 분야에서는 기존의 VQ-VAE 구조에 비해 잔여 벡터 양자화 기술이 더 적합한 것으로 보고되고 있으며, 따라서 본 논문에서는 폴리 음향 생성 분야에서도 잔여 벡터 양자화 기술이 효과적으로 적용될 수 있을지 연구하고자 한다. 이를 위하여 본 논문에서는 기존의 VQ-VAE 기반의 폴리 음향 생성 모델에 잔여 벡터 양자화 기술을 적용하되, Pixelsnail 등 기존의 다른 모델과 호환이 가능하고 연산 자원의 소모를 늘리지 않는 모델을 고안하여 그 효과를 확인하고자 하였다. 효과를 검증하기 위하여 DCASE2023 Task7의 데이터를 활용하여 실험을 진행하였으며, 그 결과 평균적으로 0.3 가량의 Fréchet audio distance 의 향상을 보이는 것을 확인하였다. 다만 그 성능 향상의 정도가 제한적이었으며, 이는 연산 자원의 소모를 유지하기 위하여 시간-주파수축의 분해능이 저하된 영향으로 판단된다.