• 제목/요약/키워드: 조건 적대적 생성 신경망

검색결과 7건 처리시간 0.02초

R2와 어텐션을 적용한 유넷 기반의 영상 간 변환에 관한 연구 (Image-to-Image Translation Based on U-Net with R2 and Attention)

  • 임소현;전준철
    • 인터넷정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.9-16
    • /
    • 2020
  • 영상 처리 및 컴퓨터 비전 분야에서 하나의 영상을 통해 다른 영상으로 재구성하거나 새로운 영상을 생성하는 문제는 하드웨어의 발전에 따라 꾸준히 주목받고 있다. 그러나 컴퓨터를 통해 생성한 이미지를 사람의 눈으로 바라봤을 때 자연스럽지 않다는 문제 또한 계속해서 대두되고 있다. 최근 딥러닝 분야에 대한 연구가 활발히 진행됨에 따라 이를 활용한 영상 생성 및 개선 문제 또한 활발히 연구되고 있으며 그 중에서도 적대적 생성 신경망(Generative Adversarial Network)이라는 네트워크가 영상 생성 분야에 있어 좋은 결과를 보이고 있다. 적대적 생성 신경망이 제안된 이후 이를 기반으로 하는 다양한 네트워크가 제시됨에 따라 영상 생성 분야에서 더 자연스러운 영상을 생성하는 것이 가능해졌다. 그 중 pix2pix은 조건 적대적 생성 신경망 모델로 다양한 데이터셋에서도 좋은 성능을 보이는 범용적인 네트워크이다. pix2pix는 U-Net을 기반으로 두고 있으나 U-Net을 기반으로 하는 네트워크 중에서는 더 좋은 성능을 보이는 네트워크가 다수 존재한다. 때문에 본 연구에서는 pix2pix의 U-Net에 다양한 네트워크를 적용해 영상을 생성하고 그 결과를 상호 비교 평가한다. 각 네트워크를 통해 생성된 영상을 통해 기존의 U-Net을 사용한 pix2pix 모델보다 어텐션, R2, 어텐션-R2 네트워크를 적용한 pix2pix 모델이 더 좋은 성능을 보이는 것을 확인하고 그 중 가장 성능이 뛰어난 네트워크의 한계점을 향후 연구로 제시한다.

Generative Adversarial Network 학습을 통한 감정 텍스트 생성에 관한 연구 (A Study on the Emotional Text Generation using Generative Adversarial Network)

  • 김우성;김현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.380-382
    • /
    • 2019
  • GAN(Generative Adversarial Network)은 정해진 학습 데이터에서 정해진 생성자와 구분자가 서로 각각에게 적대적인 관계를 유지하며 동시에 서로에게 생산적인 관계를 유지하며 가능한 긍정적인 영향을 주며 학습하는 기계학습 분야이다. 전통적인 문장 생성은 단어의 통계적 분포를 기반으로 한 마르코프 결정 과정(Markov Decision Process)과 순환적 신경 모델(Recurrent Neural Network)을 사용하여 학습시킨다. 이러한 방법은 문장 생성과 같은 연속된 데이터를 기반으로 한 모델들의 표준 모델이 되었다. GAN은 표준모델이 존재하는 해당 분야에 새로운 모델로써 다양한 시도가 시도되고 있다. 하지만 이러한 모델의 시도에도 불구하고, 지금까지 해결하지 못하고 있는 다양한 문제점이 존재한다. 이 논문에서는 다음과 같은 두 가지 문제점에 집중하고자 한다. 첫째, Sequential 한 데이터 처리에 어려움을 겪는다. 둘째, 무작위로 생성하기 때문에 사용자가 원하는 데이터만 출력되지 않는다. 본 논문에서는 이러한 문제점을 해결하고자, 부분적인 정답 제공을 통한 조건별 생산적 적대 생성망을 설계하여 이 방법을 사용하여 해결하였다. 첫째, Sequence to Sequence 모델을 도입하여 Sequential한 데이터를 처리할 수 있도록 하여 원시적인 텍스트를 생성할 수 있게 하였다. 둘째, 부분적인 정답 제공을 통하여 문장의 생성 조건을 구분하였다. 결과적으로, 제안하는 기법들로 원시적인 감정 텍스트를 생성할 수 있었다.

주목 메커니즘 기반의 멀티 스케일 조건부 적대적 생성 신경망을 활용한 고해상도 흉부 X선 영상 생성 기법 (Generation of High-Resolution Chest X-rays using Multi-scale Conditional Generative Adversarial Network with Attention)

  • 안경진;장영걸;하성민;전병환;홍영택;심학준;장혁재
    • 방송공학회논문지
    • /
    • 제25권1호
    • /
    • pp.1-12
    • /
    • 2020
  • 의료분야에서 질환별 유병률 차이로 인한 데이터 수적 불균형은 흔하게 발생되는 문제로 인공지능 학습 성능을 저하시켜 개발의 어려움을 초래한다. 최근 이러한 데이터 수적 불균형문제를 해결하기 위한 한 방법으로 적대적 생성 신경망(GAN) 기술이 도입되었고 다양한 분야에 성공적으로 적용되어왔다. 그러나 수적 불균형에 의해 저하된 성능 문제를 해결하는데 있어서 기존 연구들의 영상 해상도가 아직 충분하지 않고 영상 내 구조가 전역적으로 일관성 있게 모델링 되지 않아 좋은 결과를 얻기 어렵다. 본 논문에서는, 흉부 X선 영상 데이터의 수적 불균형문제를 해결하기 위하여 고해상도 영상을 생성할 수 있는 주목 메커니즘 기반 멀티 스케일 조건부 적대적 생성 네트워크를 제안한다. 해당 네트워크는 질환제어 조건변수에 의해 하나의 네트워크만으로 다양한 질환 영상을 생성할 수 있어 각 클래스별로 학습을 하는 비효율성을 줄였고, 자기 주목 메커니즘을 통해 영상 내 장거리 종속성 문제를 해결하였다.

방사선 조사선량의 최소화를 위한 생성적 적대 신경망을 활용한 복부 엑스선 영상 최적화 연구 (Optimization of Abdominal X-ray Images using Generative Adversarial Network to Realize Minimized Radiation Dose)

  • 김상우;임재동
    • 한국방사선학회논문지
    • /
    • 제17권2호
    • /
    • pp.191-199
    • /
    • 2023
  • 본 연구는 높은 관전압과 낮은 관전류로 인한 복부 영상 노이즈 발생을 BSRGAN (Deep Bline Image Super-Resolution Generative Adversarial)기법으로 보정하고, 최소화된 방사선량을 가진 촬영 조건을 제시하는 것을 목표로 하였다. 먼저 각 촬영 조건에 따른 입사표면 선량(entrance surface doses, ESD)을 측정하였고, 해당 촬영 조건들의 복부 영상을 획득한 후 그 획득한 모든 복부 영상들은 BSRGAN 기법을 통해 재구성하였다. 영상 분석방법으로는 복부의 기준 촬영 조건인 80 kVp, 320 mA의 영상과 비교 분석하였고, 그 방법으로는 평균제곱오차(mean squared error, MSE), 최대 신호 대 잡음비(peak signal-to-noise ratio, PSNR), 그리고 구조적 유사도 지수 측정(structural similarity index measure, SSIM)을 사용하였다. 또한, BSRGAN 기법으로 재구성된 복부 영상효과를 검증하기 위해 절편 신호강도 분석은 실행되었다. MSE가 가장 낮은 조사조건은 90 kVp, 125 mA와 100 kVp, 100 mA (약 0.285)이었고, PSNR은 37.694와 SSIM은 0.999로 나타났다. 그 촬영 조건들은 ESD를 약 52 ~ 53%를 감소시켰다. 게다가, 최적화된 조건들의 신호 강도의 변화는 기준 복부 영상보다 오히려 감소하였다. 이 결과는 방사선량을 크게 줄임과 동시에 기준 복부 영상과 유사한 영상을 획득할 수 있음을 의미하며, 이는 방사선방호의 원리인 ALARA 개념을 충분히 반영할 수 있음을 시사한다.

생성적 적대 신경망 기반의 딥 러닝 비디오 초 해상화 모델 경량화 및 최적화 기법 연구 (A Study on Lightweight and Optimizing with Generative Adversarial Network Based Video Super-resolution Model)

  • 김동휘;이수진;박상효
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.1226-1228
    • /
    • 2022
  • FHD 이상을 넘어선 UHD급의 고해상도 동영상 콘텐츠의 수요 및 공급이 증가함에 따라 전반적인 산업 영역에서 네트워크 자원을 효율적으로 이용하여 동영상 콘텐츠를 제공하는 데에 관심을 두게 되었다. 기존 방법을 통한 bi-cubic, bi-linear interpolation 등의 방법은 딥 러닝 기반의 모델에 비교적 인풋 이미지의 특징을 잘 잡아내지 못하는 결과를 나타내었다. 딥 러닝 기반의 초 해상화 기술의 경우 기존 방법과 비교 시 연산을 위해 더 많은 자원을 필요로 하므로, 이러한 사용 조건에 따라 본 논문은 초 해상화가 가능한 딥 러닝 모델을 경량화 기법을 사용하여 기존에 사용된 모델보다 비교적 적은 자원을 효율적으로 사용할 수 있도록 연구 개발하는 데 목적을 두었다. 연구방법으로는 structure pruning을 이용하여 모델 자체의 구조를 경량화 하였고, 학습을 진행해야 하는 파라미터를 줄여 하드웨어 자원을 줄이는 연구를 진행했다. 또한, Residual Network의 개수를 줄여가며 PSNR, LPIPS, tOF등의 결과를 비교했다.

  • PDF

Phonetic Posterior Grams에 의해 조건화된 적대적 생성 신경망을 사용한 음성 변환 시스템 (Voice Conversion using Generative Adversarial Nets conditioned by Phonetic Posterior Grams)

  • 임진수;강천성;김동하;김경섭
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.369-372
    • /
    • 2018
  • 본 논문은 매핑 되지 않은 입력 음성과 목표음성 사이에 음성 변환하는 비 병렬 음성 변환 네트워크를 제안한다. 기존 음성 변환 연구에서는 변환 전후 스펙트로그램의 거리 오차를 최소화하는 방법을 주로 학습 한다. 이러한 방법은 MSE의 이미지를 평균 내는 특징으로 인하여 생성된 스펙트로그램의 해상도가 저하되는 문제점이 있었다. 또한, 병렬 데이터를 사용해 연구를 진행했기 때문에 데이터를 수집하는 것에도 어려움이 많았다. 본 논문에서는 입력 음성의 발음 PPGs를 사용하여 비 병렬 데이터 간 학습을 진행 하며, GAN 학습을 통해 더욱 선명한 음성을 생성하는 방법을 사용하였다. 제안한 방법의 유효성을 검증하기 위해서 기존 음성 변환 시스템에서 많이 사용하는 GMM 기반 모델과 MOS 테스트를 진행하였으며 기존 모델에 비하여 성능이 향상되는 결과를 얻었다.

  • PDF

화자 인식을 위한 적대학습 기반 음성 분리 프레임워크에 대한 연구 (A study on speech disentanglement framework based on adversarial learning for speaker recognition)

  • 권유환;정수환;강홍구
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.447-453
    • /
    • 2020
  • 본 논문은 딥러닝 기법을 활용하여 음성신호로부터 효율적인 화자 벡터를 추출하는 시스템을 제안한다. 음성신호에는 발화내용, 감정, 배경잡음 등과 같이 화자의 특징과는 관련이 없는 정보들이 포함되어 있다는 점에 착안하여 제안 방법에서는 추출된 화자 벡터에 화자의 특징과 관련된 정보는 가능한 많이 포함되고, 그렇지 않은 비화자 정보는 최소화될 수 있도록 학습을 진행한다. 특히, 오토-인코더 구조의 부호화 기가 두 개의 임베딩 벡터를 추정하도록 하고, 효과적인 손실 함수 조건을 두어 각 임베딩이 화자 및 비화자 특징만 각각 포함할 수 있도록 하는 효과적인 화자 정보 분리(disentanglement)방법을 제안한다. 또한, 화자 정보를 유지하는데 도움이 되는 생성적 적대 신경망(Generative Adversarial Network, GAN)에서 활용되는 판별기 구조를 도입함으로써, 디코더의 성능을 향상시킴으로써 화자 인식 성능을 보다 향상시킨다. 제안된 방법에 대한 적절성과 효율성은 벤치마크 데이터로 사용되고 있는 Voxceleb1에 대한 동일오류율(Equal Error Rate, EER) 개선 실험을 통하여 규명하였다.