ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Image-to-Image] Conditional Generative Adversarial Nets 번역 및 정리
    Paper review/Image-to-Image 2022. 1. 5. 12:29

    @ 굵은 글씨 중요한 내용, 빨간 글씨는 내가 추가한 내용

     

    https://arxiv.org/pdf/1411.1784.pdf

     

    주요 기여:

    • CGAN의 제안을 통해 데이터의 제어가 불가능했던 기존의 GAN을 개선하여 조건에 따른 데이터를 generate하는 것을 가능하게 함

     

    0. Abstract

    GAN(ganerative adversatial nets)의 조건부 버전인 CGAN(Conditional Generative Adversarial Nets)을 제안

    • 조건부 = y 데이터 (label) 지정 가능
    • CGAN을 통해 MNIST에서 class 별 data를 생성할 수 있음 (0~9)
    •  multi-modal에 어떻게 사용되는지와 image tagging에 대한 예시를 보임

     

    1. Introduction

    GAN은 생성 모델의 많은 계산적 어려움을 피하기 위해 도입되었지만, 기존 GAN에서는 생성되는 데이터에 대한 제어를 할 수 없음


    본 연구에서는 조건부 적대적 네트워크를 구성할 수 있는 방법을 보인다.

    • 추가 정보(조건부)에 따라 모델을 조절함으로써 데이터 생성 프로세스를 제어할 수 있음
    • 이러한 제어는 class label, 데이터 일부(inpainting), 다른 modality의 데이터 등에 기초할 수 있음
    • 결과는 class label이 있는 MNIST 숫자 dataset과 multi-modal 학습을 위한 MIR Flickr 25,000 dataset에서 보인다.

     

    3. Conditional Adversarial Nets

    3.1 Generative Adversarial Nets

    GAN은 최근 생성 모델을 훈련시키는 새로운 방법으로 도입되었다.

    • 데이터 분포를 real data에 가깝게 생성하도록 학습되는 generative model G (D(G(z))=1이 되도록 학습)
    • G가 아닌 학습 데이터일 확률을 추정하는 discriminator model D (D(real)=1, D(G(z))=0 이 되도록학습)
    • G와 D는 다층 퍼셉트론과 같은 non-linear mapping function일 수 있다.
    •  

    G와 D는 동시에 학습된다.

    • 데이터 x에 대한 generator 분포 pg를 학습하기 위해 G는 사전 노이즈 분포 pz(z)에서 데이터 공간까지의 매핑 함수를 G(z; θg)로 구축한다.
    • 판별자 D(x; θd)는 x가 pg가 아닌 훈련 데이터에서 왔을 확률을 나타내는 단일 스칼라를 출력한다. 
    • G는 아래 식을 최소화 하고, D는 최대화 하게끔 학습된다 (경쟁적으로 학습).

     

    3.2 Conditional Adversarial Nets

    G와 D 모두 y 조건이 주어지면, CGAN으로 만들 수 있다.

    • y는 class label, modality data등 모든 종루의 보조 정보이다.
    • G와 D의 input에 y을 추가하여 데이터 생성을 제어할 수 있다.

    G에서는 input noise pz(z)와 y가 결합되며, D에서 x와 y는 입력과 판별 함수로 표시된다. 이때, GAN 학습 framework는 hidden representation이 어떻게 생겼는지에 영향을 받지 않는다.

    수식은 다음과 같다.

     

    3. Conditional Adversarial Nets

    4.1 Unimodal

    MNIST dataset에서의 결과

    class 별로 CGAN을 통해 생성된 이미지

     

    4.2 Multimodal

    이미지에 대해 생성한 tag와 사람이 생성한 tag 비교

     

     

    5. Future Work

    본 논문이 제안한 CGAN은 조건부 적대적 네트의 잠재력을 보여주고 다른 분야로의 응용에 대한 가능성을 보임

    • 현재 실험에서는 각 태그를 개별적으로만 사용하지만, 여러 태그를 동시에 사용한다면 더 나은 결과를 얻을 수 있을 것이라고 생각
    • 추후 연구는 언어 모델을 배우기 위한 공동 학습 계획을 구축하는 것

     

    My Discussion

    --> 우선 짧아서 너무 좋음

    -->D(x|y)랑 D(G(z|y))랑 D에 들어가는 조건이 다른거 아닌가,,? 모르겟,,,

    댓글

Designed by Tistory.