Paper review/Image-to-Image
-
[Image-to-Image] Image-to-Image Translation with Conditional Adversarial Networks 번역 및 정리 (Pix2Pix)Paper review/Image-to-Image 2022. 1. 6. 13:45
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/1611.07004.pdf 주요 기여 0. Abstract Image-to-image translation에 대한 범용 솔루션으로서 conditional adversarial networks를 탐색 이러한 network는 input 이미지에서 output 이미지로의 매핑을 학습할 뿐만 아니라 이 매핑을 훈련시키기 위한 손실 함수를 학습 이를 통해 label map에 사진을 합성하고, edge map에서 object를 재구성하고, image를 컬러화하는 데 효과적이라는 것을 입증 mapping 함수와 손실 함수를 수작업으로 설계하지 않고도 합리적인 결과를 얻을 수 있음 1. Introduction Image..
-
[Image-to-Image] Conditional Generative Adversarial Nets 번역 및 정리Paper review/Image-to-Image 2022. 1. 5. 12:29
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/1411.1784.pdf 주요 기여: CGAN의 제안을 통해 데이터의 제어가 불가능했던 기존의 GAN을 개선하여 조건에 따른 데이터를 generate하는 것을 가능하게 함 0. Abstract GAN(ganerative adversatial nets)의 조건부 버전인 CGAN(Conditional Generative Adversarial Nets)을 제안 조건부 = y 데이터 (label) 지정 가능 CGAN을 통해 MNIST에서 class 별 data를 생성할 수 있음 (0~9) multi-modal에 어떻게 사용되는지와 image tagging에 대한 예시를 보임 1. Introduction GAN은 ..
-
[Image-to-Image] TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up 번역 및 정리 (TransGAN)Paper review/Image-to-Image 2021. 12. 13. 11:46
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2102.07074.pdf 주요 기여 Transformer + GAN -> TransGAN 제안 0. Abstract 최근 Transformer는 NLP뿐만 아니라 CV에서도 사용될 뿐만 아니라 classification, detection, segmentation과 같은 여러 task에서 SOTA를 달성하고 있다. 우리는 이를 generative adversarial networks (GANs)과 같은 어려운 vision task에 적용해본다. 우리의 목표는 Transformer 기반 아키텍처만을 사용하여 GAN을 구축하는 것이다. TransGAN이라고 불리는 우리의 표준 GAN 아키텍처는 feature..
-
[Image-to-Image] Tensor-to-Image: Image-to-Image Translation with Vision Transformers 번역 및 정리Paper review/Image-to-Image 2021. 12. 6. 21:50
@ 굵은 글씨는 중요한 내용, 빨간 글씨는 내가 추가한 내용 https://arxiv.org/pdf/2110.08037.pdf 정리: Image-to-Image 분야에 transformer를 적용 (+ ViT의 patch 아이디어) 0. Abstract Transformer는 도입된 이후로 큰 주목을 받고 있다. Transformer는 NLP는 물론 Vision에서 사용될 수 있다는 것을 증명함에 따라 모든 영역을 차지하기 시작했다. 본 논문에서는 image-to-image translation을 위해 tensor-to-image에 맞게끔 설계된 모델에 기반한 Vision Transformer을 사용한다. Self-attention을 통해, 모델은 한 번의 수정도 없이 일반화하고 다양한 task에 적용할..